ก้าวใหม่! AI "อาลีบาบา" สร้างอวาตาร์ พูด–ร้อง–แสดง

ที่เมืองหางโจว ประเทศจีน อาลีบาบา ประกาศเปิดตัว Wan2.2-S2V (Speech-to-Video) โมเดลโอเพ่นซอร์สใหม่ล่าสุด ภายใต้ตระกูลโมเดลสร้างวิดีโอ Wan2.2 ที่ออกแบบมาเพื่อสร้างวิดีโอดิจิทัลมนุษย์ หรือ อวาตาร์ที่สามารถพูด ร้องเพลง และแสดงท่าทางได้อย่างเป็นธรรมชาติ
เทคโนโลยีนี้สามารถสร้างวิดีโอแอนิเมชันคุณภาพสูงจากภาพถ่ายเพียงใบเดียว ผสานเข้ากับเสียงที่ป้อนเข้า โดยระบบสามารถเลือกการจัดเฟรมได้หลายรูปแบบ ทั้งภาพครึ่งตัว เต็มตัว หรือแบบโคลสอัป รวมถึงการสร้างการเคลื่อนไหวของตัวละครและสภาพแวดล้อมตามคำสั่งได้อย่างแม่นยำ รองรับทั้งงานบันเทิง การออกแบบ ไปจนถึงการนำเสนอเชิงวิชาชีพ
จุดเด่นสำคัญของ Wan2.2-S2V คือเทคโนโลยี Audio-driven Animation ที่แปลงเสียงเป็นการเคลื่อนไหวเสมือนจริง ตั้งแต่การสนทนาไปจนถึงการร้องเพลง และยังรองรับการทำงานพร้อมกันหลายตัวละครในฉากเดียว นอกจากนี้ยังสามารถสร้างอวาตาร์ได้หลากหลาย ตั้งแต่การ์ตูน สัตว์ ไปจนถึงตัวละครสไตล์แฟนตาซี
เพื่อรองรับการใช้งานที่หลากหลาย อาลีบาบาได้พัฒนาให้รองรับความละเอียดวิดีโอทั้ง 480P และ 720P ซึ่งเหมาะสมทั้งการผลิตคอนเทนต์บนโซเชียลมีเดียและงานนำเสนอเชิงธุรกิจ ความก้าวหน้านี้ทำให้เทคโนโลยีก้าวข้ามขีดจำกัดของงานแอนิเมชันแบบ "talking-head" ไปสู่การควบคุมการเคลื่อนไหวระดับโกลบอลและรายละเอียดเฉพาะจุดพร้อมกัน ทำให้ได้การแสดงออกที่เป็นธรรมชาติแม้ในสถานการณ์ซับซ้อน
ทีมวิจัยของอาลีบาบายังได้สร้างชุดข้อมูลเสียง–ภาพขนาดใหญ่ที่จำลองสภาพแวดล้อมการผลิตภาพยนตร์และโทรทัศน์โดยเฉพาะ พร้อมใช้วิธีการฝึกแบบหลายความละเอียด ทำให้โมเดลสามารถสร้างวิดีโอได้ทั้งแนวตั้งสำหรับคอนเทนต์สั้น และแนวนอนสำหรับงานภาพยนตร์หรือโทรทัศน์
สำหรับนักพัฒนาทั่วโลก โมเดล Wan2.2-S2V เปิดให้ดาวน์โหลดแล้วบนแพลตฟอร์ม Hugging Face, GitHub และ ModelScope ของ Alibaba Cloud โดยอาลีบาบาเคยปล่อยรุ่น Wan2.1 และ Wan2.2 ไปก่อนหน้านี้ ซึ่งถูกดาวน์โหลดรวมแล้วกว่า 6.9 ล้านครั้ง แสดงถึงบทบาทสำคัญของบริษัทในการสนับสนุนชุมชนโอเพ่นซอร์สระดับโลก
อาลีบาบาในฐานะผู้นำด้านเทคโนโลยีระดับนานาชาติ ยังคงเดินหน้าพัฒนาเครื่องมือดิจิทัลและโครงสร้างพื้นฐานบนคลาวด์ เพื่อเสริมศักยภาพให้กับธุรกิจ ครีเอเตอร์ และนักออกแบบทั่วโลกในการสร้างสรรค์ผลงานอย่างไร้ขีดจำกัดในยุคดิจิทัล
Tag
ยอดนิยมในตอนนี้
