น่าทึ่งหรือน่ากลัว ? AI ของ Microsoft เปลี่ยนรูปนิ่งเป็นวิดีโอ พูดได้ ร้องได้ สมจริงทั้งสีหน้าและอารมณ์
นักวิจัยของบริษัทเทคโนโลยียักษ์ใหญ่อย่างไมโครซอฟต์ (Microsoft) ได้เปิดเผยโมเดลปัญญาประดิษฐ์ (AI) ชื่อวาซา-1 (VASA-1) ที่สามารถเปลี่ยนรูนิ่ง ไม่ว่าจะเป็นรูปถ่ายของมนุษย์ การ์ตูน หรืองานศิลปะอื่น ๆ ให้กลายเป็นวิดีโอได้อย่างน่าทึ่ง
อย่างไรก็ตามการเปิดตัวผลงานนี้ ก็มีเสียงตอบรับที่แสดงความกังวลเกี่ยวกับเทคโนโลยีนี้เช่นกัน เนื่องจากความสามารถในการใช้รูปนิ่งเพียงรูปเดียว และคลิปเสียงเพียงแค่สั้น ๆ แต่สามารถสร้างสรรค์ออกมาเป็นวิดีโอที่มีความสมจริงเป็นอย่างมาก ดังนั้นต่อไปส่ิงที่เราเห็นผ่านออนไลน์ อาจไม่ใช่ของจริง แต่เป็นสิ่งที่สร้างจากความสามารถของ AI ก็เป็นได้
โมเดล AI นี้สามารถสร้างวิดีโอให้สามารถลิปซิงค์ หรือ การทำปากลอกเลียนรูปปากขณะออกเสียงนั้น ๆ ได้อย่างแม่นยำ ขณะเดียวกันก็สามารถแสดงสีหน้าที่หลากหลาย และการเคลื่อนไหวของศีรษะอย่างเป็นธรรมชาติ โดยผู้ใช้งานสามารถตั้งค่าการแสดงออกของภาพตามความต้องการได้ เช่น กำหนดอารมณ์ ระยะห่างจากกล้อง ทิศทางการจ้องมอง เป็นต้น และมีรายงานว่า VASA-1 สามารถสร้างวิดีโอออกมาได้ที่ความละเอียด 512x512 พิกเซล ที่ 40 เฟรมต่อวินาที “โดยมีความหน่วงเริ่มต้นเล็กน้อย”
เบื้องหลังความสามารถในการสร้างคลิปวิดีโอนี้ มาจากการที่ AI ทำการฝึกจากฟุตเทจ หรือคลิปวิดีโอที่มนุษย์กำลังพูดคุย ซึ่งฟุตเทจมนุษย์พูดคุยที่นำมาฝึกนี้ มาจากชุดข้อมูลชื่อว็อกซ์เซเลบ 2 (VoxCeleb2) โดยในชุดข้อมูลประกอบด้วยคำพูดมากกว่า 1 ล้านคำจากเหล่าคนดังที่ตัดมาจากวิดีโอที่อัปโหลดลงแพลตฟอร์มวิดีโอออนไลน์อย่างยูทูป (Youtube) ประมาณ 6,000 คน
ทั้งนี้นักวิจัยของไมโครซอฟต์ ได้อัปโหลดตัวอย่างวิดีโอที่สร้างจากโมเดล VASA-1 จำนวนมากลงบนเว็บไซต์ของโปรเจ็กต์ โดยส่วนใหญ่เป็นรูปนิ่งที่ถูกสร้างขึ้นโดยโมเดล AI เช่น สไตล์แกน 2 (StyleGAN2) หรือดอลล์อี (DALL-E) แต่ก็ได้มีการนำตัวอย่างในโลกจริงมาเพื่อแสดงขีดความสามารถเช่นกัน นั่นคือการใช้ภาพศิลปะชื่อดังอย่างโมนาลิซา มาร้องเพลงแร็ป
ทั้งนี้ ความสามารถของ VASA-1 ค่อนข้างคล้ายกับ ออดิโอ2วิดีโอ ดิฟฟูชัน โมเดล (Audio2Video Diffusion Model) ซึ่งเป็น AI แปลงรูปเป็นวิดีโอเหมือนกันจากสถาบันคอมพิวเตอร์อัจฉริยะของอาลีบาบา (Alibaba's Institute for Intelligent Computer) ที่เผยแพร่เมื่อเดือนกุมภาพันธ์ 2024 แต่ผู้เชี่ยวชาญมองว่าความสามารถของ VASA-1 ค่อนข้างมีความสมจริงมากกว่า แต่อย่างไรก็ตาม หากพิจารณาโดยละเอียด ก็ยังสามารถระบุได้อยู่ว่า วิดีโอที่ถูกสร้างขึ้นนี้ สร้างสรรค์โดย AI เนื่องจากมีความหน่วงเล็กน้อย และยังไม่เป็นธรรมชาติเหมือนมนุษย์จริง ๆ
ในเอกสารแนะนำโมเดล VASA-1 อธิบายไว้ว่า “AI สร้างใบหน้าพูดได้ ถือเป็นหน้าต่างสู่อนาคตที่เทคโนโลยีสามารถทำให้ปฏิสัมพันธ์ระหว่างมนุษย์กับมนุษย์ หรือมนุษย์กับ AI สมบูรณ์มากขึ้น” ทั้งนี้ในด้านการนำไปใช้ประโยชน์ในอนาคตก็มีหลากหลาย เช่น ช่วยเหลือผู้บกพร่องด้านการสื่อสาร นำไปใช้ปรับปรุงการเรียนการสอนพิเศษด้วย AI แบบโต้ตอบ หรือมีความสามารถในการสร้างเพื่อนเสมือนจริงได้
แน่นอนว่าเทคโนโลยีที่สร้างขึ้นใหม่นี้มีประโยชน์และน่ายกย่อง แต่นักวิจัยก็รับทราบถึงความเสี่ยงของเทคโนโลยีที่อาจถูกนำไปใช้ในทางที่ผิด เช่น การสร้างวิดีโอเพื่อแอบอ้างเป็นบุคคลจริงได้ และผู้เชี่ยวชาญบางส่วนยังกังวลว่า เทคโนโลยีนี้อาจนำไปสู่การสร้างข้อมูลผิด ๆ รวมถึงอาจส่งผลกระทบต่ออุตสาหกรรมสร้างสรรค์ รวมถึงภาพยนตร์ และโฆษณาด้วย
อย่างไรก็ตาม ตอนนี้ไมโครซอฟต์ยังไม่มีแผนที่จะเปิดตัวโมเดล VASA-1 สู่สาธารณะ จนกว่าทีมนักวิจัยผู้พัฒนาผลงานชิ้นนี้จะแน่ใจว่าเทคโนโลยีดังกล่าว จะถูกนำไปใช้อย่างมีความรับผิดชอบและสอดคล้องกับกฎระเบียบที่เหมาะสม
เอกสารรายละเอียดและตัวอย่างวิดีโอเผยแพร่บนเว็บไซต์ arXiv และ Microsoft
ที่มาข้อมูล Microsoft, arXiv, NewAtlas, CNN, Engadget
ที่มารูปภาพ Microsoft