น่าทึ่งหรือน่ากลัว ? AI ของ Microsoft เปลี่ยนรูปนิ่งเป็นวิดีโอ พูดได้ ร้องได้ สมจริงทั้งสีหน้าและอารมณ์

TNN ช่อง16

23 เมษายน 2567 ( 18:26 )

นักวิจัยของบริษัทเทคโนโลยียักษ์ใหญ่อย่างไมโครซอฟต์ (Microsoft) ได้เปิดเผยโมเดลปัญญาประดิษฐ์ (AI) ชื่อวาซา-1 (VASA-1) ที่สามารถเปลี่ยนรูนิ่ง ไม่ว่าจะเป็นรูปถ่ายของมนุษย์ การ์ตูน หรืองานศิลปะอื่น ๆ ให้กลายเป็นวิดีโอได้อย่างน่าทึ่ง

อย่างไรก็ตามการเปิดตัวผลงานนี้ ก็มีเสียงตอบรับที่แสดงความกังวลเกี่ยวกับเทคโนโลยีนี้เช่นกัน เนื่องจากความสามารถในการใช้รูปนิ่งเพียงรูปเดียว และคลิปเสียงเพียงแค่สั้น ๆ แต่สามารถสร้างสรรค์ออกมาเป็นวิดีโอที่มีความสมจริงเป็นอย่างมาก ดังนั้นต่อไปส่ิงที่เราเห็นผ่านออนไลน์ อาจไม่ใช่ของจริง แต่เป็นสิ่งที่สร้างจากความสามารถของ AI ก็เป็นได้

โมเดล AI นี้สามารถสร้างวิดีโอให้สามารถลิปซิงค์ หรือ การทำปากลอกเลียนรูปปากขณะออกเสียงนั้น ๆ ได้อย่างแม่นยำ ขณะเดียวกันก็สามารถแสดงสีหน้าที่หลากหลาย และการเคลื่อนไหวของศีรษะอย่างเป็นธรรมชาติ โดยผู้ใช้งานสามารถตั้งค่าการแสดงออกของภาพตามความต้องการได้ เช่น กำหนดอารมณ์ ระยะห่างจากกล้อง ทิศทางการจ้องมอง เป็นต้น และมีรายงานว่า VASA-1 สามารถสร้างวิดีโอออกมาได้ที่ความละเอียด 512x512 พิกเซล ที่ 40 เฟรมต่อวินาที “โดยมีความหน่วงเริ่มต้นเล็กน้อย”

เบื้องหลังความสามารถในการสร้างคลิปวิดีโอนี้ มาจากการที่ AI ทำการฝึกจากฟุตเทจ หรือคลิปวิดีโอที่มนุษย์กำลังพูดคุย ซึ่งฟุตเทจมนุษย์พูดคุยที่นำมาฝึกนี้ มาจากชุดข้อมูลชื่อว็อกซ์เซเลบ 2 (VoxCeleb2) โดยในชุดข้อมูลประกอบด้วยคำพูดมากกว่า 1 ล้านคำจากเหล่าคนดังที่ตัดมาจากวิดีโอที่อัปโหลดลงแพลตฟอร์มวิดีโอออนไลน์อย่างยูทูป (Youtube) ประมาณ 6,000 คน

ทั้งนี้นักวิจัยของไมโครซอฟต์ ได้อัปโหลดตัวอย่างวิดีโอที่สร้างจากโมเดล VASA-1 จำนวนมากลงบนเว็บไซต์ของโปรเจ็กต์ โดยส่วนใหญ่เป็นรูปนิ่งที่ถูกสร้างขึ้นโดยโมเดล AI เช่น สไตล์แกน 2 (StyleGAN2) หรือดอลล์อี (DALL-E) แต่ก็ได้มีการนำตัวอย่างในโลกจริงมาเพื่อแสดงขีดความสามารถเช่นกัน นั่นคือการใช้ภาพศิลปะชื่อดังอย่างโมนาลิซา มาร้องเพลงแร็ป

ทั้งนี้ ความสามารถของ VASA-1 ค่อนข้างคล้ายกับ ออดิโอ2วิดีโอ ดิฟฟูชัน โมเดล (Audio2Video Diffusion Model) ซึ่งเป็น AI แปลงรูปเป็นวิดีโอเหมือนกันจากสถาบันคอมพิวเตอร์อัจฉริยะของอาลีบาบา (Alibaba's Institute for Intelligent Computer) ที่เผยแพร่เมื่อเดือนกุมภาพันธ์ 2024 แต่ผู้เชี่ยวชาญมองว่าความสามารถของ VASA-1 ค่อนข้างมีความสมจริงมากกว่า แต่อย่างไรก็ตาม หากพิจารณาโดยละเอียด ก็ยังสามารถระบุได้อยู่ว่า วิดีโอที่ถูกสร้างขึ้นนี้ สร้างสรรค์โดย AI เนื่องจากมีความหน่วงเล็กน้อย และยังไม่เป็นธรรมชาติเหมือนมนุษย์จริง ๆ

ในเอกสารแนะนำโมเดล VASA-1 อธิบายไว้ว่า “AI สร้างใบหน้าพูดได้ ถือเป็นหน้าต่างสู่อนาคตที่เทคโนโลยีสามารถทำให้ปฏิสัมพันธ์ระหว่างมนุษย์กับมนุษย์ หรือมนุษย์กับ AI สมบูรณ์มากขึ้น” ทั้งนี้ในด้านการนำไปใช้ประโยชน์ในอนาคตก็มีหลากหลาย เช่น ช่วยเหลือผู้บกพร่องด้านการสื่อสาร นำไปใช้ปรับปรุงการเรียนการสอนพิเศษด้วย AI แบบโต้ตอบ หรือมีความสามารถในการสร้างเพื่อนเสมือนจริงได้

แน่นอนว่าเทคโนโลยีที่สร้างขึ้นใหม่นี้มีประโยชน์และน่ายกย่อง แต่นักวิจัยก็รับทราบถึงความเสี่ยงของเทคโนโลยีที่อาจถูกนำไปใช้ในทางที่ผิด เช่น การสร้างวิดีโอเพื่อแอบอ้างเป็นบุคคลจริงได้ และผู้เชี่ยวชาญบางส่วนยังกังวลว่า เทคโนโลยีนี้อาจนำไปสู่การสร้างข้อมูลผิด ๆ รวมถึงอาจส่งผลกระทบต่ออุตสาหกรรมสร้างสรรค์ รวมถึงภาพยนตร์ และโฆษณาด้วย

อย่างไรก็ตาม ตอนนี้ไมโครซอฟต์ยังไม่มีแผนที่จะเปิดตัวโมเดล VASA-1 สู่สาธารณะ จนกว่าทีมนักวิจัยผู้พัฒนาผลงานชิ้นนี้จะแน่ใจว่าเทคโนโลยีดังกล่าว จะถูกนำไปใช้อย่างมีความรับผิดชอบและสอดคล้องกับกฎระเบียบที่เหมาะสม

เอกสารรายละเอียดและตัวอย่างวิดีโอเผยแพร่บนเว็บไซต์ arXiv และ Microsoft

ที่มาข้อมูล Microsoft, arXiv, NewAtlas, CNN, Engadget

ที่มารูปภาพ Microsoft

Tag

#ai #deepfake #microsoft #picture to videos #techreports #tnntechreports #vasa-1 #ปัญญาประดิษฐ์#เปลี่ยนรูปเป็นวิดีโอ

ยอดนิยมในตอนนี้

แท็กยอดนิยม

#tnntechreports #TNN Tech #techreports #tnntech #Humanoid Robot #Embodied AI #หุ่นยนต์ AI #Booster T2 #นวัตกรรมหุ่นยนต์#ข่าวไอที

น่าทึ่งหรือน่ากลัว ? AI ของ Microsoft เปลี่ยนรูปนิ่งเป็นวิดีโอ พูดได้ ร้องได้ สมจริงทั้งสีหน้าและอารมณ์

Tag

ยอดนิยมในตอนนี้

แท็กยอดนิยม

ข่าวที่เกี่ยวข้อง

ครม. เคาะโรดแมป Big Data ฉบับแรก ปูทางเศรษฐกิจยุค AI

กู้บ้าน Solar 0.99% NPA ลดสูงสุด 50% SMEs ดอกเบี้ย 2.50% รวมหนี้ 3-5%

คลังจ่อหนุนคนนอกฐานภาษีติด"โซลาร์เซลล์"

รัฐฯเร่งเครื่องพลังงานสะอาด ดันโซลาร์รูฟท็อป-ไฟฟ้าสะอาด รับยุค AI และเศรษฐกิจสีเขียว

“Apple” หวั่นภาพลักษณ์เรื่องความเป็นส่วนตัวสั่นคลอน หลังเตรียมลุยตลาด "แว่นตาอัจฉริยะ"

สำนักพิมพ์ “Harry Potter” รับเงินชดเชยมหาศาล หลัง “Anthropic” ขอไกล่เกลี่ยคดี AI แอบถ่ายโอนข้อมูลวรรณกรรม

Meta AI ก้าวข้ามขีดจำกัด ไม่ใช่แค่ช่วยคิด แต่ลงมือทำแทนคุณได้แล้วด้วย Muse Spark 1.1

“อีลอน มัสก์” ประกาศ “Grok Imagine” สามารถสร้าง “Odyssey” ฉบับ AI อิงประวัติศาสตร์เป๊ะ จบในสิ้นปีนี้

ล็อกฮีด มาร์ติน เปิดตัว MORFIUS ระบบไมโครเวฟต้านโดรน

Meta เปิดตัว Facebook Verified ฟรี! สแกนหน้ายืนยันคนจริงสู้มิจฉาชีพ

AI หลุดการควบคุม ! “OpenAI” ไม่รู้ตัวนานนับสัปดาห์ หลังเอเจนต์ก่อเหตุแฮก “Hugging Face”

"หุ้นเทคโนโลยี" ไปต่ออย่างไร ? เมื่อต้องลงทุนมหาศาล ตลาดลดพรีเมี่ยม