หุ่นยนต์ฝึก “ลิปซิงค์” ขยับปากได้เหมือนมนุษย์ แถมฝึกพูดได้ด้วยตัวเอง !!

นักวิจัยจากโคลัมเบีย ยูนิเวอร์ซิตี้ (Columbia University) ในสหรัฐอเมริกา เปิดตัว EMO หุ่นยนต์ที่สามารถ ขยับริมฝีปากให้ตรงกับคำพูดได้เหมือมนุษย์ (Lip-syncing) และสามารถฝึกพูดแบบมนุษย์ได้ด้วยตัวเอง
“หุ่นยนต์หัว” ที่เลียนแบบใบหน้ามนุษย์อย่างละเอียด
EMO มีลักษณะเป็นหัวหุ่นยนต์ ที่ออกแบบมาเพื่อเลียนแบบการแสดงออกทางสีหน้าของมนุษย์โดยเฉพาะ ใบหน้าของหุ่นยนต์หุ้มด้วยซิลิโคนที่ยืดหยุ่น ภายในติดตั้งมอเตอร์ขนาดเล็กไว้ 26 ตัว ทำหน้าที่ควบคุมการเคลื่อนไหวของปาก แก้ม และใบหน้า
เมื่อมอเตอร์เหล่านี้ทำงานร่วมกันในรูปแบบต่าง ๆ EMO จะสามารถแสดงสีหน้าและรูปปากที่หลากหลายได้ ใกล้เคียงกับของมนุษย์จริง ๆ
การฝึก EMO ให้พูดได้เหมือนกับมนุษย์
EMO ยังมีความสามารถในการฝึกพูดแบบมนุษย์ได้ด้วยตัวเอง โดยทางนักวิจัยจะวาง EMO อยู่หน้ากระจก และสุ่มขยับใบหน้าของตัวหัวหุ่นยนต์ให้ออกมาเป็นจำนวนหลายพันรูปแบบ พร้อมสังเกตการสะท้อนของตัวเอง วิธีนี้จะทำให้หุ่นยนต์เรียนรู้ว่า
“การกระตุ้นมอเตอร์แบบใด จะทำให้เกิดการเคลื่อนไหวของใบหน้าแบบไหนได้บ้าง”
กระบวนการเรียนรู้ลักษณะนี้เรียกว่า วิชั่นทูแอ็กชัน Vision-to-Action (VLA) ซึ่งก็คือ การเชื่อมโยงสิ่งที่เห็นกับการกระทำโดยไม่ต้องอาศัยกฎตายตัวจากมนุษย์
เมื่อ EMO เข้าใจโครงสร้างใบหน้าของตัวเองแล้ว EMO จะถูกฝึกต่อด้วยการดูคลิปคนพูดและร้องเพลงเป็นเวลาหลายชั่วโมงบน YouTube เพื่อเรียนรู้ว่า
เสียงพูดแต่ละแบบสัมพันธ์กับการขยับริมฝีปากอย่างไร จากนั้น AI ของหุ่นยนต์จะผสานความรู้จาก VLA เข้ากับเสียงที่ตัวหุ่นเปล่งออกมาจากระบบเสียงสังเคราะห์ ทำให้ EMO สามารถ ขยับริมฝีปากได้ตรงกับคำพูดของตัวเองอย่างเป็นธรรมชาติ
อย่างไรก็ตาม EMO ยังมีข้อจำกัดอีกหลายอย่าง ทั้งการออกเสียง “B” และ “W” ที่ยังไม่สมบูรณ์ รวมไปถึงการเคลื่อนไหวบางจุดยังต้องปรับปรุงให้ดูเป็นธรรมชาติมากขึ้น นักวิจัยเชื่อว่า ยิ่งหุ่นยนต์ได้ฝึกพูดและสังเกตมนุษย์มากขึ้นเท่าไร ความแม่นยำก็จะยิ่งมากขึ้นตามลำดับ
ยูฮัง หู (Yuhang Hu) นักวิจัยผู้พัฒนา EMO ระบุว่า “หากนำความสามารถด้านการลิปซิงค์นี้ไปใช้ร่วมกับ AI สนทนาอย่าง ChatGPT หรือ Gemini จะช่วยเพิ่มมิติทางอารมณ์ในการสื่อสารระหว่างมนุษย์กับหุ่นยนต์มากขึ้น โดยยิ่งหุ่นยนต์ได้เรียนรู้จากบทสนทนาที่มีบริบทยาว ๆ และซับซ้อนมากเท่าไร ก็จะยิ่งสามารถแสดงสีหน้าและท่าทางที่สอดคล้องกับอารมณ์ของการสนทนาได้ดีมากขึ้นเท่านั้น”
สำหรับผู้ที่สนใจ งานวิจัยนี้ได้รับการตีพิมพ์ในวารสาร Science Robotics สามารถอ่านฉบับเต็มได้จากลิงก์นี้ : https://www.science.org/doi/10.1126/scirobotics.adx3017
แหล่งที่มา : Columbia University
Tag
ยอดนิยมในตอนนี้
