MuZero สุดยอด AI เล่นเกมชนะได้โดยไม่ต้องรู้กติกา !!
MuZero คือ AI ของบริษัท DeepMind เป็น AI ที่ได้พัฒนาต่อยอดมาจาก AlphaZero หรือ AI ที่ฝึกการเล่นหมากรุกและหมากรุกญี่ปุ่น (โชงิ) จนเก่งที่สุดในโลก และเป็น AI ที่ถูกพัฒนาต่อมาอีกทีจาก AlphaGo หรือ AI ที่เรียนรู้การเล่นโกะด้วยตนเอง จนเก่งเทียบเท่าหรือมากกว่ามือโปรโกะในระดับโลก
"MuZero" ต่างจากทั้ง AlphaZero และ AlphaGo เพราะ MuZero ถูกออกแบบมาเพื่อเอาชนะโทย์แบบที่ไม่เจาะจง สามารถเอาชนะได้ทุกเกม แม้ไม่รู้กฎการเล่นของเกมนั้น ๆ เลย โดยที่ผ่านมา AI ของ DeepMind จะแก้ปัญหาได้เฉพาะเรื่อง และอาศัยองค์ความจากการเล่นในอดีต กติกาการเล่น ซึ่งแนวทางนี้จะพบปัญหาเมื่อต้องเล่นเกมแบบ Atari ที่รูปแบบกติกาไม่ได้บอกชัดเจน และมีความซับซ้อนมากขึ้น พูดง่าย ๆ มันสามารถแก้ไขปัญหาได้ใกล้เคียงกับมนุษย์มากขึ้นนั่นเอง เช่น เมื่อเราเจอเมฆครึ้ม เราก็จะเดาว่าฝนน่าจะตก และหยิบร่มติดตัวเพื่อไม่ให้เปียกฝน มันคือรูปแบบการคิดการตัดสินใจจากสถานการณ์ที่พบและเผชิญหน้าอยู่ในนะขณะนั้น ไม่ใช่การดูภาพรวมทั้งหมด
MuZero ใช้ 3 องค์ประกอบหลักในการตัดสินใจคือ
- Value คุณค่าของตำแหน่งปัจจุบัน
- Policy การกระทำที่ดีที่สุด
- Reward ผลลัพธ์จากการกระทำก่อนหน้า
ตัวอย่างที่ DeepMind นำมาอธิบายคือเกม Ms Pac-Man พบว่ายิ่งให้เวลาตัดสินใจต่อครั้งมากขึ้น ผลลัพธ์ก็ดีขึ้นตาม เช่นเดียวกับจำนวนทางเลือก หากให้ทางเลือกที่มากขึ้น ผลลัพธ์ก็ดีขึ้นเช่นกัน และแม้จำกัดทางเลือกต่อครั้งเหลือเพียง 6-7 วิธี ซึ่งน้อยมาก ผลลัพธ์ในการเล่นเกมก็ยังออกมาดี
แหล่งที่มา engadget.com