Google สอน AI สู้กับ AI ในศึกตีปิงปอง ฝีมือเข้าใกล้ระดับคนเล่น !?

กูเกิล ดีปไมน์ (Google Deepmind) บริษัทพัฒนาปัญญาประดิษฐ์ หรือ AI ของ Google ทำระบบการเรียนรู้ของ AI ที่เรียนรู้จาก AI อีกตัวได้ ไม่จำเป็นต้องรอมนุษย์มาสอน โดยสาธิตผ่านการให้มนุษย์เล่นปิงปองกับหุ่นยนต์ ที่ฝึกสอนด้วยระบบ AI เพื่อดูความสามารถในการคิด ตัดสินใจ และโต้ตอบอย่างรวดเร็ว
ปัญหาการเทรนหรือการฝึกสอน AI ในปัจจุบัน
Deepmind เป็นแถวหน้าในการพัฒนา AI ของโลก ที่กำลังเจอปัญหาหนึ่งก็คือการเรียนรู้ของ AI มาถึงจุดคอขวดในการพัฒนา เนื่องจากต้องรอให้ผู้เชี่ยวชาญในแต่ละสาขามาตรวจสอบว่า AI เรียนรู้ได้ดีไหม แม่นไหม ถูกต้องแค่ไหน ทีมวิจัยจึงตั้งคำถามง่าย ๆ ว่าจะสร้าง AI ที่เรียนรู้กันเองโดยไม่ต้องรอคนมาตรวจสอบได้หรือไม่ เพราะจะทำให้ AI มีการเรียนรู้อย่างต่อเนื่อง ตราบใดที่มีไฟฟ้าใช้จ่ายพลังงาน
ผลลัพธ์ที่เกิดขึ้นจึงเป็นการสร้างระบบเรียนรู้ในสถานการณ์การตีปิงปองระหว่างหุ่นยนต์ที่ขับเคลื่อนด้วย AI จำนวน 2 ตัว เพราะการตีปิงปองนั้นต้องใช้ทักษะสูง ทั้งการจับสังเกตลูกปิงปอง การทำมุมหน้าไม้ การออกแรงตี ฯลฯ เหมือนกับที่คนเรียนปิงปอง
การทดลองให้ AI ฝึกสอน AI ด้วยกัน
โดยในห้องทดลองจะเป็นระบบปิด หรือระบบการทดลองที่ไม่มีปัจจัยภายนอกแทรกแซง ตั้งแต่การใช้อุปกรณ์ ที่มีโต๊ะปิงปอง มีไม้ปิงปองแต่ละฝั่ง มีลูกปิงปอง ให้เหมือนกับการฝึกสอนจริง ๆ และมีเครื่องเก็บและเครื่องยิงลูกปิงปองเพื่อให้เกิดความต่อเนื่องในการเรียนรู้ ไม่ต้องกังวลว่าจะขาดช่วง และไม่ต้องให้คนเข้าไปรบกวนการเรียนของ AI
จากนั้น โค้ช Gemini ที่พัฒนาขึ้นมาจะฝึกสอนโดยใช้หลักการเรียนแบบเสริมแรง หรือ Reinforcement learning ซึ่งโดยพื้นฐานแล้วคือการให้ AI หัดลองผิดลองถูก หากทำถูกต้องก็จะมีรางวัลให้ แต่ถ้าผิดก็ทำโทษเป็นการฝึกให้หุ่นยนต์จดจำเพื่อปรับปรุงแนวทางการตีปิงปอง
โดย AI ที่ใช้เป็นของ Google อย่าง AlphaGo และ AlphaFold ซึ่งสามารถคิดและเรียนรู้ได้หลายอย่าง แต่ช่วงแรกที่ให้ช่วงแรกที่ให้แข่งกัน หุ่นยนต์กลับไม่ยอมแข่ง เพราะ AI ถูกสอนมาให้ทำงานด้วยกัน ผลลัพธ์จึงทำให้ AI ทั้ง 2 ตัว ไม่ได้เรียนรู้อะไรมากนัก ทางทีมวิจัยเลยกำหนดขอบเขตการเรียนนรู้ใหม่ โดยตั้งเงื่อนไขให้ AI เลิกร่วมมือกัน และหัดโต้ตอบเพื่อเอาชนะ ซึ่งก็ทำให้ทักษะการตีปิงปองของแต่ละตัวดีขึ้น
การทดสอบให้ AI ตีปิงปองแข่งกับมนุษย์
และเพื่อยกระดับไปอีกขั้น ก็เลยให้หุ่นยนต์พวกนี้ไปลองแข่งกับคนจริง ๆ เพื่อดูว่าฝีมืออยู่ขั้นไหน ซึ่งก่อนหน้านี้ก็แข่งกันไปกว่า 29 ครั้ง ผลปรากฎว่าในภาพรวม หุ่นยนต์ชนะคนได้ 13 ครั้ง แพ้ 16 ครั้ง โดยคนที่ AI เอาชนะไปได้ก็คือผู้เล่นปิงปองมือใหม่ทั้งหมดทุกคน ส่วนคนที่เล่นมาจนมีประสบการณ์ ก็ผลัดกันแพ้ผลัดกันชนะ จนมีสัดส่วน แพ้ต่อชนะเป็นครึ่งหนึ่ง ส่วนนักปิงปองอาชีพยังเป็นกำแพงที่ AI เอาชนะไม่ได้เลยสักครั้งเดียว
ภาพ: Google Deepmind
โคัช AI สอน AI ตีปิงปอง
และเพื่อที่จะฝึกสอนให้หุ่นยนต์มีความสามารถในระดับทัดเทียมกับมนุษย์ นักเล่นปิงปองพลัง AI ของ Deepmind จึงจำเป็นต้องมีผู้ฝึกสอนหรือโค้ช แต่โค้ชของ AI ทั้งสองตัว Deepmind ได้ยกระดับความาสามารถเป็นการฝึกสอนด้วย AI หรือ Gemini แชตบอต (Large Language Model: LLM) ของ Google โดย Gemini จะฝึกสอนด้วยเทคนิคแปลงข้อความให้เป็นภาพ หรือ VLM (Vision–Language Models) สั่ง AI ลงไปให้ฝึกตี ฝึกรับเป็นเรื่องเป็นราว เช่น
"ตีลูกให้ลงมุมขวา, ตีลูกให้หยอดหน้าเน็ต, ตีลูกลงเส้นกลาง"
เมื่อ Gemini สั่งแล้วก็เก็บข้อมูลดูด้วยว่าทำตามได้ดีแค่ไหน แล้วก็ใช้หลัก reinforcement learning ให้รางวัล AI ที่ทำดี ตีมือ AI ที่ทำไม่ได้ รวมถึงกำหนดบทลงโทษให้ AI อีกตัวต้องฝึกหนักขึ้น หรือโดยสรุปแล้ว Deepmind ได้พัฒนาระบบที่ AI สอน AI สู้กับ AI แล้วก็ให้ AI ให้รางวัล AI กันเอง ไม่ต้องรอการวิเคราะห์หรือตรวจสอบจากมนุษย์
AI สอนกันเองแล้วจะเหนือกว่ามนุษย์หรือไม่
อย่างไรก็ตาม ทีมวิจัยยังมองว่าระบบ AI สอน AI สู้ AI ยังไม่สามารถชนะนักกีฬาปิงปองได้ในปัจจุบัน และความสามารถของหุ่นยนต์ที่เพิ่มขึ้นก็เป็นไปอย่างช้า ๆ แต่ทีมวิจัยนั้นมองในแง่ดีว่า วิธีการดังกล่าวจะเป็นการยกระดับความสามารถของ AI เพื่อให้ AI เป็น AI ที่ช่วยเหลือคนได้อย่างมีทักษะที่แท้จริง
Tag
ยอดนิยมในตอนนี้
