OpenAI เปิดตัว ChatGPT Images 2.0 ยกระดับ AI สร้างภาพ สะกดข้อความแม่นยำระดับใช้งานจริง

TNN ช่อง16

24 เมษายน 2569 ( 00:48 )

วงการปัญญาประดิษฐ์ยังคงเดินหน้าอย่างรวดเร็ว ล่าสุด OpenAI ประกาศเปิดตัวโมเดลสร้างภาพรุ่นใหม่ ChatGPT Images 2.0 ที่ถูกยกให้เป็นก้าวสำคัญของเทคโนโลยี AI ด้านการสร้างสรรค์ภาพ โดยจุดเด่นหลักอยู่ที่ความสามารถในการสร้างตัวอักษรบนภาพได้อย่างถูกต้องและแม่นยำ ซึ่งถือเป็นปัญหาเรื้อรังของโมเดลก่อนหน้านี้ที่มักสะกดคำผิดหรือสร้างคำที่ไม่มีอยู่จริง

ก่อนหน้านี้ โมเดลสร้างภาพด้วย AI มักมีข้อจำกัดในการจัดการข้อความ โดยเฉพาะการสร้างคำในภาพ เช่น เมนูอาหารหรือป้ายโฆษณา ซึ่งมักปรากฏคำผิดเพี้ยนอย่าง enchuita, churiros หรือ burrto เนื่องจากโมเดลไม่เข้าใจโครงสร้างภาษาอย่างแท้จริง แต่ใน ChatGPT Images 2.0 ความสามารถดังกล่าวได้รับการแก้ไขจนสามารถสร้างข้อความที่ดูสมจริงและพร้อมใช้งานในเชิงพาณิชย์ได้ทันที แม้กระทั่งเมนูอาหารที่มีรายละเอียดราคา เช่น 13.50 ดอลลาร์สหรัฐ หรือประมาณ 500 บาท ก็สามารถแสดงผลได้อย่างแนบเนียน

หนึ่งในสาเหตุสำคัญที่ทำให้ AI รุ่นก่อนมีปัญหาเรื่องข้อความ มาจากการใช้โมเดลแบบ Diffusion model ซึ่งเป็นเทคนิคที่สร้างภาพจากสัญญาณรบกวนหรือ Noise แล้วค่อย ๆ ปรับให้กลายเป็นภาพที่สมบูรณ์ กระบวนการนี้ทำให้โมเดลให้ความสำคัญกับภาพรวมมากกว่ารายละเอียดเล็ก ๆ อย่างตัวอักษร

แอสเมลาช เทกา ฮัดกู (Asmelash Teka Hadgu) ผู้ก่อตั้งบริษัท Lesan AI เคยอธิบายว่า ตัวอักษรในภาพมีสัดส่วนพิกเซลน้อยมากเมื่อเทียบกับองค์ประกอบอื่น ทำให้โมเดลเรียนรู้ได้ไม่ดีพอ แม้ว่าวงการวิจัยจะเริ่มหันไปพัฒนาโมเดลแบบ Autoregressive ที่ทำงานคล้ายโมเดลภาษา (LLM) มากขึ้น แต่ OpenAI ยังไม่เปิดเผยว่า Images 2.0 ใช้สถาปัตยกรรมแบบใดเป็นแกนหลัก

ChatGPT Images 2.0 เพิ่มความสามารถในการคิดสร้างภาพซับซ้อน

โดยหนึ่งในความก้าวหน้าสำคัญของโมเดล ChatGPT Images 2.0 คือ การเพิ่มความสามารถด้านการคิด หรือ Thinking capabilities ซึ่งช่วยให้ AI สามารถวิเคราะห์คำสั่งได้ลึกขึ้น รวมถึงค้นหาข้อมูลเพิ่มเติม สร้างภาพหลายแบบจากคำสั่งเดียว และตรวจสอบความถูกต้องของผลงานตัวเองได้

ความสามารถดังกล่าวเปิดทางให้การสร้างสื่อที่มีความซับซ้อน เช่น ภาพโฆษณาหลายขนาด หรือการ์ตูนหลายช่อง สามารถทำได้ภายในเวลาเพียงไม่กี่นาที แม้ว่าความเร็วอาจช้ากว่าการตอบข้อความทั่วไปของ ChatGPT แต่ถือว่าเร็วมากเมื่อเทียบกับระดับความซับซ้อนของผลงาน

โดยทาง OpenAI ระบุว่า ChatGPT Images 2.0 มีความสามารถในการเรนเดอร์ข้อความที่ไม่ใช่อักษรละตินได้ดีขึ้นอย่างมาก ไม่ว่าจะเป็นภาษาญี่ปุ่น เกาหลี ฮินดี หรือเบงกาลี ซึ่งสะท้อนถึงการพัฒนา AI ให้รองรับการใช้งานในระดับสากล

นอกจากนี้ โมเดลยังสามารถจัดการองค์ประกอบที่มีความซับซ้อนสูง เช่น ตัวอักษรขนาดเล็ก, ไอคอน, อินเทอร์เฟซผู้ใช้ (UI), ภาพที่มีองค์ประกอบหนาแน่น และสไตล์ภาพเฉพาะทาง โดยสามารถสร้างภาพที่มีความละเอียดสูงสุดระดับ 2K ซึ่งเหมาะสำหรับการใช้งานทั้งด้านการตลาด สื่อดิจิทัล และงานออกแบบมืออาชีพ

ข้อจำกัด Knowledge Cutoff และการเปิดใช้งาน

แม้จะมีความสามารถสูง แต่โมเดลนี้ยังมีข้อจำกัดด้านฐานข้อมูลความรู้ หรือ Knowledge cutoff ซึ่งถูกกำหนดไว้ที่เดือนธันวาคม 2025 หมายความว่าข้อมูลหรือเหตุการณ์หลังจากนั้นอาจไม่ถูกนำมาใช้ในการสร้างภาพได้อย่างแม่นยำ

บริษัท OpenAI เปิดเผยว่าผู้ใช้งาน ChatGPT และ Codex ทุกคนสามารถเข้าถึง Images 2.0 ได้แล้ว โดยผู้ใช้งานแบบชำระเงินจะสามารถสร้างภาพที่มีความซับซ้อนและคุณภาพสูงกว่าได้ นอกจากนี้ยังมีการเปิดตัว gpt-image-2 API สำหรับนักพัฒนา ซึ่งมีราคาปรับตามคุณภาพและความละเอียดของภาพ