รีเซต

AI เพื่อคนอีสาน ! SCB 10X เปิดตัว Typhoon Isan โมเดลถอดเสียงเป็นข้อความภาษาอีสานตัวแรก

AI เพื่อคนอีสาน ! SCB 10X เปิดตัว Typhoon Isan โมเดลถอดเสียงเป็นข้อความภาษาอีสานตัวแรก
TNN ช่อง16
30 พฤศจิกายน 2568 ( 23:23 )

เอสซีบี เท็นเอกซ์ (SCB 10X) บริษัทด้านการลงทุนในเทคโนโลยีเปลี่ยนโลก (Disruptive Technology) เปิดตัวไต้ฝุ่น อีสาน “Typhoon Isan” AI โมเดล ASR ภาษาอีสานที่สามารถถอดเสียงและสะกดคำอย่างเป็นระบบรายแรก และ Open-Source Data ภาษาอีสาน สู่การพัฒนา AI ที่เข้าใจภาษาทุกถิ่น ทุกสำเนียงในประเทศไทย



รายละเอียด AI เพื่อคนอีสาน

Typhoon คือโครงการ AI แบบเปิด (Open-Source AI Initiative) ที่พัฒนาโดยทีมวิจัยและพัฒนาของบริษัท SCB 10X โดยมุ่งสร้างและเผยแพร่ โมเดล AI เชิงวิจัย (Research-driven) ที่สามารถเข้าใจทั้งข้อความ เสียง และภาพ โดยออกแบบมาเพื่อบริบทของประเทศไทยโดยเฉพาะ

โดย Typhoon Isan ASR (Automatic Speech Recognition) เป็นโมเดลโอเพนซอร์สที่สามารถถอดเสียงภาษาอีสานออกมาเป็นข้อความได้อย่างแม่นยำ และเปิดเผยเบื้องหลังพร้อมชุดสาธิตของ Typhoon Isan TTS (Text-to-Speech) โมเดลแปลงข้อความเป็นเสียงพูด ที่สามารถพูดภาษาอีสานได้อย่างเป็นธรรมชาติ พร้อมปล่อยชุดข้อมูลภาษาอีสานแบบเปิดที่วิจัยและจัดเก็บอย่างเป็นระบบ (Open Data) ประกอบด้วย 

  • Isan Speech Transcription Convention แนวทางการถอดเสียงภาษาอีสานเป็นข้อความสำหรับการสร้างชุดข้อมูลเพื่องานด้านเทคโนโลยีทางเสียง  
  • Isan Spelling Standard อักขรวิธีการสะกดคำภาษาอีสานด้วยอักษรไทย  
  • Isan Speech Corpus ชุดข้อมูลเสียงพูดภาษาอีสานจากหลายจังหวัดในภาคตะวันออกเฉียงเหนือ
  • Isan Phonetic Dictionary พจนานุกรมคำอ่านที่เชื่อมโยงคำกับการออกเสียงในภาษาอีสาน

ผู้สนใจสามารถลองใช้ได้ผ่านเว็บไซต์ https://opentyphoon.ai/


เบื้องหลัง AI เพื่อคนอีสาน

Typhoon Isan เกิดขึ้นจากปัญหาโมเดลถอดเสียงเป็นตัวอักษร (ASR) ในปัจจุบันยังไม่สามารถรองรับ “ภาษาถิ่น” ได้อย่างมีประสิทธิภาพ โดยเฉพาะภาษาที่มีการเก็บข้อมูลในระบบดิจิทัลน้อยมาก เมื่อผู้ใช้สื่อสารด้วยภาษาถิ่น โมเดล AI จึงไม่สามารถถอดคำพูดหรือสำเนียงของภาษาถิ่นได้อย่างถูกต้อง จึงเกิดเป็นจุดเริ่มต้นการของพัฒนาโมเดลภาษาถิ่น โดยร่วมมือกับนักภาษาศาสตร์ ผู้เชี่ยวชาญด้านภาษา ครู นักเรียน และชุมชนท้องถิ่น เพื่อสร้างมาตรฐานใหม่ให้กับภาษาอีสานในโลกดิจิทัล

ทั้งนี้ SCB 10X เลือกพัฒนาภาษาอีสานเป็นอันดับแรก เพราะจากข้อมูลพบว่าประเทศไทยมีผู้ใช้งานภาษาอีสานกว่า 20 ล้านคน คิดเป็นหนึ่งในสามของประชากรทั้งประเทศ อีกทั้งภาคอีสานสามารถสร้างมูลค่า GDP รวมกว่า 180,000 ล้านบาท หรือประมาณ 10% ของมูลค่าเศรษฐกิจไทย นอกจากนี้ยังมีแรงงานที่ใช้ภาษาอีสานทำงานในหลากหลายอุตสาหกรรม และมีวัฒนธรรมที่เป็นเอกลักษณ์ ซึ่งการบันทึกเสียงและคำพูดภาษาอีสานได้อย่างเป็นระบบจึงถือเป็นก้าวสำคัญในการรักษาภูมิปัญญาและวัฒนธรรม อันจะนำไปสู่การช่วยส่งเสริมเศรษฐกิจดิจิทัลของประเทศในระยะยาวต่อไป

ยอดนิยมในตอนนี้

แท็กยอดนิยม

ข่าวที่เกี่ยวข้อง