รีเซต

WangchanBERTa ระบบประมวลผลภาษาไทยจากฝีมือคนไทย !!

WangchanBERTa ระบบประมวลผลภาษาไทยจากฝีมือคนไทย !!
TNN ช่อง16
25 มกราคม 2564 ( 19:55 )
860

สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย (VISTEC-depa Thailand Artificial Intelligence Research Institute) เปิดตัว "WangchanBERTa" โมเดลประมวลผลภาษาไทยที่ก้าวหน้ามากที่สุด WangchanBERTa ถูกฝึกฝนด้วยชุดข้อมูลกว่า 78.48 GB ใช้ตัวตัดคำย่อย SentencePiece ในการแบ่งคำและ ใช้เวลาฝึกฝนนานถึง 3 เดือน ทำให้ตอนนี้ WangchanBERTa เป็นโมเดลภาษาไทยที่ใหญ่ที่สุด

การฝึกฝน WangchanBERTa ใช้พลังไฟฟ้าไปทั้งหมด 10,566.5 kWh หรือคิดเป็นรอยเท้าคาร์บอน 7.5 ตัน เทียบเท่าการใช้รถ 1.6 คันในหนึ่งปี


WangchanBERTa เป็น Language model ที่ถูกออกแบบมาเพื่อ จำแนกชนิดข้อความ, จำแนกชนิดคำในข้อความ, ตอบคำถาม, และทำการอนุมานทางภาษา ซึ่งส่วนใหญ่ใน ภาษาอังกฤษ ฝรั่งเศส หรือเยอรมัน มีโมเดลประมวลผลมานานแล้ว แต่สำหรับภาษาไทยที่เป็นภาษาที่ค่อนข้างซับซ้อนมากกว่า จึงจำเป็นต้องสร้างโมเดลเฉพาะของภาษาไทยขึ้นมาเอง ตัวโมเดลได้รับการพัฒนาร่วมกับอีกสองบริษัท Wisesight และ Chaos Theory ซึ่งเข้ามาช่วยวิเคราะห์ข้อมูลโซเชียลมีเดียไทย สำหรับให้ WangchanBERTa ได้เทรนด์โดยตรง 


สำหรับใครที่สนใจ WangchanBERTa ปล่อยให้เราได้ใช้ได้ฟรีผ่านทาง HuggingFace ภายใต้ใบอนุญาต CC-BY-SA 4.0 โดย WangchanBERTa  มีความสามารถดังนี้

  1. จำแนกว่าข้อความนี้มีความรู้สึกเป็นบวกหรือลบ
  2. จัดกลุ่มข้อความ
  3. จำแนกชนิดคำ
  4. จำแนกเรื่องที่น่าสนใจมากขึ้นอย่างระบบค้นหาที่เข้าใจความหมายของภาษา
  5. ระบบถาม-ตอบคำถามอัตโนมัติ
  6. สร้างชุดข้อมูลเพิ่มสำหรับเทรนโมเดล หรือเปลี่ยนข้อความเป็นตัวเลขสำหรับโมเดลชิ้นต่อไปของคุณ


ทั้งหมดนี้ทำให้เราสามารถสร้างโมเดลประสิทธิภาพสูงที่สุดเท่าที่จะทำได้ปัจจุบัน ในเวลาไม่เกิน 30 นาทีบน GPU ระดับเดียวกับที่ให้บริการฟรี

website: www.TNNTHAILAND.com
facebook : TNNONLINE
facebook live : TNN Live
twitter : TNNONLINE
Line : @TNNONLINE
Youtube Official : TNNONLINE
Instagram : TNN_ONLINE
TIKTOK : @TNNONLINE

แหล่งที่มา medium.com

ยอดนิยมในตอนนี้

แท็กยอดนิยม

ข่าวที่เกี่ยวข้อง