WangchanBERTa ระบบประมวลผลภาษาไทยจากฝีมือคนไทย !!
สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย (VISTEC-depa Thailand Artificial Intelligence Research Institute) เปิดตัว "WangchanBERTa" โมเดลประมวลผลภาษาไทยที่ก้าวหน้ามากที่สุด WangchanBERTa ถูกฝึกฝนด้วยชุดข้อมูลกว่า 78.48 GB ใช้ตัวตัดคำย่อย SentencePiece ในการแบ่งคำและ ใช้เวลาฝึกฝนนานถึง 3 เดือน ทำให้ตอนนี้ WangchanBERTa เป็นโมเดลภาษาไทยที่ใหญ่ที่สุด
การฝึกฝน WangchanBERTa ใช้พลังไฟฟ้าไปทั้งหมด 10,566.5 kWh หรือคิดเป็นรอยเท้าคาร์บอน 7.5 ตัน เทียบเท่าการใช้รถ 1.6 คันในหนึ่งปี
WangchanBERTa เป็น Language model ที่ถูกออกแบบมาเพื่อ จำแนกชนิดข้อความ, จำแนกชนิดคำในข้อความ, ตอบคำถาม, และทำการอนุมานทางภาษา ซึ่งส่วนใหญ่ใน ภาษาอังกฤษ ฝรั่งเศส หรือเยอรมัน มีโมเดลประมวลผลมานานแล้ว แต่สำหรับภาษาไทยที่เป็นภาษาที่ค่อนข้างซับซ้อนมากกว่า จึงจำเป็นต้องสร้างโมเดลเฉพาะของภาษาไทยขึ้นมาเอง ตัวโมเดลได้รับการพัฒนาร่วมกับอีกสองบริษัท Wisesight และ Chaos Theory ซึ่งเข้ามาช่วยวิเคราะห์ข้อมูลโซเชียลมีเดียไทย สำหรับให้ WangchanBERTa ได้เทรนด์โดยตรง
สำหรับใครที่สนใจ WangchanBERTa ปล่อยให้เราได้ใช้ได้ฟรีผ่านทาง HuggingFace ภายใต้ใบอนุญาต CC-BY-SA 4.0 โดย WangchanBERTa มีความสามารถดังนี้
- จำแนกว่าข้อความนี้มีความรู้สึกเป็นบวกหรือลบ
- จัดกลุ่มข้อความ
- จำแนกชนิดคำ
- จำแนกเรื่องที่น่าสนใจมากขึ้นอย่างระบบค้นหาที่เข้าใจความหมายของภาษา
- ระบบถาม-ตอบคำถามอัตโนมัติ
- สร้างชุดข้อมูลเพิ่มสำหรับเทรนโมเดล หรือเปลี่ยนข้อความเป็นตัวเลขสำหรับโมเดลชิ้นต่อไปของคุณ
ทั้งหมดนี้ทำให้เราสามารถสร้างโมเดลประสิทธิภาพสูงที่สุดเท่าที่จะทำได้ปัจจุบัน ในเวลาไม่เกิน 30 นาทีบน GPU ระดับเดียวกับที่ให้บริการฟรี
website: www.TNNTHAILAND.com
facebook : TNNONLINE
facebook live : TNN Live
twitter : TNNONLINE
Line : @TNNONLINE
Youtube Official : TNNONLINE
Instagram : TNN_ONLINE
TIKTOK : @TNNONLINE
แหล่งที่มา medium.com