WangchanBERTa ระบบประมวลผลภาษาไทยจากฝีมือคนไทย !!

TNN ช่อง16

25 มกราคม 2564 ( 19:55 )

896

สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย (VISTEC-depa Thailand Artificial Intelligence Research Institute) เปิดตัว "WangchanBERTa" โมเดลประมวลผลภาษาไทยที่ก้าวหน้ามากที่สุด WangchanBERTa ถูกฝึกฝนด้วยชุดข้อมูลกว่า 78.48 GB ใช้ตัวตัดคำย่อย SentencePiece ในการแบ่งคำและ ใช้เวลาฝึกฝนนานถึง 3 เดือน ทำให้ตอนนี้ WangchanBERTa เป็นโมเดลภาษาไทยที่ใหญ่ที่สุด

การฝึกฝน WangchanBERTa ใช้พลังไฟฟ้าไปทั้งหมด 10,566.5 kWh หรือคิดเป็นรอยเท้าคาร์บอน 7.5 ตัน เทียบเท่าการใช้รถ 1.6 คันในหนึ่งปี

WangchanBERTa เป็น Language model ที่ถูกออกแบบมาเพื่อ จำแนกชนิดข้อความ, จำแนกชนิดคำในข้อความ, ตอบคำถาม, และทำการอนุมานทางภาษา ซึ่งส่วนใหญ่ใน ภาษาอังกฤษ ฝรั่งเศส หรือเยอรมัน มีโมเดลประมวลผลมานานแล้ว แต่สำหรับภาษาไทยที่เป็นภาษาที่ค่อนข้างซับซ้อนมากกว่า จึงจำเป็นต้องสร้างโมเดลเฉพาะของภาษาไทยขึ้นมาเอง ตัวโมเดลได้รับการพัฒนาร่วมกับอีกสองบริษัท Wisesight และ Chaos Theory ซึ่งเข้ามาช่วยวิเคราะห์ข้อมูลโซเชียลมีเดียไทย สำหรับให้ WangchanBERTa ได้เทรนด์โดยตรง

สำหรับใครที่สนใจ WangchanBERTa ปล่อยให้เราได้ใช้ได้ฟรีผ่านทาง HuggingFace ภายใต้ใบอนุญาต CC-BY-SA 4.0 โดย WangchanBERTa มีความสามารถดังนี้

จำแนกว่าข้อความนี้มีความรู้สึกเป็นบวกหรือลบ
จัดกลุ่มข้อความ
จำแนกชนิดคำ
จำแนกเรื่องที่น่าสนใจมากขึ้นอย่างระบบค้นหาที่เข้าใจความหมายของภาษา
ระบบถาม-ตอบคำถามอัตโนมัติ
สร้างชุดข้อมูลเพิ่มสำหรับเทรนโมเดล หรือเปลี่ยนข้อความเป็นตัวเลขสำหรับโมเดลชิ้นต่อไปของคุณ

ทั้งหมดนี้ทำให้เราสามารถสร้างโมเดลประสิทธิภาพสูงที่สุดเท่าที่จะทำได้ปัจจุบัน ในเวลาไม่เกิน 30 นาทีบน GPU ระดับเดียวกับที่ให้บริการฟรี

website: www.TNNTHAILAND.com
facebook : TNNONLINE
facebook live : TNN Live
twitter : TNNONLINE
Line : @TNNONLINE
Youtube Official : TNNONLINE
Instagram : TNN_ONLINE
TIKTOK : @TNNONLINE

แหล่งที่มา medium.com

Tag

#Techreports #Tnntechreports #WangchanBERTa #ภาษาไทย

ยอดนิยมในตอนนี้

แท็กยอดนิยม

#ข่าวเทคโนโลยี #ข่าวไอที #ข่าวมือถือ #สมาร์ทโฟน #gadget #มือถือรุ่นใหม่#แท็บเล็ต #iPad #Samsung Galaxy Tab #Windows

WangchanBERTa ระบบประมวลผลภาษาไทยจากฝีมือคนไทย !!

Tag

ยอดนิยมในตอนนี้

แท็กยอดนิยม

ข่าวที่เกี่ยวข้อง

ญี่ปุ่นเปิดตัว Urashima 8000 ยานสำรวจใต้น้ำไร้คนขับความลึก 8,000 เมตร

มหากาพย์ยืดเยื้อ อีพิกส์ เกมส์ (Epic Games) กับ แอปเปิล (Apple) ทะเลาะกันต่อ ล่าสุดฟ้องศาลอีกรอบ

นาซาเผยภาพออโรราบนดาวพฤหัสบดี ยกให้เป็นออโรราทรงพลังที่สุดในระบบสุริยะ

แพร่กระจายเหมือนมะเร็ง “แก๊งคอลเซ็นเตอร์” ลุกลาม ขยายตัวไปแอฟริกา เอเชียใต้ และอเมริกาใต้

รู้หรือไม่ ? มีเพลง AI มากถึง 20,000 เพลงต่อวัน ที่ถูกอัปขึ้นออนไลน์ในปัจจุบัน

Google ช่วยแอฟริกา ใช้ AI พยากรณ์ “ฝนตก” ล่วงหน้านาน 12 ชั่วโมง !

ครึ่งโลกทึ่ง !? เครื่องกระตุ้นหัวใจเล็กสุดในโลก ใช้กับเด็กทารก ไม่ต้องผ่าตัด เปิดด้วยแสง

เยอรมนีก้าวหน้า รีไซเคิล “พลาสติก” ใช้เป็นใยสำหรับพิมพ์ 3 มิติ

IG ทดสอบฟีเจอร์ใหม่ !? “ล็อก” คลิป ต้องใส่รหัสผ่านถึงจะดูได้

การค้นพบใหม่ “เถ้าภูเขาไฟ” ทำให้สมองกลายเป็นแก้วดำ คล้ายหินออบซิเดียน

รู้หรือไม่? ปลามีเสียงร้อง นักวิทยาศาสตร์สร้าง AI แยกพันธ์ุปลาจากเสียงได้แล้ว