โตชิบาพัฒนา AI ที่แปลงเสียงเป็นข้อความแบบเรียลไทม์


ในขณะที่เรากำลังเข้าสู่ยุคที่คนจะมีอายุยืนยาวขึ้น แต่เราก็กำลังเผชิญปัญหาขาดแคลนแรงงานอย่างรุนแรง อันเนื่องมาจากอัตราการเกิดที่ลดลงและการก้าวเข้าสู่สังคมผู้สูงอายุอย่างเต็มรูปแบบ

การหาตัวช่วยเพื่อเพิ่มประสิทธิภาพการทำงานของคนจึงเกิดขึ้นอย่างต่อเนื่อง โดยเฉพาะงานที่ทำให้คนต้องใช้เวลาในการทำงานมากเกินไปอย่างการจดบันทึกการประชุม หรือถอดข้อความจากการบันทึกเสียง

โตชิบากำลังทำการแก้ปัญหาในเรื่องนี้ และนี่คือที่มาของการพัฒนา AI ที่สามารถรับรู้เสียงพูดที่กำลังทำการพัฒนา

หากคุณเคยพยายามถอดคำพูดจากไฟล์เสียง คุณคงทราบดีว่า ขณะที่คุณพยายามจดรายละเอียดของการสนทนา ไม่ว่าจะระหว่างการประชุมหรือการบรรยาย ข้อความที่ได้มักจะยุ่งเหยิงและอ่านยาก แถมยังมีรายละเอียดที่ไม่สำคัญเข้ามาเป็นอุปสรรคในการจดบันทึกเนื้อหาข้อมูลที่ถูกต้อง โดยเฉพาะพวกคำเติม (filler words) เช่น “เอ่อ” และ “อืม” หรือคำที่แสดงการตอบรับหรือเห็นด้วย ที่ไม่ได้มีความสำคัญอะไรกับเนื้อหาหลัก

เทคโนโลยี AI รับรู้เสียงพูดที่โตชิบาพัฒนาขึ้นนี้ สามารถรับรู้คำพูดด้วยความแม่นยำสูง และยังสามารถรับรู้ถึงพวกคำเติม และคำที่แสดงความลังเลได้เช่นกัน นี่ถือเป็นฟังก์ชันสำคัญในการปรับปรุงประสิทธิภาพการทำงานของระบบ อัลกอริทึม (Algorithm) ที่ทีมนักพัฒนาได้ทดลองหลากหลายวิธีการเพื่อเพิ่มประสิทธิภาพการทำงานของมัน

นี่คือวิธีการที่สมองกลถูกพัฒนาขึ้นจนกลายเป็น AI รับรู้เสียงพูดที่มีความแม่นยำสูง เมื่อทางทีมนักพัฒนามีโอกาสได้ใช้การบรรยายเป็นการทดสอบระบบ พวกเขาพบว่าตัว AI สามารถรับรู้เสียงพูดได้สูงถึง 85% นั่นหมายความว่ามันสามารถรับรู้เนื้อหาข้อมูลในการพูดนั้นได้สูงกว่าปกติโดยไม่จำเป็นต้องอาศัยการเรียบเรียงข้อมูลหรือการเรียนรู้ขั้นสูงใด ๆ และในตอนนี้ เมื่อพวกเขาสามารถเพิ่มประสิทธิภาพความถูกต้องแม่นยำของระบบรับรู้เสียงพูดแล้ว

พวกเขาพัฒนาแอปพลิเคชันที่มีฟังก์ชันแสดงภาพคำบรรยายแบบเรียลไทม์สำหรับผู้ที่มีความบกพร่องทางการได้ยิน โดยให้ AI แสดงข้อความที่ชัดเจนอ่านง่าย และแสดงคำเติม หรือคำแสดงความลังเลเป็นอักษรที่จางลง นี่เป็นวิธีที่พวกเขาค้นพบว่าง่ายต่อการใช้งานที่สุดหลังจากที่ได้พูดคุยรายละเอียดกับกลุ่มผู้ใช้งาน

ในเดือนมีนาคม 2562 โตชิบาได้ร่วมงานกับบริษัท DWANGO ในการถ่ายทอดสดการประชุมของสมาคมการประมวลผลข้อมูลแห่งประเทศญี่ปุ่นครั้งที่ 81 ผ่านเว็บไซต์ “niconico” โดยวิดีโอการประชุมที่มีคำบรรยายใต้ภาพได้ถูกเผยแพร่ในแบบเรียลไทม์ ซึ่งทำให้พวกเขาวางแผนที่จะใช้งาน AI ตัวนี้ ไม่เฉพาะแค่ในออฟฟิศ

จากประโยชน์และความเป็นไปได้ในการนำมาใช้งานในรูปแบบต่าง ๆ จึงปฏิเสธไม่ได้เลยว่าซอฟต์แวร์การรับรู้เสียงพูดจะถูกนำมาใช้งานมากขึ้นเรื่อย ๆ ทั้งในสถานที่ทำงานและในไซต์การผลิตในเวลาอีกไม่นาน

อ้างอิง: นีโอ ทาเก็ต