Google

Google เปิดตัว AI อ่านปาก แกะคำพูดแม่นกว่ามืออาชีพ

Google เปิดตัวปัญญาประดิษฐ์ (AI) สำหรับอ่านปาก เพื่อแกะคำพูดได้แม่นยำกว่ามืออาชีพ หลังเรียนรู้ผ่านรายการโทรทัศน์ต่างๆ ของ BBC นานกว่า 5,000 ชั่วโมง

ทีมนักวิจัยจากมหาวิทยาลัย University of Oxford และฝ่าย DeepMind ของ Google ทำการฝึกฝน AI ให้เรียนรู้ชุดข้อมูลการอ่านปาก (Lip Reading Sentences – LRS) ด้วยวิธี deep learning จากรายการโทรทัศน์อังกฤษ ที่ออกอากาศในระหว่างเดือน มี.ค. – ก.ย. 2016 ซึ่งมีตัวอย่างกว่า 118,000 ประโยค

ไม่ว่าจะเป็นรายการ Newsnight, BBC Breakfast และ Question Time โดยสามารถอ่านได้อย่างถูกต้องถึง 46.8 เปอร์เซ็นต์ของคำทั้งหมดโดยไม่มีข้อผิดพลาด ซึ่งถือว่าสูงกว่าผู้เชี่ยวชาญด้านการอ่านริมฝีปาก ซึ่งมีค่าเฉลี่ยความถูกต้องเพียง 12.4% จาก 200 คลิปที่เลือกแบบสุ่มในชุดข้อมูลเดียวกัน

DeepMind และ ม. Oxford วางแผนที่จะนำรายการของ BBC มาเป็นทรัพยากรการฝึกอบรม ที่จะถูกใช้เพื่อช่วยให้นักวิจัยคนอื่นๆ ในสาขา สามารถผลักดันระบบของตัวเองให้มีประสิทธิภาพมากยิ่งขึ้น

 

 

จีเฮง โจว จากมหาวิทยาลัย University of Oulu ในประเทศฟินแลนด์ เชื่อว่าสิ่งนี้จะเป็นก้าวสำคัญในการพัฒนาระบบอ่านริมฝีปากอัตโนมัติอย่างสมบูรณ์ต่อไป “หากไม่มีชุดข้อมูลขนาดใหญ่ ก็เป็นเรื่องยากสำหรับเราที่จะตรวจสอบเทคโนโลยีใหม่อย่าง deep learning”

อย่างไรก็ตาม แม้ว่าเทคโนโลยีจะถูกปรับปรุงพัฒนาขึ้น แต่ยังเป็นไปได้ยากที่จะถูกใช้เหมือนในภาพยนตร์สายลับ เนื่องจากการใช้งานยังต้องคำนึงถึงปัจจัยทับซ้อนค่อนข้างมาก

ยานนิส อัซซาเอล ตัวแทนของ LipNet บริษัทที่พัฒนา AI เพื่อการอ่านปากเช่นกัน ระบุว่า “เราเชื่อว่าเครื่องอ่านริมฝีปากมีศักยภาพในการใช้งานได้อย่างมหาศาล แต่แอพพลิเคชันในการช่วยฟังก็ต้องดีขึ้น รวมไปถึงการต้องใช้งานในพื้นที่เงียบเสียง และต้องพยายามจับเสียงพูดในสภาพแวดล้อมที่มีเสียงดังให้ได้”

 

AHEAD TAKEAWAY

Google นั้นถือเป็นหนึ่งในบริษัทที่มีความก้าวหน้าด้าน AI ลำดับต้นๆของสหรัฐ ด้วยความที่มีคลังข้อมูลมหาศาลอยู่ในมือ

เราจึงมักได้เห็นปัญญาประดิษฐ์จาก DeepMind สร้างความฮือฮาได้เป็นระยะ นับตั้งแต่ AlphaGo ไปจึง AI ที่สามารถเรียนรู้ได้ตัวเอง หรือสามารถใช้ตรรกะได้เหมือนมนุษย์ และล่าสุด คือการอ่านริมฝีปาก เพื่อแกะคำพูด

แม้หลายคนจะตั้งคำถามถึงเหตุผลที่ AI ถูกพัฒนาเพื่อใช้เรียนรู้การอ่านปาก และตีความไปว่าอาจมีการนำไปใช้ในการทหารหรือสอดแนม

แต่ที่จริงแล้ว หากสามารถพัฒนาให้ใช้งานได้จริง ประโยชน์ของมันก็คือสามารถนำไปใช้ช่วยเหลือผู้บกพร่องทางการได้ยิน ให้เข้าใจการสนทนา สร้างคำบรรยายใต้หนังเงียบ หรือสั่งการ AI Assistant อย่าง Siri ผ่านกล้องได้ ซึ่งจะเป็นประโยชน์มาก หากอยู่ในพื้นที่ที่มีเสียงอึกทึกเกินกว่าที่ AI จะจับคำพูดของเราจากเสียงได้อย่างชัดเจน

เรียบเรียงจาก
Watch Your Mouth. Google’s DeepMind AI Can Outperform Professional Lip Readers

 

AHEAD ASIA นวัตกรรม ล้ำหน้า

Subscribe to Our Newsletter

Loading
Total
0
Shares
Previous Article
Facebook

Facebook พัฒนาเงินดิจิทัล สำหรับ WhatsApp คาดทดลองใช้ในอินเดียก่อน

Next Article
Facebook

สองผู้นำพรรคการเมืองอิตาลีคว้าชัยชนะด้วย Facebook

Related Posts