Google เปิดตัวปัญญาประดิษฐ์ (AI) สำหรับอ่านปาก เพื่อแกะคำพูดได้แม่นยำกว่ามืออาชีพ หลังเรียนรู้ผ่านรายการโทรทัศน์ต่างๆ ของ BBC นานกว่า 5,000 ชั่วโมง
ทีมนักวิจัยจากมหาวิทยาลัย University of Oxford และฝ่าย DeepMind ของ Google ทำการฝึกฝน AI ให้เรียนรู้ชุดข้อมูลการอ่านปาก (Lip Reading Sentences – LRS) ด้วยวิธี deep learning จากรายการโทรทัศน์อังกฤษ ที่ออกอากาศในระหว่างเดือน มี.ค. – ก.ย. 2016 ซึ่งมีตัวอย่างกว่า 118,000 ประโยค
ไม่ว่าจะเป็นรายการ Newsnight, BBC Breakfast และ Question Time โดยสามารถอ่านได้อย่างถูกต้องถึง 46.8 เปอร์เซ็นต์ของคำทั้งหมดโดยไม่มีข้อผิดพลาด ซึ่งถือว่าสูงกว่าผู้เชี่ยวชาญด้านการอ่านริมฝีปาก ซึ่งมีค่าเฉลี่ยความถูกต้องเพียง 12.4% จาก 200 คลิปที่เลือกแบบสุ่มในชุดข้อมูลเดียวกัน
DeepMind และ ม. Oxford วางแผนที่จะนำรายการของ BBC มาเป็นทรัพยากรการฝึกอบรม ที่จะถูกใช้เพื่อช่วยให้นักวิจัยคนอื่นๆ ในสาขา สามารถผลักดันระบบของตัวเองให้มีประสิทธิภาพมากยิ่งขึ้น
จีเฮง โจว จากมหาวิทยาลัย University of Oulu ในประเทศฟินแลนด์ เชื่อว่าสิ่งนี้จะเป็นก้าวสำคัญในการพัฒนาระบบอ่านริมฝีปากอัตโนมัติอย่างสมบูรณ์ต่อไป “หากไม่มีชุดข้อมูลขนาดใหญ่ ก็เป็นเรื่องยากสำหรับเราที่จะตรวจสอบเทคโนโลยีใหม่อย่าง deep learning”
อย่างไรก็ตาม แม้ว่าเทคโนโลยีจะถูกปรับปรุงพัฒนาขึ้น แต่ยังเป็นไปได้ยากที่จะถูกใช้เหมือนในภาพยนตร์สายลับ เนื่องจากการใช้งานยังต้องคำนึงถึงปัจจัยทับซ้อนค่อนข้างมาก
ยานนิส อัซซาเอล ตัวแทนของ LipNet บริษัทที่พัฒนา AI เพื่อการอ่านปากเช่นกัน ระบุว่า “เราเชื่อว่าเครื่องอ่านริมฝีปากมีศักยภาพในการใช้งานได้อย่างมหาศาล แต่แอพพลิเคชันในการช่วยฟังก็ต้องดีขึ้น รวมไปถึงการต้องใช้งานในพื้นที่เงียบเสียง และต้องพยายามจับเสียงพูดในสภาพแวดล้อมที่มีเสียงดังให้ได้”
AHEAD TAKEAWAY
Google นั้นถือเป็นหนึ่งในบริษัทที่มีความก้าวหน้าด้าน AI ลำดับต้นๆของสหรัฐ ด้วยความที่มีคลังข้อมูลมหาศาลอยู่ในมือ
เราจึงมักได้เห็นปัญญาประดิษฐ์จาก DeepMind สร้างความฮือฮาได้เป็นระยะ นับตั้งแต่ AlphaGo ไปจึง AI ที่สามารถเรียนรู้ได้ตัวเอง หรือสามารถใช้ตรรกะได้เหมือนมนุษย์ และล่าสุด คือการอ่านริมฝีปาก เพื่อแกะคำพูด
แม้หลายคนจะตั้งคำถามถึงเหตุผลที่ AI ถูกพัฒนาเพื่อใช้เรียนรู้การอ่านปาก และตีความไปว่าอาจมีการนำไปใช้ในการทหารหรือสอดแนม
แต่ที่จริงแล้ว หากสามารถพัฒนาให้ใช้งานได้จริง ประโยชน์ของมันก็คือสามารถนำไปใช้ช่วยเหลือผู้บกพร่องทางการได้ยิน ให้เข้าใจการสนทนา สร้างคำบรรยายใต้หนังเงียบ หรือสั่งการ AI Assistant อย่าง Siri ผ่านกล้องได้ ซึ่งจะเป็นประโยชน์มาก หากอยู่ในพื้นที่ที่มีเสียงอึกทึกเกินกว่าที่ AI จะจับคำพูดของเราจากเสียงได้อย่างชัดเจน
เรียบเรียงจาก
Watch Your Mouth. Google’s DeepMind AI Can Outperform Professional Lip Readers
AHEAD ASIA นวัตกรรม ล้ำหน้า