Microsoft เปิดตัว VALL-E ปัญญาประดิษฐ์ที่สามารถเลียนเสียงมนุษย์ได้ ผ่านการเทรนโดยใช้เสียงพูดต้นฉบับเพียง3 วินาที
ทีมวิจัยของ Microsoft อธิบายว่า AI ตัวนี้ ต่างจากโมเดล text-to-speech ทั่วไป ที่สร้างจากการจำลองรูปแบบของคลื่นเสียง
แต่ VALL-E ซึ่งพัฒนาโดยใช้เทคโนโลยี EnCodec สามารถวิเคราะห์การออกเสียงของต้นแบบได้ และแตกข้อมูลนั้นออกเป็นหน่วยย่อย และนำมาจับคู่กับข้อมูลจากการเทรน เพื่อออกเสียงให้ได้แบบเดียวกับต้นฉบับ ทั้งน้ำเสียงและอารมณ์
ในเอกสารงานวิจัย ระบุว่า VALL-E พัฒนาขึ้นโดยใช้ข้อมูลตัวอย่างเสียงผู้พูด 7,000 คน กว่า 60,000 ชั่วโมง จากห้องสมุดเสียง LibriLight ของ Meta จนสามารถวิเคราะห์และเลียนแบบโดยใช้ตัวอย่างเสียงแค่ 3 วินาที
ทีมวิจัยรับว่า ณ ปัจจุบัน การออกเสียงของ VALL-E ยังให้ความรู้สึกเหมือนถูกสร้างขึ้นอยู่บ้าง แต่ก็มีคุณภาพมากพอให้ผู้ฟังเกิดความสับสนว่าเป็นเสียงมนุษย์หรือ AI
นอกจากการเลียนแบบโทนเสียงแล้ว VALL-E ยังปรับแต่งเพิ่มเติมตามลักษณะการใช้งาน เช่น เป็นเสียงพูดคุยผ่านโทรศัพท์ได้อีกด้วย
ทีมวิจัยยอมรับว่าความสามารถในการเลียนแบบโทนเสียงต้นฉบับ ทำให้ VALL-E อาจถูกนำไปใช้ในทางที่ผิด เช่นสร้างหลักฐานปลอม หรือใช้ในการหลอกลวง โดยที่ปัจจุบัน ยังไม่มีการเปิดให้คนทั่วไปเข้าถึงเพื่อใช้งานได้
Source : Ars Technica
AHEAD ASIA นวัตกรรม ล้ำหน้า