VALL-E

VALL-E : AI เลียนเสียงมนุษย์จาก Microsoft ใน 3 วินาที

Microsoft เปิดตัว VALL-E ปัญญาประดิษฐ์ที่สามารถเลียนเสียงมนุษย์ได้ ผ่านการเทรนโดยใช้เสียงพูดต้นฉบับเพียง3 วินาที

ทีมวิจัยของ Microsoft อธิบายว่า AI ตัวนี้ ต่างจากโมเดล text-to-speech ทั่วไป ที่สร้างจากการจำลองรูปแบบของคลื่นเสียง

แต่ VALL-E ซึ่งพัฒนาโดยใช้เทคโนโลยี EnCodec สามารถวิเคราะห์การออกเสียงของต้นแบบได้ และแตกข้อมูลนั้นออกเป็นหน่วยย่อย และนำมาจับคู่กับข้อมูลจากการเทรน เพื่อออกเสียงให้ได้แบบเดียวกับต้นฉบับ ทั้งน้ำเสียงและอารมณ์

ในเอกสารงานวิจัย ระบุว่า VALL-E พัฒนาขึ้นโดยใช้ข้อมูลตัวอย่างเสียงผู้พูด 7,000 คน กว่า 60,000 ชั่วโมง จากห้องสมุดเสียง LibriLight ของ Meta จนสามารถวิเคราะห์และเลียนแบบโดยใช้ตัวอย่างเสียงแค่ 3 วินาที

ทีมวิจัยรับว่า ปัจจุบัน การออกเสียงของ VALL-E ยังให้ความรู้สึกเหมือนถูกสร้างขึ้นอยู่บ้าง แต่ก็มีคุณภาพมากพอให้ผู้ฟังเกิดความสับสนว่าเป็นเสียงมนุษย์หรือ AI

นอกจากการเลียนแบบโทนเสียงแล้ว VALL-E ยังปรับแต่งเพิ่มเติมตามลักษณะการใช้งาน เช่น เป็นเสียงพูดคุยผ่านโทรศัพท์ได้อีกด้วย

ทีมวิจัยยอมรับว่าความสามารถในการเลียนแบบโทนเสียงต้นฉบับ ทำให้ VALL-E อาจถูกนำไปใช้ในทางที่ผิด เช่นสร้างหลักฐานปลอม หรือใช้ในการหลอกลวง โดยที่ปัจจุบัน ยังไม่มีการเปิดให้คนทั่วไปเข้าถึงเพื่อใช้งานได้

Source : Ars Technica

AHEAD ASIA นวัตกรรม ล้ำหน้า

Subscribe to Our Newsletter

Loading
Total
0
Shares
Previous Article
2566

องค์กรแห่งอนาคต ต้องเคลื่อนไหวอย่างไรในปี 2566

Next Article
ทิม คุก

Apple ลดรายได้ ทิม คุก เหลือ 1,625 ล้านบาท ลดลง 40%

Related Posts