AI ตัวใหม่ของกูเกิลออกเสียงเหมือนมนุษย์จนไม่สามารถแยกแยะได้

วิศวกรของกูเกิลได้นำเอไอมาใช้ในการพัฒนาสร้างระบบแปลงข้อความเป็นคำพูดหรือทีทีเอส (TTS – text-to-speech) ที่มีชื่อว่าแทโคตรอน 2 ซึ่งสามารถออกเสียงเหมือนมนุษย์จนแทบจะไม่สามารถแยกแยะระหว่างเสียงของแทโคตรอนหรือเสียงของมนุษย์

ผลงานวิจัยของกูเลิลในเอกสารเผยแพร์ในเดือนนี้ได้แสดงให้เห็นว่าระบบแปลงข้อความเป็นคำพูดรุ่นที่สองหรือแทโคตรอน 2 สามารถออกเสียงตามเครื่องหมายวรรคตอนและสามารถเน้นคำได้เหมือนมนุษย์ทุกอย่างจนไม่สามารถแยกแยะความแตกต่างได้

ระบบเอไอจะเป็นระบบที่ใช้เครือข่ายประสาทเทียมสองส่วน โดยที่เครือข่ายประสาทเทียมส่วนแรกจะทำหน้าที่แปลข้อความตัวหนังสือเป็นสเปกโตรแกรมซึ่งเป็นแผนภาพของความถี่เสียง สเปกโตรแกรมจะถูกส่งเข้าเครือข่ายประสาทเทียมสองส่วนที่สองที่เรียกว่า WaveNet ซึ่งเป็นระบบเอไอของห้องปฏิบัติการวิจัย DeepMind ของบริษัทกูเกิลที่มีความสามารถในอ่านจำเรียนรู้และผลิตเสียงได้ตามสเปกโตรแกรม

ผลงานวิจัยที่ตีพิมพ์ได้แสดงไฟล์เสียงที่อ่านประโยคระหว่างแทโคตรอน 2 และมนุษย์เปรียบเทียบกัน และกูเกิลกล่าวว่าจากการวิเคราะห์เสียงทั้งสองแสดงให้เห็นว่าเสียงที่อ่านโดยมนุษย์วัดค่า MOS ได้เท่ากับ 4.58 ส่วนแทโคตรอนวัดได้ 4.53 ค่า MOS  หรือ Mean opinion score เป็นการวัดคุณภาพของเสียงที่ถูกส่งผ่านการสื่อสารโทรคมนาคม

ในขณะนี้แทโคตรอน 2 สามารถพูดเสียงผู้หญิงได้เท่านั้น ขั้นตอนต่อไปกูเกิลจะต้องสอนแทโคตรอน 2 ให้เรียนรู้การพูดเสียงของผู้ชาย WaveNet เป็นผลิตภัณฑ์ของบริษัทกูเกิลที่ถูกเปิดเผยในปี 2016 และปัจจุบันได้ถูกนำมาใช้ในระบบ Google Assistant ที่พบในระบบปฏิบัติการแอนดรอยด์ของมือถือ และ google home เราหวังว่าอีกไม่นานแทโคตรอน 2 จะถูกนำมาใช้ซึ่งจะทำให้คุณภาพของเสียงพูดของ Google Assistant ในโทรศัพท์มือถือดียิ่งขึ้น

ตัวอย่างไฟล์เสียงต่อไปนี้เป็นเสียงของแทโคตรอน 2 และมนุษย์ คำพูดคือ “She earned a doctorate in sociology at Columbia University.”

 

 

ฟังตัวอย่างเพิ่มเติมที่ github

 


 

ที่มาบทความ Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions

 

 

error: กด RightClick แทน