Key Takeaways
- Perusahaan berlomba mencari cara untuk membuat ucapan yang dihasilkan komputer terdengar lebih realistis.
- NVIDIA baru-baru ini meluncurkan alat yang dapat menangkap suara ucapan alami dengan memungkinkan Anda melatih AI dengan suara Anda sendiri.
- Intonasi, emosi, dan musikalitas adalah fitur yang masih kurang dimiliki oleh suara komputer, kata seorang pakar.
Pidato yang dihasilkan komputer akan segera terdengar lebih manusiawi.
Pembuat suku cadang komputer NVIDIA baru-baru ini meluncurkan alat yang dapat menangkap suara ucapan alami dengan memungkinkan Anda melatih AI dengan suara Anda. Perangkat lunak ini juga dapat menyampaikan kata-kata satu pembicara menggunakan suara orang lain. Ini adalah bagian dari dorongan yang berkembang untuk membuat pidato komputer lebih realistis.
"Teknologi AI suara yang canggih memungkinkan pengguna untuk berbicara secara alami, menggabungkan banyak pertanyaan menjadi satu kalimat dan menghilangkan kebutuhan untuk mengulang detail dari kueri asli secara terus-menerus," Michael Zagorsek, chief operating officer perusahaan pengenalan suara SoundHound, kepada Lifewire dalam sebuah wawancara email.
"Penambahan beberapa bahasa, sekarang tersedia di sebagian besar platform AI suara, membuat asisten suara digital dapat diakses di lebih banyak wilayah dan untuk lebih banyak populasi," tambahnya.
Robospeech Meningkat
Amazon's Alexa dan Apple's Siri terdengar jauh lebih baik daripada suara komputer bahkan dari satu dekade yang lalu, tetapi mereka tidak akan disalahartikan sebagai suara manusia asli dalam waktu dekat.
Untuk membuat suara ucapan buatan lebih alami, tim peneliti teks-ke-suara NVIDIA mengembangkan model RAD-TTS. Sistem ini memungkinkan individu untuk mengajarkan model text-to-speech (TTS) dengan suara mereka, termasuk tempo, nada suara, timbre, dan faktor lainnya.
Perusahaan ini menggunakan model barunya untuk membuat lebih banyak narasi suara yang terdengar seperti percakapan untuk seri video I Am AI-nya.
"Dengan antarmuka ini, produser video kami dapat merekam dirinya sendiri membaca skrip video dan kemudian menggunakan model AI untuk mengubah pidatonya menjadi suara narator wanita. Dengan menggunakan narasi dasar ini, produser kemudian dapat mengarahkan AI seperti aktor suara-mengubah pidato yang disintesis untuk menekankan kata-kata tertentu dan memodifikasi tempo narasi untuk mengekspresikan nada video dengan lebih baik, " tulis NVIDIA di situs webnya.
Lebih Sulit Dari Kedengarannya
Membuat suara ucapan yang dihasilkan komputer menjadi alami adalah masalah yang rumit, kata para ahli.
"Anda perlu merekam ratusan jam suara seseorang untuk membuat versi komputernya," Nazim Ragimov, CEO perusahaan perangkat lunak teks ke ucapan Kukarella, mengatakan kepada Lifewire dalam sebuah wawancara email. "Dan rekamannya harus berkualitas tinggi, direkam di studio profesional. Semakin banyak jam pidato berkualitas dimuat dan diproses, semakin baik hasilnya."
Text-to-speech dapat digunakan dalam permainan, untuk membantu individu dengan disabilitas vokal, atau untuk membantu pengguna menerjemahkan antarbahasa dengan suara mereka sendiri.
Intonasi, emosi, dan musikalitas adalah fitur yang masih kurang dimiliki oleh suara komputer, kata Ragimov.
Jika AI dapat menambahkan tautan yang hilang ini, ucapan yang dihasilkan komputer akan "tidak dapat dibedakan dari suara aktor nyata," tambahnya. "Itu sedang dalam proses. Suara-suara lain akan dapat bersaing dengan pembawa acara radio. Segera Anda akan melihat suara-suara yang dapat bernyanyi dan membaca buku audio."
Teknologi pidato menjadi lebih populer di berbagai bisnis.
"Industri otomotif baru-baru ini mengadopsi AI suara sebagai cara untuk menciptakan pengalaman berkendara yang lebih aman dan lebih terhubung," kata Zagorsek.
"Sejak itu, asisten suara menjadi semakin umum karena merek mencari cara untuk meningkatkan pengalaman pelanggan dan memenuhi permintaan akan metode interaksi yang lebih mudah, lebih aman, lebih nyaman, efisien, dan higienis dengan produk dan layanan mereka."
Biasanya, AI suara mengubah kueri menjadi respons dalam proses dua langkah yang dimulai dengan menyalin ucapan menjadi teks menggunakan pengenalan ucapan otomatis (ASR) dan kemudian memasukkan teks tersebut ke dalam model pemahaman bahasa alami (NLU).
Pendekatan SoundHound menggabungkan dua langkah ini menjadi satu proses untuk melacak ucapan secara real-time. Perusahaan mengklaim teknik ini memungkinkan asisten suara untuk memahami arti pertanyaan pengguna, bahkan sebelum orang tersebut selesai berbicara.
Kemajuan masa depan dalam pidato komputer, termasuk ketersediaan berbagai opsi konektivitas dari hanya tertanam (tidak memerlukan koneksi cloud) hingga hybrid (embedded plus cloud) dan hanya cloud "akan memberikan lebih banyak pilihan kepada perusahaan di seluruh industri dari segi biaya, privasi, dan ketersediaan kekuatan pemrosesan, " kata Zagoresk.
NVIDIA mengatakan model AI beritanya melampaui pekerjaan sulih suara.
"Text-to-speech dapat digunakan dalam permainan, untuk membantu individu dengan disabilitas vokal, atau untuk membantu pengguna menerjemahkan antar bahasa dengan suara mereka sendiri," tulis perusahaan tersebut. "Ini bahkan dapat menciptakan kembali penampilan penyanyi ikonik, yang tidak hanya cocok dengan melodi lagu tetapi juga ekspresi emosional di balik vokal."