Key Takeaways
- Hari semakin dekat ketika Anda tidak dapat membedakan ucapan yang dihasilkan komputer dari hal yang nyata.
- Google baru-baru ini meluncurkan LaMDA, model yang memungkinkan percakapan lebih alami.
- Memproduksi ucapan seperti manusia juga membutuhkan kekuatan pemrosesan yang sangat besar.
Saat ini, mudah untuk mengetahui kapan Anda berbicara dengan komputer, tetapi itu mungkin akan segera berubah berkat kemajuan terbaru dalam AI.
Google baru-baru ini meluncurkan LaMDA, model eksperimental yang diklaim perusahaan dapat meningkatkan kemampuan asisten AI percakapannya dan memungkinkan percakapan yang lebih alami. LaMDA bertujuan untuk berkomunikasi secara normal tentang hampir semua hal tanpa pelatihan sebelumnya.
Ini adalah salah satu dari semakin banyak proyek AI yang dapat membuat Anda bertanya-tanya apakah Anda sedang berbicara dengan manusia.
"Perkiraan saya adalah bahwa dalam 12 bulan ke depan, pengguna akan mulai terpapar dan terbiasa dengan suara baru yang lebih emosional ini," James Kaplan, CEO MeetKai, asisten suara virtual percakapan dan pencarian engine, kata dalam sebuah wawancara email.
"Setelah ini terjadi, pidato yang disintesis hari ini akan terdengar oleh pengguna seperti pidato awal tahun 2000-an terdengar bagi kita hari ini."
Asisten Suara Dengan Karakter
LaMDA Google dibangun di atas Transformer, arsitektur jaringan saraf yang ditemukan oleh Google Research. Tidak seperti model bahasa lainnya, LaMDA Google dilatih dalam dialog nyata.
Bagian dari tantangan untuk membuat pidato AI yang terdengar alami adalah sifat percakapan yang terbuka, tulis Eli Collins dari Google dalam sebuah posting blog.
"Obrolan dengan teman tentang acara TV dapat berkembang menjadi diskusi tentang negara tempat acara itu difilmkan sebelum memutuskan untuk berdebat tentang masakan daerah terbaik negara itu," tambahnya.
Segalanya bergerak cepat dengan ucapan robot. Eric Rosenblum, mitra pengelola di Tsingyuan Ventures, yang berinvestasi dalam AI percakapan, mengatakan bahwa beberapa masalah paling mendasar dalam pidato dengan bantuan komputer hampir terpecahkan.
Misalnya, tingkat akurasi dalam memahami ucapan sudah sangat tinggi dalam layanan seperti transkripsi yang dilakukan oleh perangkat lunak Otter.ai atau catatan medis yang diambil oleh DeepScribe.
"Perbatasan berikutnya jauh lebih sulit," tambahnya.
"Mempertahankan pemahaman konteks, yang merupakan masalah yang melampaui pemrosesan bahasa alami, dan empati, seperti komputer yang berinteraksi dengan manusia perlu memahami frustrasi, kemarahan, ketidaksabaran, dll. Kedua masalah ini sedang dikerjakan, tetapi keduanya cukup jauh dari memuaskan."
Jaringan Neural Adalah Kuncinya
Untuk menghasilkan suara yang nyata, perusahaan menggunakan teknologi seperti jaringan saraf dalam, suatu bentuk pembelajaran mesin yang mengklasifikasikan data melalui lapisan, Matt Muldoon, presiden Amerika Utara di ReadSpeaker, sebuah perusahaan yang mengembangkan perangkat lunak teks ke ucapan, kata dalam wawancara email.
"Lapisan ini menyaring sinyal, menyortirnya ke dalam klasifikasi yang lebih kompleks," tambahnya. "Hasilnya adalah ucapan sintetis yang terdengar luar biasa seperti manusia."
Teknologi lain yang sedang dikembangkan adalah Prosody Transfer, yang menggabungkan suara dari satu suara text-to-speech dengan gaya bicara lainnya, kata Muldoon. Ada juga transfer learning, yang mengurangi jumlah data pelatihan yang dibutuhkan untuk menghasilkan suara text-to-speech neural baru.
Kaplan mengatakan memproduksi ucapan seperti manusia juga membutuhkan kekuatan pemrosesan yang sangat besar. Perusahaan sedang mengembangkan chip akselerator saraf, yang merupakan modul khusus yang bekerja bersama dengan prosesor biasa.
"Tahap selanjutnya dalam hal ini akan menempatkan chip ini ke dalam perangkat keras yang lebih kecil, karena saat ini sudah dilakukan untuk kamera ketika AI untuk penglihatan diperlukan," tambahnya. "Tidak akan lama sebelum jenis kemampuan komputasi ini tersedia di headphone itu sendiri."
Salah satu tantangan untuk mengembangkan ucapan yang digerakkan oleh AI adalah bahwa setiap orang berbicara secara berbeda, sehingga komputer cenderung sulit memahami kita.
"Pikirkan aksen Georgia vs. Boston vs. Dakota Utara, dan apakah bahasa Inggris adalah bahasa utama Anda atau bukan," kata Monica Dema, yang bekerja pada analisis pencarian suara di MDinc, dalam email. "Berpikir secara global, mahal untuk melakukan ini untuk semua wilayah Jerman, Cina, dan India, tetapi itu tidak berarti itu tidak atau tidak bisa dilakukan."