Segera, Anda Mungkin Tidak Tahu Anda Sedang Berbicara dengan Komputer

2025 Pengarang: Abigail Brown | [email protected]. Terakhir diubah: 2025-01-24 12:13

Key Takeaways

Hari semakin dekat ketika Anda tidak dapat membedakan ucapan yang dihasilkan komputer dari hal yang nyata.
Google baru-baru ini meluncurkan LaMDA, model yang memungkinkan percakapan lebih alami.
Memproduksi ucapan seperti manusia juga membutuhkan kekuatan pemrosesan yang sangat besar.

Saat ini, mudah untuk mengetahui kapan Anda berbicara dengan komputer, tetapi itu mungkin akan segera berubah berkat kemajuan terbaru dalam AI.

Google baru-baru ini meluncurkan LaMDA, model eksperimental yang diklaim perusahaan dapat meningkatkan kemampuan asisten AI percakapannya dan memungkinkan percakapan yang lebih alami. LaMDA bertujuan untuk berkomunikasi secara normal tentang hampir semua hal tanpa pelatihan sebelumnya.

Ini adalah salah satu dari semakin banyak proyek AI yang dapat membuat Anda bertanya-tanya apakah Anda sedang berbicara dengan manusia.

"Perkiraan saya adalah bahwa dalam 12 bulan ke depan, pengguna akan mulai terpapar dan terbiasa dengan suara baru yang lebih emosional ini," James Kaplan, CEO MeetKai, asisten suara virtual percakapan dan pencarian engine, kata dalam sebuah wawancara email.

"Setelah ini terjadi, pidato yang disintesis hari ini akan terdengar oleh pengguna seperti pidato awal tahun 2000-an terdengar bagi kita hari ini."

Asisten Suara Dengan Karakter

LaMDA Google dibangun di atas Transformer, arsitektur jaringan saraf yang ditemukan oleh Google Research. Tidak seperti model bahasa lainnya, LaMDA Google dilatih dalam dialog nyata.

Bagian dari tantangan untuk membuat pidato AI yang terdengar alami adalah sifat percakapan yang terbuka, tulis Eli Collins dari Google dalam sebuah posting blog.

"Obrolan dengan teman tentang acara TV dapat berkembang menjadi diskusi tentang negara tempat acara itu difilmkan sebelum memutuskan untuk berdebat tentang masakan daerah terbaik negara itu," tambahnya.

Segalanya bergerak cepat dengan ucapan robot. Eric Rosenblum, mitra pengelola di Tsingyuan Ventures, yang berinvestasi dalam AI percakapan, mengatakan bahwa beberapa masalah paling mendasar dalam pidato dengan bantuan komputer hampir terpecahkan.

Misalnya, tingkat akurasi dalam memahami ucapan sudah sangat tinggi dalam layanan seperti transkripsi yang dilakukan oleh perangkat lunak Otter.ai atau catatan medis yang diambil oleh DeepScribe.

"Perbatasan berikutnya jauh lebih sulit," tambahnya.

"Mempertahankan pemahaman konteks, yang merupakan masalah yang melampaui pemrosesan bahasa alami, dan empati, seperti komputer yang berinteraksi dengan manusia perlu memahami frustrasi, kemarahan, ketidaksabaran, dll. Kedua masalah ini sedang dikerjakan, tetapi keduanya cukup jauh dari memuaskan."

Jaringan Neural Adalah Kuncinya

Untuk menghasilkan suara yang nyata, perusahaan menggunakan teknologi seperti jaringan saraf dalam, suatu bentuk pembelajaran mesin yang mengklasifikasikan data melalui lapisan, Matt Muldoon, presiden Amerika Utara di ReadSpeaker, sebuah perusahaan yang mengembangkan perangkat lunak teks ke ucapan, kata dalam wawancara email.

"Lapisan ini menyaring sinyal, menyortirnya ke dalam klasifikasi yang lebih kompleks," tambahnya. "Hasilnya adalah ucapan sintetis yang terdengar luar biasa seperti manusia."

Teknologi lain yang sedang dikembangkan adalah Prosody Transfer, yang menggabungkan suara dari satu suara text-to-speech dengan gaya bicara lainnya, kata Muldoon. Ada juga transfer learning, yang mengurangi jumlah data pelatihan yang dibutuhkan untuk menghasilkan suara text-to-speech neural baru.

Kaplan mengatakan memproduksi ucapan seperti manusia juga membutuhkan kekuatan pemrosesan yang sangat besar. Perusahaan sedang mengembangkan chip akselerator saraf, yang merupakan modul khusus yang bekerja bersama dengan prosesor biasa.

"Tahap selanjutnya dalam hal ini akan menempatkan chip ini ke dalam perangkat keras yang lebih kecil, karena saat ini sudah dilakukan untuk kamera ketika AI untuk penglihatan diperlukan," tambahnya. "Tidak akan lama sebelum jenis kemampuan komputasi ini tersedia di headphone itu sendiri."

Salah satu tantangan untuk mengembangkan ucapan yang digerakkan oleh AI adalah bahwa setiap orang berbicara secara berbeda, sehingga komputer cenderung sulit memahami kita.

"Pikirkan aksen Georgia vs. Boston vs. Dakota Utara, dan apakah bahasa Inggris adalah bahasa utama Anda atau bukan," kata Monica Dema, yang bekerja pada analisis pencarian suara di MDinc, dalam email. "Berpikir secara global, mahal untuk melakukan ini untuk semua wilayah Jerman, Cina, dan India, tetapi itu tidak berarti itu tidak atau tidak bisa dilakukan."

Direkomendasikan:

Segera, Anda Mungkin Tidak Tahu Anda Sedang Berbicara dengan Komputer

Daftar Isi:

Key Takeaways

Asisten Suara Dengan Karakter

Jaringan Neural Adalah Kuncinya

Direkomendasikan:

Mengapa Anda Mungkin (atau Mungkin Tidak) Segera Melihat Picture-in-Picture YouTube

Segera, Kamera Ponsel Anda Mungkin Selalu Mengawasi Anda

5 Cara Anda Dapat Berbicara dengan Santa Online

Bagaimana Komputer Dapat Segera Berinterface Dengan Otak Anda

Headset Oculus VR Anda Sekarang Mendengarkan Saat Anda Berbicara

Apa Itu File EASM?

Apa itu Folder Root atau Direktori Root?

Facebook Memperkenalkan Kacamata Cerdas Ray-Ban Stories Baru

Amazon Mengungkapkan TV Pertama Amazon dan Fire TV Stick 4K Max

Bagaimana VR Dapat Mengubah Cara Anda Pergi ke Konser

Cara Menghapus Riwayat Pencarian Facebook Anda

Font Ringkas Menghabiskan Lebih Sedikit Ruang Secara Horizontal

Buat Lampiran Menggunakan Seret dan Lepas di Outlook

Menyimpan Gambar sebagai GIF di GIMP

Hindari Gangguan Telepon Nirkabel Dari Wi-Fi Anda

44 Situs Paling Berguna yang Tidak Anda Ketahui

Google Mengganti FLoC Dengan API Topik Baru

Cara Menonton Film di YouTube

Bahkan Mengganti Hard Drive Tidak Akan Menghapus Malware Ini

Peretas Bertekad untuk Meningkatkan AI