Percakapan Dengan Komputer Anda Menjadi Lebih Realistis

Daftar Isi:

Percakapan Dengan Komputer Anda Menjadi Lebih Realistis
Percakapan Dengan Komputer Anda Menjadi Lebih Realistis
Anonim

Key Takeaways

  • Meta menggunakan AI untuk membuat program yang dapat mengekspresikan emosi dalam ucapan.
  • Tim AI perusahaan mengatakan telah membuat kemajuan dalam pemodelan vokalisasi ekspresif, seperti tawa, menguap, tangisan, dan "obrolan spontan" secara real-time.
  • AI juga digunakan untuk memperkuat peningkatan dalam pengenalan suara.
Image
Image

Anda mungkin akan segera dapat melakukan obrolan yang lebih alami dengan komputer Anda, berkat kekuatan kecerdasan buatan (AI).

Meta mengatakan telah membuat kemajuan yang signifikan dalam upayanya untuk menciptakan sistem ucapan yang dihasilkan oleh AI yang lebih realistis. Tim AI perusahaan mengatakan telah membuat kemajuan dalam kemampuan untuk memodelkan vokalisasi ekspresif, seperti tawa, menguap, dan tangisan, selain "obrolan spontan" secara real-time.

"Dalam percakapan apa pun, orang saling bertukar sinyal nonverbal, seperti intonasi, ekspresi emosional, jeda, aksen, ritme - yang semuanya penting untuk interaksi manusia," tulis tim dalam posting blog baru-baru ini.. "Tetapi sistem AI saat ini gagal menangkap sinyal yang kaya dan ekspresif ini karena mereka hanya belajar dari teks tertulis, yang menangkap apa yang kita katakan tetapi bukan bagaimana kita mengatakannya."

Pidato Lebih Cerdas

Dalam posting blog, tim Meta AI mengatakan mereka bekerja untuk mengatasi keterbatasan sistem AI tradisional yang tidak dapat memahami sinyal non-verbal dalam ucapan, seperti intonasi, ekspresi emosional, jeda, aksen, dan ritme. Sistem terhambat karena hanya dapat belajar dari teks tertulis.

Tetapi pekerjaan Meta berbeda dari upaya sebelumnya karena model AI-nya dapat menggunakan model pemrosesan bahasa alami untuk menangkap sifat bahasa lisan sepenuhnya. Peneliti meta mengatakan bahwa model baru dapat memungkinkan sistem AI untuk menyampaikan sentimen yang ingin mereka sampaikan-seperti kebosanan atau ironi.

"Dalam waktu dekat, kami akan fokus pada penerapan teknik tanpa teks untuk membangun aplikasi hilir yang berguna tanpa memerlukan label teks intensif sumber daya atau sistem pengenalan suara otomatis (ASR), seperti menjawab pertanyaan (mis., "Bagaimana cuaca?"), "tulis tim dalam posting blog. "Kami percaya prosodi dalam pidato dapat membantu mengurai kalimat dengan lebih baik, yang pada gilirannya memfasilitasi pemahaman maksud dan meningkatkan kinerja menjawab pertanyaan."

Pemahaman Kekuatan AI

Tidak hanya komputer menjadi lebih baik dalam mengkomunikasikan makna, tetapi AI juga digunakan untuk memperkuat peningkatan dalam pengenalan suara.

Ilmuwan komputer telah bekerja pada pengenalan suara komputer setidaknya sejak tahun 1952, ketika tiga peneliti Bell Labs menciptakan sistem yang dapat mengenali digit angka tunggal, kata kepala petugas teknologi AI Dynamics, Ryan Monsurate, dalam email ke Lifewire. Pada 1990-an, sistem pengenalan suara tersedia secara komersial tetapi masih memiliki tingkat kesalahan yang cukup tinggi untuk mencegah penggunaan di luar domain aplikasi yang sangat spesifik seperti perawatan kesehatan.

"Sekarang model pembelajaran mendalam telah memungkinkan model ensemble (seperti yang dari Microsoft) untuk mencapai kinerja manusia super pada pengenalan suara, kami memiliki teknologi untuk memungkinkan komunikasi verbal pembicara-independen dengan komputer dalam skala besar," kata Monsurate. "Tahap selanjutnya akan mencakup penurunan biaya sehingga setiap orang yang menggunakan Siri atau asisten AI Google akan memiliki akses ke tingkat pengenalan suara ini."

Image
Image

AI berguna untuk pengenalan suara karena dapat ditingkatkan dari waktu ke waktu melalui pembelajaran, Ariel Utnik, chief revenue officer dan general manager di perusahaan suara AI Verbit.ai, mengatakan kepada Lifewire dalam sebuah wawancara email. Misalnya, Verbit mengklaim bahwa teknologi AI internalnya mendeteksi dan menyaring kebisingan latar belakang dan menggemakan serta mentranskripsikan speaker terlepas dari aksennya untuk menghasilkan transkrip dan teks yang detail dan profesional dari video dan audio langsung dan direkam.

Tetapi Utnik mengatakan bahwa sebagian besar platform pengenalan suara saat ini hanya memiliki akurasi 75-80%.

"AI tidak akan pernah sepenuhnya menggantikan manusia karena tinjauan pribadi oleh transscriber, proofreader, dan editor diperlukan untuk memastikan transkrip akhir yang berkualitas tinggi dan akurasi tertinggi," tambahnya.

Pengenalan suara yang lebih baik juga dapat digunakan untuk mencegah peretas, kata Sanjay Gupta, wakil presiden global kepala pengembangan produk dan perusahaan di perusahaan pengenalan suara Mitek Systems, dalam email. Penelitian menunjukkan bahwa dalam dua tahun, 20 persen dari semua serangan pengambilalihan akun yang berhasil akan menggunakan augmentasi suara sintetis, tambahnya.

"Ini berarti seiring dengan semakin canggihnya teknologi deep fake, kita perlu secara bersamaan menciptakan keamanan tingkat lanjut yang dapat memerangi taktik ini bersama dengan deep fakes gambar dan video," kata Gupta. "Memerangi spoofing suara memerlukan teknologi deteksi keaktifan, yang mampu membedakan antara suara langsung dan versi suara yang direkam, sintetis, atau yang dihasilkan komputer."

Koreksi 2022-05-04: Memperbaiki ejaan nama Ryan Monsurate di paragraf 9.

Direkomendasikan: