Key Takeaways
- DeepZen menggunakan AI (kecerdasan buatan) untuk membuat buku audio yang sangat realistis dari teks.
- Teknologi ini menggunakan aktor suara manusia asli untuk menyediakan blok bangunan.
- Amazon dan Audible saat ini tidak menerima buku audio yang dihasilkan komputer.
DeepZen adalah perusahaan yang menciptakan suara komputer yang digunakan dalam buku audio, berdasarkan suara nyata dari aktor manusia. Kualitasnya menakutkan-cukup bagus untuk didengarkan selama berjam-jam. Gimmick di sini adalah komponen AI (kecerdasan buatan), yang dapat membaca teks dan menyimpulkan respons emosional yang benar berdasarkan konteks. Itu kemudian menempatkan emosi itu ke dalam suara.
Ini mengesankan dan sangat nyaman. Tetapi apakah kita benar-benar menginginkan pengalaman buku audio yang homogen? Dan bagaimana dengan pengisi suara itu?
"Dari sudut pandang penerbit indie, segala sesuatu yang mengurangi biaya produksi buku audio sangat menarik," kata Rick Carlile, pemilik penerbit independen Carlile Media, kepada Lifewire melalui email.
"Tetapi daya tarik itu mengasumsikan bahwa produknya akan memiliki kualitas yang sama dengan narasi tradisional. Saya rasa kita belum seratus persen sampai. Jangan salah paham, DeepZen sangat bagus. Ini adalah terobosan yang luar biasa, dan penciptanya layak mendapatkan pujian dan kesuksesan yang luar biasa. Tapi itu belum sempurna."
Audio Itu 'Cukup Bagus'
Cara terbaik untuk memahami kualitas DeepZen adalah dengan mendengarkan sampelnya. Jika Anda tidak tahu bahwa itu dibuat oleh komputer, Anda mungkin tidak akan menyadarinya. Lagipula tidak untuk sementara waktu. Mari kita asumsikan bahwa AI DeepZen sempurna dan tidak pernah salah menafsirkan nada emosional yang seharusnya dipukul.
Meskipun demikian, manusia dapat menawarkan interpretasi yang lebih bernuansa dan seringkali lebih mengejutkan. Seorang aktor mungkin memberikan twist yang tidak terduga pada kata-kata yang bahkan tidak akan pernah dipertimbangkan oleh komputer. Dan kenyataannya, interpretasi AI belum sebagus aktor suara profesional.
"Sebagai orang yang mengerjakan film dan baru-baru ini di dunia narasi audio, sementara saya terkesan dengan AI-Saya tahu fakta bahwa ada kedalaman makna yang tidak dapat ditafsirkan oleh mesin, " suara profesional aktor Paul Cram memberi tahu Lifewire melalui email.
"Apakah akan ada lonjakan penulis tidak dikenal yang menggunakannya? Saya jamin akan ada karena 'cukup baik.'"
Cukup baik, dikombinasikan dengan kenyamanan dan penghematan biaya, mungkin cukup untuk mendorong penerbit indie ke layanan ini.
"Buku audio dapat berharga hingga $500 per jam audio (lebih banyak lagi untuk suara selebriti), dan itu tidak termasuk biaya waktu manajemen dan admin, " kata Carlile. "Mampu mengurangi separuh biaya itu hanya dengan mengunggah naskah ke penyedia seperti DeepZen sangat menarik."
Masalah Berbicara
Ini belum semudah memecat aktor suara Anda dan mengunggah manuskrip ke DeepZen. Saat ini ada satu penghalang untuk orasi AI buku audio yang mudah, dan itu dari Amazon.
"Saat ini, ACX, rute penerbit mandiri ke distribusi audiobook Audible dan Amazon, tidak akan menerima buku audio yang tidak direkam oleh manusia, " kata Carlile.
Kenapa? Kualitas. Berikut entri FAQ dari situs web:
"Text-to-speech atau rekaman otomatis lainnya tidak diperbolehkan. Pendengar yang dapat mendengar memilih buku audio untuk penampilan materi, serta ceritanya. Untuk memenuhi harapan itu, buku audio Anda harus direkam oleh manusia."
Ini berarti bahwa buku audio yang dibuat oleh DeepZen setidaknya sudah tidak ada untuk saat ini. Ini adalah spekulasi murni, tetapi DeepZen akan tampak seperti akuisisi yang cukup bagus untuk Amazon, membiarkannya menjual layanan dan menyimpannya hanya untuk buku Audible. Dan bahkan jika itu tidak terjadi, jika kualitas buku audio yang dihasilkan komputer sebagus ini, maka tampaknya tidak ada alasan untuk tidak membuat pengecualian terhadap aturan ini.
Apakah Anda senang mendengarkan buku audio yang dibuat dengan cara ini? Ketika itu terjadi, kebanyakan orang bahkan tidak akan curiga. Beberapa mungkin lebih menyukai kesempurnaan suara yang dihasilkan komputer karena mereka akan bebas dari tics vokal dan kebiasaan yang terkadang dapat mengalihkan perhatian. Teknologi ini juga cocok untuk video game, iklan TV dan radio, dan skenario lain di mana Anda akan menyewa aktor suara.
Teknologi DeepZen juga akan menjadi cara yang bagus untuk membuat podcast berita secara otomatis dari artikel tertulis, yang dapat berguna untuk perjalanan.
Dan bagaimana dengan pengisi suara itu? Yah, setidaknya akan ada satu kesempatan: Mereka bisa pergi dan bekerja untuk DeepZen.