Key Takeaways
- Peneliti mengatakan bahwa mereka dapat mengajarkan AI untuk memberi label pada video dengan menonton dan mendengarkan.
- Sistem AI belajar merepresentasikan data untuk menangkap konsep yang dibagi antara data visual dan audio.
-
Ini adalah bagian dari upaya untuk mengajarkan AI untuk memahami konsep yang tidak sulit dipelajari manusia, tetapi sulit dipahami oleh komputer.
Sistem kecerdasan buatan (AI) baru dapat menonton dan mendengarkan video Anda dan memberi label pada hal-hal yang sedang terjadi.
MIT peneliti telah mengembangkan teknik yang mengajarkan AI untuk menangkap tindakan yang dibagikan antara video dan audio. Misalnya, metode mereka dapat memahami bahwa tindakan bayi menangis dalam video terkait dengan kata yang diucapkan "menangis" dalam klip suara. Ini adalah bagian dari upaya untuk mengajarkan AI cara memahami konsep yang tidak sulit dipelajari oleh manusia, tetapi sulit dipahami oleh komputer.
"Paradigma pembelajaran yang lazim, pembelajaran yang diawasi, bekerja dengan baik ketika Anda memiliki kumpulan data yang dijelaskan dan lengkap dengan baik," pakar AI Phil Winder mengatakan kepada Lifewire dalam sebuah wawancara email. "Sayangnya, kumpulan data jarang lengkap karena dunia nyata memiliki kebiasaan buruk dalam menghadirkan situasi baru."
AI yang Lebih Cerdas
Komputer mengalami kesulitan mencari tahu skenario sehari-hari karena mereka perlu mengolah data daripada suara dan gambar seperti manusia. Ketika mesin "melihat" sebuah foto, ia harus mengkodekan foto itu menjadi data yang dapat digunakan untuk melakukan tugas seperti klasifikasi gambar. AI bisa macet saat input datang dalam berbagai format, seperti video, klip audio, dan gambar.
"Tantangan utama di sini adalah, bagaimana sebuah mesin dapat menyelaraskan modalitas yang berbeda itu? Sebagai manusia, ini mudah bagi kita, " Alexander Liu, seorang peneliti MIT dan penulis pertama makalah tentang subjek tersebut, mengatakan dalam sebuah rilis berita. "Kami melihat mobil dan kemudian mendengar suara mobil lewat, dan kami tahu ini adalah hal yang sama. Tapi untuk pembelajaran mesin, tidak semudah itu."
Tim Liu mengembangkan teknik AI yang mereka katakan belajar untuk merepresentasikan data untuk menangkap konsep yang dibagikan antara data visual dan audio. Dengan menggunakan pengetahuan ini, model pembelajaran mesin mereka dapat mengidentifikasi di mana tindakan tertentu terjadi dalam video dan memberi label.
Model baru ini mengambil data mentah, seperti video dan teks yang sesuai, dan mengkodekannya dengan mengekstraksi fitur atau pengamatan tentang objek dan tindakan dalam video. Kemudian memetakan titik-titik data tersebut dalam kisi, yang dikenal sebagai ruang penyisipan. Model tersebut mengelompokkan data yang sama sebagai satu titik dalam kisi; masing-masing titik data ini, atau vektor, diwakili oleh kata individual.
Misalnya, klip video seseorang yang sedang bermain juggling mungkin dipetakan ke vektor berlabel "juggling".
Para peneliti merancang model sehingga hanya dapat menggunakan 1.000 kata untuk melabeli vektor. Model dapat memutuskan tindakan atau konsep mana yang ingin dikodekan ke dalam satu vektor, tetapi hanya dapat menggunakan 1.000 vektor. Model memilih kata-kata yang dianggap paling mewakili data.
"Jika ada video tentang babi, model mungkin menetapkan kata 'babi' ke salah satu dari 1.000 vektor. Kemudian, jika model mendengar seseorang mengucapkan kata 'babi' dalam klip audio, itu masih harus menggunakan vektor yang sama untuk mengkodekannya, "jelas Liu.
Video Anda, Didekode
Sistem pelabelan yang lebih baik seperti yang dikembangkan oleh MIT dapat membantu mengurangi bias dalam AI, Marian Beszedes, kepala penelitian dan pengembangan di perusahaan biometrik Innovatrics, mengatakan kepada Lifewire dalam sebuah wawancara email. Beszedes menyarankan industri data dapat melihat sistem AI dari perspektif proses manufaktur.
"Sistem menerima data mentah sebagai input (bahan mentah), memprosesnya terlebih dahulu, mencernanya, membuat keputusan atau prediksi, dan menghasilkan analitik (barang jadi)," kata Beszedes. "Kami menyebut aliran proses ini sebagai "pabrik data", dan seperti proses manufaktur lainnya, proses ini harus tunduk pada kontrol kualitas. Industri data perlu memperlakukan bias AI sebagai masalah kualitas.
"Dari sudut pandang konsumen, data yang salah label membuat pencarian online untuk gambar/video tertentu menjadi lebih sulit," tambah Beszedes. "Dengan AI yang dikembangkan dengan benar, Anda dapat melakukan pelabelan secara otomatis, jauh lebih cepat dan lebih netral dibandingkan dengan pelabelan manual."
Tetapi model MIT masih memiliki beberapa keterbatasan. Pertama, penelitian mereka berfokus pada data dari dua sumber sekaligus, tetapi di dunia nyata, manusia menemukan banyak jenis informasi secara bersamaan, kata Liu
"Dan kami tahu 1.000 kata bekerja pada kumpulan data semacam ini, tetapi kami tidak tahu apakah itu dapat digeneralisasikan ke masalah dunia nyata," tambah Liu.
Para peneliti MIT mengatakan teknik baru mereka mengungguli banyak model serupa. Jika AI dapat dilatih untuk memahami video, pada akhirnya Anda mungkin dapat melewatkan menonton video liburan teman Anda dan mendapatkan laporan yang dihasilkan komputer sebagai gantinya.