Pada awal tahun ini, Meta memperkenalkan Voicebox, model kecerdasan buatan (AI) canggih yang dapat melakukan tugas generasi suara seperti pengeditan, pengambilan sampel, dan penyulihan gaya. 

Ini merupakan terobosan dalam dunia AI generatif karena mampu menggeneralisasi tugas generasi suara yang tidak secara khusus dilatih untuk menyelesaikannya, dan menjalankan tugas-tugas ini dengan kinerja tinggi.

Sekarang, Audiobox, penerus Voicebox, lebih jauh mengembangkan AI generatif untuk audio dengan menggabungkan kemampuan generasi dan penyuntingan untuk ucapan, efek suara (suara pendek, seperti gonggongan anjing, bunyi klakson mobil, atau petir), dan lanskap suara, dengan berbagai mekanisme input untuk memaksimalkan kendali untuk setiap kasus penggunaan.

Yang paling mencolok, Audiobox memungkinkan orang menggunakan petunjuk bahasa alamiah untuk menggambarkan suara atau jenis ucapan yang ingin mereka hasilkan. 

Jika seseorang ingin menghasilkan lanskap suara, misalnya, mereka dapat memberikan petunjuk teks kepada model seperti, “Sungai yang mengalir dan burung-burung berkicau.”

Demikian pula, untuk menghasilkan suara, pengguna dapat memasukkan, “Seorang wanita muda berbicara dengan nada tinggi dan cepat.”

Model ini juga memungkinkan pengguna menggabungkan suara input dengan petunjuk gaya teks untuk mensintesis ucapan dari suara tersebut dalam berbagai lingkungan (misalnya, "di dalam katedral") atau emosi apa pun (misalnya, "berbicara dengan sedih dan lambat"). 

Sejauh pengetahuan Meta, Audiobox adalah model pertama yang memungkinkan input ganda (petunjuk suara dan petunjuk deskripsi teks) untuk penyulihan suara bebas.

Audiobox menunjukkan kemampuan kendali tingkat lanjut dalam generasi ucapan dan efek suara. Uji coba Meta sendiri menunjukkan bahwa ini secara signifikan melampaui model-model terbaik sebelumnya (AudioLDM2, VoiceLDM, dan TANGO) dalam hal kualitas dan relevansi (kebenaran terhadap deskripsi teks) dalam evaluasi subjektif. 

Audiobox unggul dalam kemiripan gaya dibandingkan dengan Voicebox sebanyak lebih dari 30 persen dalam berbagai gaya ucapan.


Mengapa Meta Membuat Audiobox

Audio memainkan peran mendasar dalam banyak bentuk media, mulai dari film hingga podcast, buku audio, dan permainan video. 

Namun, menghasilkan audio berkualitas seringkali bisa menjadi proses yang menantang yang memerlukan akses ke perpustakaan suara yang luas serta keahlian dalam bidang tertentu (teknik suara, efek suara, akting suara, dll.) untuk menghasilkan hasil yang optimal — keahlian yang mungkin tidak dimiliki oleh masyarakat umum, atau bahkan oleh pecinta audio.

Meta merilis Audiobox kepada sekelompok peneliti dan lembaga akademis yang dipilih secara cermat dengan catatan penelitian dalam penelitian ucapan untuk membantu memajukan keadaan seni dalam area penelitian ini dan memastikan Meta memiliki beragam mitra untuk menangani aspek AI yang bertanggung jawab dalam pekerjaan ini. 

Di masa depan, Meta percaya terobosan penelitian seperti Audiobox akan menurunkan hambatan aksesibilitas untuk pembuatan audio dan membuatnya mudah bagi siapa pun untuk menjadi pembuat konten audio. Pembuat konten dapat menggunakan model seperti Audiobox untuk menghasilkan lanskap suara untuk video atau podcast, efek suara khusus untuk permainan, atau berbagai kasus penggunaan lainnya.


Kemampuan Audiobox

Meskipun Audiobox dibangun di atas kerangka kerja Voicebox, ia dapat menghasilkan berbagai macam suara, termasuk ucapan dalam berbagai lingkungan dan gaya, efek suara non-ucapan, dan lanskap suara.

Kemampuan menggunakan input teks dan suara juga sangat meningkatkan kemampuan kendali Audiobox dibandingkan dengan Voicebox. Pengguna Audiobox dapat menggunakan petunjuk deskripsi teks untuk menentukan gaya ucapan dan efek suara, fitur yang tidak didukung dalam Voicebox. Ketika input suara dan petunjuk teks digunakan bersama-sama, input suara mengikat timbre, dan petunjuk teks dapat digunakan untuk mengubah aspek lain.

Audiobox mewarisi objektif pelatihan generasi audio yang dipandu oleh Voicebox dan metode pemodelan pemadanan aliran untuk memungkinkan pengisian audio. Dengan pengisian, pengguna juga dapat menggunakan model ini untuk memoles efek suara (menambahkan berbagai suara petir ke dalam lanskap suara hujan, misalnya).


Undangan Meta untuk Berkolaborasi dalam Penelitian yang Bertanggung Jawab

AI untuk generasi audio telah membuat kemajuan signifikan dalam setahun terakhir. Namun, seperti halnya dengan semua inovasi AI, kita harus bekerja untuk membantu memastikan penggunaan yang bertanggung jawab. Masalah-masalah yang diketahui dengan AI tidak dapat diatasi oleh individu atau organisasi tunggal. Itulah mengapa kolaborasi dengan komunitas penelitian tentang model-model terkini sangat penting sekarang lebih dari sebelumnya.

Untuk menjadikan alat-alat ini lebih baik dan aman bagi semua orang, komunitas AI harus diberdayakan untuk membangun di atas pekerjaan Meta dan terus mengembangkan inovasi ini dengan tanggung jawab. Namun, akses harus dibagikan dengan cara yang tepat. Untuk menghormati hal ini dan komitmen Meta yang berkelanjutan pada ilmu terbuka, Meta merilis Audiobox dengan lisensi hanya untuk penelitian kepada sejumlah peneliti dan lembaga yang dipilih secara cermat.

Meta juga telah merilis demo interaktif yang memamerkan kemampuan Audiobox.


Implementasi Audiobox secara Bertanggung Jawab

Alat seperti Audiobox dapat menimbulkan kekhawatiran tentang penyamaran suara atau penyalahgunaan lainnya. Sebagai bagian dari komitmen Meta untuk membangun fitur AI generatif secara bertanggung jawab, Meta telah mengimplementasikan teknologi baru untuk membantu mengatasi masalah ini.

Baik model Audiobox maupun demo interaktif Meta dilengkapi dengan penandaan audio otomatis sehingga semua audio yang dibuat dengan Audiobox dapat dilacak dengan akurat hingga asal usulnya. Metode penandaan Meta menyisipkan sinyal ke dalam audio yang tidak terdeteksi oleh telinga manusia tetapi dapat terdeteksi hingga level frame menggunakan model yang mampu menemukan segmen-segmen yang dihasilkan oleh AI dalam audio.

Selain itu, mirip dengan cara situs web menggunakan CAPTCHA untuk menghalangi bot dan spam, demo interaktif Meta mencakup fitur otentikasi suara untuk melindungi dari penyamaran. Siapa pun yang ingin menambahkan suara ke demo Audiobox harus berbicara dengan suara mereka sendiri menggunakan suara mereka sendiri. Petunjuk berubah pada interval teratur dan membuatnya sangat sulit untuk menambahkan suara orang lain dengan audio yang sudah direkam.

Untuk memastikan ketangguhan di antara kelompok pembicara yang berbeda, Meta menguji kinerja Audiobox pada pembicara dengan jenis kelamin dan bahasa ibu yang berbeda dan memverifikasi bahwa kinerjanya mendekati semua kelompok pembicara tersebut.


Kasus Penggunaan Masa Depan untuk Audiobox

Pada jangka panjang, akan sangat penting untuk bergerak dari membangun model generasi audio khusus yang hanya dapat menghasilkan satu jenis audio (seperti ucapan atau suara) ke arah membangun model generasi audio yang tergeneralisasi yang dapat menghasilkan segala jenis audio. 

Dengan model-model seperti ini, kita dapat melakukan tugas generasi audio yang memerlukan pemahaman di luar satu modalitas tunggal. Ini akan membuat lebih mudah bagi pengembang untuk membangun menuju berbagai kasus penggunaan yang lebih dinamis dan luas.

Audiobox adalah langkah penting menuju demokratisasi generasi audio. Meta membayangkan masa depan di mana semua orang dapat dengan lebih mudah dan efisien membuat audio yang disesuaikan dengan kebutuhan mereka. 

Harapan Meta adalah kita dapat melihat kreativitas yang sama yang dipicu oleh kemajuan dalam generasi teks dan gambar terjadi juga untuk audio, baik bagi para profesional maupun pecinta audio. Pembuatan konten, narasi, pengeditan suara, pengembangan permainan, dan bahkan chatbot AI dapat semua mendapatkan manfaat dari kemampuan model generasi audio ini.


Post a Comment

Lebih baru Lebih lama