OpenAI Kenalkan Open-Source “Whisper”, Sistem Pengenalan Suara Multibahasa

Media
29.09.22

OpenAI Kenalkan Open-Source “Whisper”, Sistem Pengenalan Suara Multibahasa

Menurut unggahan OpenAI dalam Hackaday, produk ini telah dilatih pada 680.000 jam data bahasa yang diawasi penuh.

by Whiteboard Journal

 

Teks: Adinda R. Syam
Foto: OpenAI Whisper/GitHub

Jika ingin mencoba voice recognition atau pengenalan suara yang berkualitas tinggi tanpa membeli device baru, selamat! Karena hal ini berhasil terwujud. OpenAI telah memperkenalkan “Whisper” yang mereka klaim sebagai jaringan saraf open source yang ‘mendekati ketahanan dan akurasi tingkat manusia pada pengenalan ucapan bahasa Inggris.’ Tampaknya berfungsi pada setidaknya beberapa bahasa lain juga.

Dalam uji coba dan demonstrasinya, pengguna akan melihat bahwa berbicara cepat atau dengan aksen yang indah dan tampaknya tidak mempengaruhi akurasi hasil. Menurut unggahan OpenAI dalam Hackaday, hal ini karena bahwa produk ini dilatih pada 680.000 jam data bahasa yang diawasi penuh. Jika berbicara sebanyak itu dengan AI, kita akan membutuhkan 77 tahun tanpa tidur!

Foto: “Whisper” System/Al WIlliams from Hackaday

Secara internal, pidato dibagi menjadi “gigitan” 30 detik yang memberi makan spektogram. Encoder akan memproses spektogram tersebut dan decoder mencerna hasil menggunakan beberapa prediksi dan heuristik lainnya. Sekitar sepertiga dari data berasal dari sumber yang tidak berbahasa Inggris kemudian diterjemahkan. Untuk itu, pengguna dapat membaca makalah tentang bagaimana pelatihan umum berkinerja buruk pada beberapa model yang dilatih secara khusus pada tolok ukur standar. Meskipun, mereka percaya bahwa “Whisper” dapat menjadi lebih baik pada pidato acak di luar tolok ukur standar tersebut.

Ukuran model pada variasi “kecil” masih 39 megabyte dan varian “besar” lebih dari satu setengah giga. Jadi ini mungkin tidak akan berjalan di “Arduino” dalam waktu dekat. Namun, jika ingin membuat kode, semuanya ada di GitHub.

Memang, mungkin ada solusi lain, tetapi tentu tidak sekuat performa “Whisper” keluaran OpenAI ini dalam mengenali suara para pengguna. whiteboardjournal, logo