Mistral AI telah merilis dua model transkripsi baru yang dirancang untuk kecepatan dan privasi, menjawab meningkatnya permintaan akan pemrosesan audio yang aman dan real-time. Model-model ini, Voxtral Mini Transcribe 2 dan Voxtral Realtime, berukuran kecil dan dapat berjalan langsung di perangkat seperti ponsel cerdas, laptop, atau bahkan perangkat yang dapat dikenakan—menghilangkan kebutuhan untuk mengirim data sensitif ke server cloud.
Dorongan untuk AI di Perangkat
Peralihan ke arah pemrosesan di perangkat bukan hanya soal privasi. Menjalankan model AI secara lokal secara drastis mengurangi latensi, yang berarti transkripsi lebih cepat. Hari-hari menunggu audio diunggah, diproses, dan dikembalikan telah berakhir. Hal ini sangat penting terutama untuk aplikasi real-time seperti teks langsung, yang mana penundaan membuat fitur tidak dapat digunakan.
Wakil Presiden Operasi Sains Mistral, Pierre Stock, menekankan hal ini: “Apa yang Anda inginkan adalah transkripsi terjadi sangat, sangat dekat dengan Anda. Dan hal terdekat yang dapat kami temukan dengan Anda adalah perangkat edge apa pun.”
Pendekatan ini menghindari risiko bawaan layanan transkripsi berbasis cloud, yang rentan terhadap pelanggaran data atau akses tidak sah. Bagi industri yang menangani informasi rahasia—layanan kesehatan, hukum, jurnalisme—AI pada perangkat merupakan peningkatan yang signifikan.
Kecepatan dan Akurasi: Tindakan Penyeimbang
Model Voxtral Realtime memiliki latensi di bawah 200 milidetik, yang berarti model ini mentranskripsikan ucapan hampir secepat manusia dapat membacanya. Kinerja ini dimungkinkan oleh ukuran model yang ringkas, sehingga memungkinkan mereka beroperasi secara efisien pada perangkat keras terbatas.
Namun, model yang lebih kecil biasanya mengorbankan akurasi. Mistral mengklaim model-model barunya mengatasi trade-off ini, menyamai kinerja alternatif-alternatif yang lebih besar pada tolok ukur utama. Pengujian awal mengonfirmasi kecepatannya, tetapi juga mengungkapkan kendala kecil: AI salah mengidentifikasi “Mistral AI” sebagai “Mr. Lay Eye” dan “Voxtral” sebagai “VoxTroll”.
Stock menyadari masalah ini, dan mencatat bahwa pengguna dapat menyempurnakan model untuk mengenali nama atau jargon tertentu, sehingga meningkatkan akurasi dari waktu ke waktu. Tantangan mendasarnya jelas: membangun AI yang kecil dan cepat tanpa mengorbankan keandalan.
Ketersediaan dan Implikasinya di Masa Depan
Voxtral Mini Transcribe 2 dan Voxtral Realtime tersedia melalui API Mistral dan di Hugging Face. Yang terakhir mencakup demo yang memungkinkan pengguna menguji kemampuan transkripsi waktu nyata. Model saat ini mendukung 13 bahasa.
Munculnya transkripsi AI pada perangkat berperforma tinggi menandai titik balik dalam cara kami menangani data audio. Hal ini tidak hanya mengatasi masalah privasi namun juga membuka jalan bagi aplikasi ucapan-ke-teks yang lebih cepat dan responsif di berbagai industri. Seiring dengan peningkatan perangkat keras, diharapkan akan muncul solusi AI yang lebih kuat dan bijaksana.




























