Швидша та приватна AI-транскрипція: нові моделі від Mistral AI

3

Mistral AI представила дві нові моделі для транскрипції, розроблені для швидкості та конфіденційності, відповідаючи на зростаючий попит на безпечну обробку аудіо в реальному часі. Ці моделі, Voxtral Mini Transcribe 2 та Voxtral Realtime, відрізняються компактними розмірами і можуть працювати безпосередньо на пристроях, таких як смартфони, ноутбуки або навіть гаджети, що носяться, що виключає необхідність відправки конфіденційних даних на хмарні сервери.

Перехід до AI на пристрої

Зрушення у бік обробки пристрої обумовлений як питаннями конфіденційності. Запуск AI-моделей локально значно знижує затримку, забезпечуючи швидшу транскрипцію. Відходять у минулі часи очікування завантаження, обробки та повернення аудіо. Це особливо важливо для додатків реального часу, таких як створення субтитрів у прямому ефірі, де затримки роблять функцію марною.

Віце-президент Mistral з наукових операцій, П’єр Сток, підкреслює цю думку: * “Вам потрібно, щоб транскрипція відбувалася максимально близько до вас. А найближче до вас – будь-який периферійний пристрій.”

Цей підхід обходить ризики, властиві хмарним сервісам транскрипції, які можуть бути вразливими до витоків даних або несанкціонованого доступу. Для галузей, що працюють із конфіденційною інформацією — охорона здоров’я, юриспруденція, журналістика — AI на пристрої є суттєвим покращенням.

Швидкість та точність: пошук балансу

Модель Voxtral Realtime демонструє затримку менше 200 мілісекунд, що означає транскрипцію мови майже так само швидко, як людина може її читати. Ця продуктивність досягається рахунок компактного розміру моделей, що дозволяє їм ефективно працювати на обмеженому устаткуванні.

Проте менші моделі традиційно жертвують точністю. Mistral стверджує, що її нові моделі долають цей компроміс, досягаючи продуктивності порівнянної з більшими альтернативами за ключовими показниками. Початкове тестування підтверджує швидкість, але також виявляє незначні помилки: AI невірно розпізнав “Mistral AI” як “Mr. Lay Eye”, а “Voxtral” як “VoxTroll”.

Сток визнає ці проблеми, зазначивши, що користувачі можуть налаштовувати моделі для розпізнавання конкретних імен чи термінів, збільшуючи точність з часом. Основне завдання зрозуміле: створення невеликої, швидкої AI без шкоди для надійності.

Доступність та майбутні перспективи

І Voxtral Mini Transcribe 2, і Voxtral Realtime доступні через API Mistral та на Hugging Face. Останній включає демонстрацію, що дозволяє користувачам протестувати можливості транскрипції реального часу. В даний час моделі підтримують 13 мов.

Поява високопродуктивної AI-транскрипції на пристрої знаменує собою поворотний момент у тому, як ми обробляємо аудіодані. Це не тільки вирішує проблеми конфіденційності, але й відкриває шлях для більш швидких та чуйних додатків перетворення мови на текст у широкому спектрі галузей. У міру вдосконалення апаратного забезпечення варто очікувати появи ще потужніших і непомітніших AI-рішень.