Mistral AI представила две новые модели для транскрипции, разработанные для скорости и конфиденциальности, отвечая на растущий спрос на безопасную обработку аудио в реальном времени. Эти модели, Voxtral Mini Transcribe 2 и Voxtral Realtime, отличаются компактными размерами и могут работать непосредственно на устройствах, таких как смартфоны, ноутбуки или даже носимые гаджеты, что исключает необходимость отправки конфиденциальных данных на облачные серверы.
Переход к AI на устройстве
Сдвиг в сторону обработки на устройстве обусловлен не только вопросами конфиденциальности. Запуск AI-моделей локально значительно снижает задержку, обеспечивая более быструю транскрипцию. Уходят в прошлое времена ожидания загрузки, обработки и возврата аудио. Это особенно важно для приложений реального времени, таких как создание субтитров в прямом эфире, где задержки делают функцию бесполезной.
Вице-президент Mistral по научным операциям, Пьер Сток, подчёркивает эту мысль: «Вам нужно, чтобы транскрипция происходила максимально близко к вам. А ближе всего к вам — любое периферийное устройство.»
Этот подход обходит риски, присущие облачным сервисам транскрипции, которые могут быть уязвимы для утечек данных или несанкционированного доступа. Для отраслей, работающих с конфиденциальной информацией — здравоохранение, юриспруденция, журналистика — AI на устройстве является существенным улучшением.
Скорость и точность: поиск баланса
Модель Voxtral Realtime демонстрирует задержку менее 200 миллисекунд, что означает транскрипцию речи почти так же быстро, как человек может её читать. Эта производительность достигается за счёт компактного размера моделей, позволяющего им эффективно работать на ограниченном оборудовании.
Однако, меньшие модели традиционно жертвуют точностью. Mistral утверждает, что её новые модели преодолевают этот компромисс, достигая производительности, сравнимой с более крупными альтернативами по ключевым показателям. Первоначальное тестирование подтверждает скорость, но также выявляет незначительные ошибки: AI неверно распознал «Mistral AI» как «Mr. Lay Eye», а «Voxtral» как «VoxTroll».
Сток признаёт эти проблемы, отметив, что пользователи могут настраивать модели для распознавания конкретных имён или терминов, повышая точность со временем. Основная задача ясна: создание небольшого, быстрого AI без ущерба для надёжности.
Доступность и будущие перспективы
И Voxtral Mini Transcribe 2, и Voxtral Realtime доступны через API Mistral и на Hugging Face. Последний включает демонстрацию, позволяющую пользователям протестировать возможности транскрипции в реальном времени. В настоящее время модели поддерживают 13 языков.
Появление высокопроизводительной AI-транскрипции на устройстве знаменует собой поворотный момент в том, как мы обрабатываем аудиоданные. Это не только решает проблемы конфиденциальности, но и открывает путь для более быстрых и отзывчивых приложений преобразования речи в текст в широком спектре отраслей. По мере совершенствования аппаратного обеспечения стоит ожидать появления ещё более мощных и незаметных AI-решений.
