Une transcription privée et plus rapide de l’IA est arrivée : les nouveaux modèles de Mistral AI

11

Mistral AI a publié deux nouveaux modèles de transcription conçus pour la vitesse et la confidentialité, répondant à une demande croissante de traitement audio sécurisé en temps réel. Ces modèles, Voxtral Mini Transcribe 2 et Voxtral Realtime, sont particulièrement petits et peuvent fonctionner directement sur des appareils tels que des smartphones, des ordinateurs portables ou même des appareils portables, éliminant ainsi le besoin d’envoyer des données sensibles aux serveurs cloud.

La poussée vers l’IA sur appareil

L’évolution vers le traitement sur appareil ne concerne pas seulement la confidentialité. L’exécution locale de modèles d’IA réduit considérablement la latence, ce qui signifie des transcriptions plus rapides. Les jours d’attente pour le téléchargement, le traitement et le retour de l’audio touchent à leur fin. Ceci est particulièrement critique pour les applications en temps réel comme le sous-titrage en direct, où les retards rendent la fonctionnalité inutilisable.

Le vice-président des opérations scientifiques de Mistral, Pierre Stock, souligne ce point : “Ce que vous voulez, c’est que la transcription se produise très, très près de chez vous. Et le plus proche que nous puissions trouver de vous est n’importe quel appareil de pointe.”

Cette approche évite les risques inhérents aux services de transcription basés sur le cloud, qui peuvent être vulnérables aux violations de données ou aux accès non autorisés. Pour les secteurs qui traitent des informations confidentielles (santé, droit, journalisme), l’IA intégrée aux appareils constitue une amélioration significative.

Vitesse et précision : un exercice d’équilibre

Le modèle Voxtral Realtime affiche une latence inférieure à 200 millisecondes, ce qui signifie qu’il transcrit la parole presque aussi rapidement qu’un humain peut la lire. Cette performance est rendue possible par la taille compacte des modèles, leur permettant de fonctionner efficacement sur un matériel limité.

Cependant, les modèles plus petits sacrifient traditionnellement la précision. Mistral affirme que ses nouveaux modèles surmontent ce compromis, égalant les performances d’alternatives plus grandes sur des critères clés. Les premiers tests confirment la vitesse, mais révèlent également des problèmes mineurs : l’IA a identifié à tort “Mistral AI” comme “Mr. Lay Eye” et “Voxtral” comme “VoxTroll”.

Stock reconnaît ces problèmes, notant que les utilisateurs peuvent affiner les modèles pour reconnaître des noms ou un jargon spécifiques, améliorant ainsi la précision au fil du temps. Le défi sous-jacent est clair : créer une IA petite et rapide sans sacrifier la fiabilité.

Disponibilité et implications futures

Voxtral Mini Transcribe 2 et Voxtral Realtime sont disponibles via l’API de Mistral et sur Hugging Face. Ce dernier comprend une démo permettant aux utilisateurs de tester les capacités de transcription en temps réel. Les modèles prennent actuellement en charge 13 langues.

L’émergence d’une transcription IA haute performance sur appareil marque un tournant dans la façon dont nous traitons les données audio. Il répond non seulement aux problèmes de confidentialité, mais ouvre également la voie à des applications de synthèse vocale plus rapides et plus réactives dans un large éventail de secteurs. À mesure que le matériel continue de s’améliorer, attendez-vous à l’émergence de solutions d’IA encore plus puissantes et discrètes.