Mistral AI představil dva nové modely přepisu navržené pro rychlost a soukromí, v reakci na rostoucí poptávku po bezpečném zpracování zvuku v reálném čase. Tyto modely, Voxtral Mini Transcribe 2 a Voxtral Realtime, mají kompaktní velikost a lze je spustit přímo na zařízeních, jako jsou chytré telefony, notebooky nebo dokonce nositelná zařízení, čímž odpadá nutnost posílat citlivá data na cloudové servery.
Přejít na AI na zařízení
Posun směrem ke zpracování na zařízení není způsoben pouze obavami o soukromí. Lokální spouštění modelů umělé inteligence výrazně snižuje latenci a umožňuje rychlejší přepis. Pryč jsou dny čekání, až se zvuk načte, zpracuje a vrátí. To je důležité zejména pro aplikace v reálném čase, jako jsou živé titulky, kde zpoždění činí funkci nepoužitelnou.
Pierre Stock, viceprezident pro vědecké operace společnosti Mistral, zdůrazňuje tento bod: „Chcete, aby k přepisu došlo co nejblíže vám. A nejbližší věc k vám je jakékoli periferní zařízení.“
Tento přístup obchází rizika spojená s cloudovými přepisovacími službami, které mohou být citlivé na úniky dat nebo neoprávněný přístup. Pro průmyslová odvětví, která se zabývají citlivými informacemi – zdravotnictví, právo, žurnalistika – je umělá inteligence na zařízení významným zlepšením.
Rychlost a přesnost: nalezení rovnováhy
Model Voxtral Realtime vykazuje latenci menší než 200 milisekund, což znamená, že řeč je přepisována téměř tak rychle, jak ji člověk dokáže přečíst. Tohoto výkonu je dosaženo díky kompaktní velikosti modelů, které jim umožňují efektivně pracovat na omezeném vybavení.
Menší modely však tradičně obětují přesnost. Mistral říká, že jeho nové modely tento kompromis překonávají a dosahují výkonu srovnatelného s většími alternativami v klíčových metrikách. Počáteční testování potvrzuje rychlost, ale také odhaluje drobné chyby: AI nesprávně rozpoznala „Mistral AI“ jako „Mr. Lay Eye“ a „Voxtral“ jako „VoxTroll“.
Stock si uvědomuje tyto výzvy a poznamenává, že uživatelé mohou vyladit modely tak, aby rozpoznávaly konkrétní názvy nebo termíny, což postupem času zlepšuje přesnost. Hlavní výzva je jasná: vytvořit malou, rychlou AI bez obětování spolehlivosti.
Dostupnost a vyhlídky do budoucna
Voxtral Mini Transcribe 2 i Voxtral Realtime jsou dostupné prostřednictvím Mistral API a na Hugging Face. Ten obsahuje demo, které uživatelům umožňuje otestovat schopnosti přepisu v reálném čase. Modely aktuálně podporují 13 jazyků.
Nástup vysoce výkonného přepisu umělé inteligence na zařízení znamená zlom ve způsobu, jakým zpracováváme zvuková data. To řeší nejen obavy o soukromí, ale také připravuje cestu pro rychlejší a citlivější aplikace převodu řeči na text v celé řadě průmyslových odvětví. Se zdokonalováním hardwaru očekávejte, že se objeví ještě výkonnější a nenápadnější řešení AI.
