Mistral AI wprowadził dwa nowe modele transkrypcji zaprojektowane z myślą o szybkości i prywatności, odpowiadając na rosnące zapotrzebowanie na bezpieczne przetwarzanie dźwięku w czasie rzeczywistym. Modele te, Voxtral Mini Transcribe 2 i Voxtral Realtime, mają niewielkie rozmiary i można je uruchamiać bezpośrednio na urządzeniach takich jak smartfony, laptopy, a nawet urządzenia do noszenia, eliminując potrzebę wysyłania wrażliwych danych do serwerów w chmurze.
Przejdź do AI na urządzeniu
Przejście na przetwarzanie na urządzeniu nie jest spowodowane wyłącznie obawami dotyczącymi prywatności. Lokalne uruchamianie modeli AI znacznie zmniejsza opóźnienia, umożliwiając szybszą transkrypcję. Dawno minęły czasy oczekiwania na załadowanie, przetworzenie i zwrócenie dźwięku. Jest to szczególnie ważne w przypadku aplikacji działających w czasie rzeczywistym, takich jak napisy na żywo, gdzie opóźnienia sprawiają, że funkcja jest bezużyteczna.
Wiceprezes ds. operacji naukowych w firmie Mistral, Pierre Stock, podkreśla tę kwestię: „Chcesz, aby transkrypcja odbywała się jak najbliżej Ciebie. A najbliżej Ciebie jest dowolne urządzenie peryferyjne.”
Takie podejście pozwala uniknąć ryzyka związanego z usługami transkrypcji w chmurze, które mogą być podatne na wycieki danych lub nieautoryzowany dostęp. Dla branż, które mają do czynienia z wrażliwymi informacjami – opieka zdrowotna, prawo, dziennikarstwo – sztuczna inteligencja na urządzeniu stanowi znaczące usprawnienie.
Szybkość i precyzja: znajdowanie równowagi
Model Voxtral Realtime charakteryzuje się opóźnieniem mniejszym niż 200 milisekund, co oznacza, że mowa jest transkrybowana niemal tak szybko, jak człowiek jest w stanie ją odczytać. Wydajność tę osiągnięto dzięki kompaktowym rozmiarom modeli, co pozwala im wydajnie pracować na ograniczonym sprzęcie.
Jednak mniejsze modele tradycyjnie rezygnują z dokładności. Mistral twierdzi, że jego nowe modele przezwyciężają ten kompromis, osiągając wydajność porównywalną z większymi alternatywami w kluczowych wskaźnikach. Wstępne testy potwierdzają prędkość, ale ujawniają także drobne błędy: sztuczna inteligencja błędnie rozpoznała „Mistral AI” jako „Mr. Lay Eye”, a „Voxtral” jako „VoxTroll”.
Firma Stock zdaje sobie sprawę z tych wyzwań, zauważając, że użytkownicy mogą dostrajać modele tak, aby rozpoznawały określone nazwy lub terminy, co z czasem poprawia dokładność. Główne wyzwanie jest jasne: stworzenie małej, szybkiej sztucznej inteligencji bez utraty niezawodności.
Dostępność i perspektywy na przyszłość
Zarówno Voxtral Mini Transcribe 2, jak i Voxtral Realtime są dostępne za pośrednictwem interfejsu API Mistral i aplikacji Hugging Face. Ta ostatnia zawiera wersję demonstracyjną umożliwiającą użytkownikom przetestowanie możliwości transkrypcji w czasie rzeczywistym. Modele obsługują obecnie 13 języków.
Pojawienie się wysokowydajnej transkrypcji sztucznej inteligencji na urządzeniu stanowi punkt zwrotny w sposobie przetwarzania danych audio. To nie tylko rozwiązuje problemy związane z prywatnością, ale także toruje drogę szybszym i bardziej responsywnym aplikacjom zamiany mowy na tekst w wielu branżach. W miarę ulepszania sprzętu należy spodziewać się pojawienia się jeszcze potężniejszych i dyskretniejszych rozwiązań AI.




























