fastText від Facebook – новий open-source інструмент для аналізу тексту

296

Від автора: Facebook виклав в публічний доступ програмні исходники свого «самообучающегося» інструменту fastText, який служить для розпізнавання і категоризації текстових даних. Код кошти розміщений на платформі GitHub.

Зарубіжна соціалка виклала у відкритий доступ исходники fastText. Як повідомляється в описі інструменту, він являє собою самообучающееся засоби для аналізу тексту та категоризації пропозицій по безлічі заданих параметрів.

fastText може використовуватися для обробки текстового контенту на декількох мовах: англійською, чеською, французькою, іспанською та німецькою. Відзначається, що ця бібліотека відрізняється від існуючих аналогів (в тому числі і побудованих на основі нейронних мереж) більш високою швидкістю навчання та аналізу вхідних даних.

Для обробки великих масивів інформації та її категоризації по безлічі параметрів fastText використовує замість традиційної (плоскої) структури ідентифікацію на основі ієрархії. З її допомогою всі оброблені дані розташовуються у вигляді деревоподібної структури, що відбиває взаємозв’язок кожного елемента множини. Ось кілька «швидкісних» показників fastText:

За 10 хв інструмент здатний обробити більш ніж 10 млрд. слів.

Для категоризації 500 тис. пропозицій по 300 тис. параметрів fastText потрібно 5 хв.