Представление текста в цифровом виде для нейросети | Нейросети для анализа текстов
HTML-код
- Опубликовано: 9 фев 2025
- В видео рассматриваются различные методы токенизации и векторизации текста для представления его в виде, пригодном для обработки нейросетью. Страница курса - www.asozykin.r...
Нейронные сети могут работать только с числами. Поэтому перед обработкой текста нейронной сетью, его нужно конвертировать в набор чисел. Для этого используется два шага:
1. Токенизация - разделение текста на отдельные части: символы, слова, предложения.
2. Векторизация - представление каждого токена в виде чисел: кода или вектора (one hot encoding или embedding).
Предварительно обученные плотные векторные представления слов:
1. GloVe (Global Vectors) - nlp.stanford.e...
2. Word2Vec, Google - code.google.co...
3. FastText, Facebook - fasttext.cc
Плотные векторные представления слов для русского языка:
1. RusVectōrēs - rusvectores.org
2. RUSSE (Russian Semantic Evaluation) - russe.nlpub.or...
Tomas Mikolov, Wen-tau Yih, Geoffrey Zweig. Linguistic Regularities in Continuous Space Word Representations - www.microsoft....
Как можно поддержать курс:
1. Яндекс Кошелек - money.yandex.r...
2. PayPal - www.paypal.me/...
Заранее спасибо за помощь!
Добавляйтесь в друзья в социальных сетях:
вКонтакте - avsozykin
Instagram - / sozykin_andr
Facebook - / asozykin
Twitter - / andreysozykin
Мой сайт - www.asozykin.ru
Мой канал с краткими и понятными объяснениями сложных тем в ИТ и компьютерных науках - / andreysozykincs