Представление текста в цифровом виде для нейросети | Нейросети для анализа текстов

Поделиться
HTML-код
  • Опубликовано: 9 фев 2025
  • В видео рассматриваются различные методы токенизации и векторизации текста для представления его в виде, пригодном для обработки нейросетью. Страница курса - www.asozykin.r...
    Нейронные сети могут работать только с числами. Поэтому перед обработкой текста нейронной сетью, его нужно конвертировать в набор чисел. Для этого используется два шага:
    1. Токенизация - разделение текста на отдельные части: символы, слова, предложения.
    2. Векторизация - представление каждого токена в виде чисел: кода или вектора (one hot encoding или embedding).
    Предварительно обученные плотные векторные представления слов:
    1. GloVe (Global Vectors) - nlp.stanford.e...
    2. Word2Vec, Google - code.google.co...
    3. FastText, Facebook - fasttext.cc
    Плотные векторные представления слов для русского языка:
    1. RusVectōrēs - rusvectores.org
    2. RUSSE (Russian Semantic Evaluation) - russe.nlpub.or...
    Tomas Mikolov, Wen-tau Yih, Geoffrey Zweig. Linguistic Regularities in Continuous Space Word Representations - www.microsoft....
    Как можно поддержать курс:
    1. Яндекс Кошелек - money.yandex.r...
    2. PayPal - www.paypal.me/...
    Заранее спасибо за помощь!
    Добавляйтесь в друзья в социальных сетях:
    вКонтакте - avsozykin
    Instagram - / sozykin_andr
    Facebook - / asozykin
    Twitter - / andreysozykin
    Мой сайт - www.asozykin.ru
    Мой канал с краткими и понятными объяснениями сложных тем в ИТ и компьютерных науках - / andreysozykincs

Комментарии • 40