Векторизация текстов для практических задач // Курс «Natural Language Processing (NLP)»

Поделиться
HTML-код
  • Опубликовано: 8 сен 2024

Комментарии • 7

  • @netarrrr
    @netarrrr 6 месяцев назад +1

    Огромное спасибо за лекцию🚀

  • @VsevolodT
    @VsevolodT 8 месяцев назад

    Крутая лекция для погружения в тему! Спасибо

  • @user-xj4hf4od3i
    @user-xj4hf4od3i 9 месяцев назад

    Потрясающе! Огромное спасибо автору!

  • @marwolaeth111
    @marwolaeth111 8 месяцев назад

    Спасибо, очень интересно!
    Я думал, что n-граммы - это n слов, из которых так же можно состалвять «мешок слов», рассчитывать Tf-Idf и т. д. А еще skip n-grams, когда n-граммы состалвяются не только из слов, идущих по порядку, но и имеющих между собой от 1 до k других слов. С такими токенами я раньше выделял сюжеты (инфоповоды) в корпусе новостных публикаций (RNewsflow + та самая (4:52) кластеризация графов). Для полнотекстовых новостей работало хорошо, для ретрансляций заголовков в соцсетях - неплохо, для обсуждений в блогах (вроде Telegram- и RUclips-каналов - не очень). Главная проблема - последний пункт списка на слайде (23:52): настоящее проклятие анализа медиатекстов))
    FastText, Word2Vec и BERT никогда не делал, поэтому за это всё отдельное спасибо.

  • @user-xj4hf4od3i
    @user-xj4hf4od3i 9 месяцев назад +1

    Поддерживаю вопрос о файле блокнота. стоит ожидать?

  • @alexeykazmin7539
    @alexeykazmin7539 9 месяцев назад +1

    Супер! Ссылка на блокнот colab будет?

  • @sndrstpnv8419
    @sndrstpnv8419 5 месяцев назад

    pls share code