Лекция. Введение в NLP.

Поделиться
HTML-код
  • Опубликовано: 1 авг 2024
  • Занятие ведёт Антон Астахов.
    Серия "Введение в NLP"
    Часть 1. Введение в NLP: • Лекция. Введение в NLP.
    Часть 2. Обработка текста: • Семинар. Обработка тек...
    Часть 3. Решение задачи классификации текста: • Семинар. Решение задач...
    00:00 Начало
    04:38 Пайплайн предобработки текста
    05:00 Токенизация
    05:23 Нормализация слов
    07:28 Удаление слов
    09:00 Примеры задач NLP
    11:56 Выделение признаков
    12:30 Простой способ: One-Hot Encoding
    13:47 Проблемы One-Hot Encoding
    14:42 Bag of Words
    15:40 Проблемы Bag of Words
    16:39 TF-IDF
    23:03 TF-IDF на примере
    24:54 Коллокация
    25:32 Pointwise mutual information (PMI)
    27:49 PMI на примере
    28:26 Продвинутый способ: Context Embeddings
    30:17 Context Embeddings на примере
    31:36 Проблемы Context Embeddings
    32:37 Singular Value Decomposition (SVD)
    39:42 Классификация текстов
    42:18 Повторение. Методы классификации текстов
    44:51 CNN в классификации текстов
    48:31 Конец
    ---
    Deep Learning School при ФПМИ МФТИ
    Каждые полгода мы запускаем новую итерацию нашего двухсеместрового практического онлайн-курса по глубокому обучению. Наборы проводятся в августе-сентябре и январе-феврале.
    За нашими новостями можно следить здесь:
    Наш канал в TG: t.me/deep_learning_school_news
    Официальный сайт: dls.samcs.ru/ru/
    Официальная группа ВК: dlschool_mipt
    Github-репозиторий: github.com/DLSchool/dlschool
    Поддержать канал можно на Boosty: boosty.to/deeplearningschool
    ФПМИ МФТИ
    Официальный сайт: mipt.ru/education/departments...
    Магистратура: mipt.ru/education/departments...
    Онлайн-магистратура "Современная комбинаторика": omscmipt.ru/
    Онлайн-магистратура "Цифровая экономика": digec.online/
    Лаборатории ФПМИ: mipt.ru/education/departments...

Комментарии • 17

  • @bluxer4225
    @bluxer4225 3 года назад +9

    Просто глаза открыли на то, как дела делаются. Серьёзно)

  • @user-dm9hc1nk3b
    @user-dm9hc1nk3b 3 года назад +17

    Таймкоды:
    00:00 Начало
    04:38 Пайплайн предобработки текста
    05:00 Токенизация
    05:23 Нормализация слов
    07:28 Удаление слов
    09:00 Примеры задач NLP
    11:56 Выделение признаков
    12:30 Простой способ: One-Hot Encoding
    13:47 Проблемы One-Hot Encoding
    14:42 Bag of Words
    15:40 Проблемы Bag of Words
    16:39 TF-IDF
    23:03 TF-IDF на примере
    24:54 Коллокация
    25:32 Pointwise mutual information (PMI)
    27:49 PMI на примере
    28:26 Продвинутый способ: Context Embeddings
    30:17 Context Embeddings на примере
    31:36 Проблемы Context Embeddings
    32:37 Singular Value Decomposition (SVD)
    39:42 Классификация текстов
    42:18 Повторение. Методы классификации текстов
    44:51 CNN в классификации текстов
    48:31 Конец

  • @user-tv2sp4xs8k
    @user-tv2sp4xs8k 5 месяцев назад

    Второй по качеству препод после Гайнцевой. Респект Антону.

  • @zlataafanaseva8595
    @zlataafanaseva8595 3 года назад +8

    Ух ты! Это лучший по структуре материал из всех мной изученных (Нетология и OTUS) и бесплатно! Успехов молодому лектору!

  • @oanovitskij
    @oanovitskij 5 месяцев назад

    Конечно, объяснение про появление формулы через logP притянуто.т. е. то, что написано - это вероятность подряд ndw раз вытащить документ со словом w с возвратами.

  • @electropardon9130
    @electropardon9130 2 года назад

    спасибо за лекцию!

  • @alexalex-pv2cw
    @alexalex-pv2cw 3 года назад

    Хорошая лекция, спасибо!

  • @Epimetey
    @Epimetey 2 года назад +3

    Лектор иногда прыгает с одного слайда на другой и назад с огромной скоростью - просто болят глаза смотреть.

  • @wisedoctor1016
    @wisedoctor1016 2 года назад +2

    Если слово встречается во всех документах, то Nw == N, а значит Nw/N = 1. Единица в любой степени единица, значит встретить это слово в документе 1 раз и 100 раз можно с одинаковой вероятностью равной единице?

  • @proskurlandsky
    @proskurlandsky Год назад +1

    Матрица слово-слово же симметричная должна быть?

  • @oanovitskij
    @oanovitskij 5 месяцев назад

    А вот p малое как раз не вероятность встретить слово в документе, а вероятность встретить документ с этим словом

  • @kseniiakol5798
    @kseniiakol5798 2 года назад

    Непонятно, как на 24й минуте считается IDF. Откуда взялся в логарифме взялось 2/2? Что это за двойки?

    • @user-fj7xu7vx5m
      @user-fj7xu7vx5m Год назад +1

      2 раза встретилось слово в различных документах и 2 документа всего

  • @natalias8919
    @natalias8919 7 месяцев назад +2

    Слушать очень трудно. Слова-паразиты, запинки, оборванные фразы, перескакивания. Работайте над речью и правильным литературным изложением, если беретесь преподавать. Недостаточно просто иметь знания, чтобы их донести. Другой преподаватель курса, Татьяна - любо дорого послушать, ясно, четко, на хорошем языке.