Лекция. Введение в NLP.
HTML-код
- Опубликовано: 1 авг 2024
- Занятие ведёт Антон Астахов.
Серия "Введение в NLP"
Часть 1. Введение в NLP: • Лекция. Введение в NLP.
Часть 2. Обработка текста: • Семинар. Обработка тек...
Часть 3. Решение задачи классификации текста: • Семинар. Решение задач...
00:00 Начало
04:38 Пайплайн предобработки текста
05:00 Токенизация
05:23 Нормализация слов
07:28 Удаление слов
09:00 Примеры задач NLP
11:56 Выделение признаков
12:30 Простой способ: One-Hot Encoding
13:47 Проблемы One-Hot Encoding
14:42 Bag of Words
15:40 Проблемы Bag of Words
16:39 TF-IDF
23:03 TF-IDF на примере
24:54 Коллокация
25:32 Pointwise mutual information (PMI)
27:49 PMI на примере
28:26 Продвинутый способ: Context Embeddings
30:17 Context Embeddings на примере
31:36 Проблемы Context Embeddings
32:37 Singular Value Decomposition (SVD)
39:42 Классификация текстов
42:18 Повторение. Методы классификации текстов
44:51 CNN в классификации текстов
48:31 Конец
---
Deep Learning School при ФПМИ МФТИ
Каждые полгода мы запускаем новую итерацию нашего двухсеместрового практического онлайн-курса по глубокому обучению. Наборы проводятся в августе-сентябре и январе-феврале.
За нашими новостями можно следить здесь:
Наш канал в TG: t.me/deep_learning_school_news
Официальный сайт: dls.samcs.ru/ru/
Официальная группа ВК: dlschool_mipt
Github-репозиторий: github.com/DLSchool/dlschool
Поддержать канал можно на Boosty: boosty.to/deeplearningschool
ФПМИ МФТИ
Официальный сайт: mipt.ru/education/departments...
Магистратура: mipt.ru/education/departments...
Онлайн-магистратура "Современная комбинаторика": omscmipt.ru/
Онлайн-магистратура "Цифровая экономика": digec.online/
Лаборатории ФПМИ: mipt.ru/education/departments...
Просто глаза открыли на то, как дела делаются. Серьёзно)
Таймкоды:
00:00 Начало
04:38 Пайплайн предобработки текста
05:00 Токенизация
05:23 Нормализация слов
07:28 Удаление слов
09:00 Примеры задач NLP
11:56 Выделение признаков
12:30 Простой способ: One-Hot Encoding
13:47 Проблемы One-Hot Encoding
14:42 Bag of Words
15:40 Проблемы Bag of Words
16:39 TF-IDF
23:03 TF-IDF на примере
24:54 Коллокация
25:32 Pointwise mutual information (PMI)
27:49 PMI на примере
28:26 Продвинутый способ: Context Embeddings
30:17 Context Embeddings на примере
31:36 Проблемы Context Embeddings
32:37 Singular Value Decomposition (SVD)
39:42 Классификация текстов
42:18 Повторение. Методы классификации текстов
44:51 CNN в классификации текстов
48:31 Конец
Спасибо огромное!
Второй по качеству препод после Гайнцевой. Респект Антону.
Ух ты! Это лучший по структуре материал из всех мной изученных (Нетология и OTUS) и бесплатно! Успехов молодому лектору!
Конечно, объяснение про появление формулы через logP притянуто.т. е. то, что написано - это вероятность подряд ndw раз вытащить документ со словом w с возвратами.
спасибо за лекцию!
Хорошая лекция, спасибо!
Лектор иногда прыгает с одного слайда на другой и назад с огромной скоростью - просто болят глаза смотреть.
Если слово встречается во всех документах, то Nw == N, а значит Nw/N = 1. Единица в любой степени единица, значит встретить это слово в документе 1 раз и 100 раз можно с одинаковой вероятностью равной единице?
Матрица слово-слово же симметричная должна быть?
А вот p малое как раз не вероятность встретить слово в документе, а вероятность встретить документ с этим словом
Непонятно, как на 24й минуте считается IDF. Откуда взялся в логарифме взялось 2/2? Что это за двойки?
2 раза встретилось слово в различных документах и 2 документа всего
Слушать очень трудно. Слова-паразиты, запинки, оборванные фразы, перескакивания. Работайте над речью и правильным литературным изложением, если беретесь преподавать. Недостаточно просто иметь знания, чтобы их донести. Другой преподаватель курса, Татьяна - любо дорого послушать, ясно, четко, на хорошем языке.