Лекция. Введение в NLP.

Deep Learning School

Просмотров 25 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 1 авг 2024
Занятие ведёт Антон Астахов.
Серия "Введение в NLP"
Часть 1. Введение в NLP: • Лекция. Введение в NLP.
Часть 2. Обработка текста: • Семинар. Обработка тек...
Часть 3. Решение задачи классификации текста: • Семинар. Решение задач...
00:00 Начало
04:38 Пайплайн предобработки текста
05:00 Токенизация
05:23 Нормализация слов
07:28 Удаление слов
09:00 Примеры задач NLP
11:56 Выделение признаков
12:30 Простой способ: One-Hot Encoding
13:47 Проблемы One-Hot Encoding
14:42 Bag of Words
15:40 Проблемы Bag of Words
16:39 TF-IDF
23:03 TF-IDF на примере
24:54 Коллокация
25:32 Pointwise mutual information (PMI)
27:49 PMI на примере
28:26 Продвинутый способ: Context Embeddings
30:17 Context Embeddings на примере
31:36 Проблемы Context Embeddings
32:37 Singular Value Decomposition (SVD)
39:42 Классификация текстов
42:18 Повторение. Методы классификации текстов
44:51 CNN в классификации текстов
48:31 Конец
---
Deep Learning School при ФПМИ МФТИ
Каждые полгода мы запускаем новую итерацию нашего двухсеместрового практического онлайн-курса по глубокому обучению. Наборы проводятся в августе-сентябре и январе-феврале.
За нашими новостями можно следить здесь:
Наш канал в TG: t.me/deep_learning_school_news
Официальный сайт: dls.samcs.ru/ru/
Официальная группа ВК: dlschool_mipt
Github-репозиторий: github.com/DLSchool/dlschool
Поддержать канал можно на Boosty: boosty.to/deeplearningschool
ФПМИ МФТИ
Официальный сайт: mipt.ru/education/departments...
Магистратура: mipt.ru/education/departments...
Онлайн-магистратура "Современная комбинаторика": omscmipt.ru/
Онлайн-магистратура "Цифровая экономика": digec.online/
Лаборатории ФПМИ: mipt.ru/education/departments...

Комментарии • 17

@bluxer4225 3 года назад ⁺⁹
Просто глаза открыли на то, как дела делаются. Серьёзно)
@user-dm9hc1nk3b 3 года назад ⁺¹⁷
Таймкоды:
00:00 Начало
04:38 Пайплайн предобработки текста
05:00 Токенизация
05:23 Нормализация слов
07:28 Удаление слов
09:00 Примеры задач NLP
11:56 Выделение признаков
12:30 Простой способ: One-Hot Encoding
13:47 Проблемы One-Hot Encoding
14:42 Bag of Words
15:40 Проблемы Bag of Words
16:39 TF-IDF
23:03 TF-IDF на примере
24:54 Коллокация
25:32 Pointwise mutual information (PMI)
27:49 PMI на примере
28:26 Продвинутый способ: Context Embeddings
30:17 Context Embeddings на примере
31:36 Проблемы Context Embeddings
32:37 Singular Value Decomposition (SVD)
39:42 Классификация текстов
42:18 Повторение. Методы классификации текстов
44:51 CNN в классификации текстов
48:31 Конец
@DeepLearningSchool 3 года назад ⁺²
Спасибо огромное!
@user-tv2sp4xs8k 5 месяцев назад
Второй по качеству препод после Гайнцевой. Респект Антону.
@zlataafanaseva8595 3 года назад ⁺⁸
Ух ты! Это лучший по структуре материал из всех мной изученных (Нетология и OTUS) и бесплатно! Успехов молодому лектору!
@oanovitskij 5 месяцев назад
Конечно, объяснение про появление формулы через logP притянуто.т. е. то, что написано - это вероятность подряд ndw раз вытащить документ со словом w с возвратами.
@electropardon9130 2 года назад
спасибо за лекцию!
@alexalex-pv2cw 3 года назад
Хорошая лекция, спасибо!
@Epimetey 2 года назад ⁺³
Лектор иногда прыгает с одного слайда на другой и назад с огромной скоростью - просто болят глаза смотреть.
@wisedoctor1016 2 года назад ⁺²
Если слово встречается во всех документах, то Nw == N, а значит Nw/N = 1. Единица в любой степени единица, значит встретить это слово в документе 1 раз и 100 раз можно с одинаковой вероятностью равной единице?
@proskurlandsky Год назад ⁺¹
Матрица слово-слово же симметричная должна быть?
@oanovitskij 5 месяцев назад
А вот p малое как раз не вероятность встретить слово в документе, а вероятность встретить документ с этим словом
@kseniiakol5798 2 года назад
Непонятно, как на 24й минуте считается IDF. Откуда взялся в логарифме взялось 2/2? Что это за двойки?
@user-fj7xu7vx5m Год назад ⁺¹
2 раза встретилось слово в различных документах и 2 документа всего
@natalias8919 7 месяцев назад ⁺²
Слушать очень трудно. Слова-паразиты, запинки, оборванные фразы, перескакивания. Работайте над речью и правильным литературным изложением, если беретесь преподавать. Недостаточно просто иметь знания, чтобы их донести. Другой преподаватель курса, Татьяна - любо дорого послушать, ясно, четко, на хорошем языке.

Следующие

Автовоспроизведение