Ранее по этой теме смотрел объяснение Татьяны Гайнцевой, очень понятно и доходчиво рассказала, а вот эта лекция очень хороша для закрепления темы спустя время.
Я не оч. раздуплил про негатив семплинг. Как я понял: Для обучения [[word2vec]] нужен набор данных. Получает его так: шагаем окном (размером 3 слова) по тексту. Таким образом, для каждого слова имеем 2 слова из его контекста (т.е. 2 положительных обуч. примера) И оставшиеся в словаре слова не из контекста (т.е. много отрицательных обуч. примеров) Соответственно при обучении берем только 5-6 отрицательных примеров, а не все. Кто в теме - так это?
не совсем так. В обычном word2vec без negative sampling мы обновляем контекстные вектора для всех слов из словаря (они все есть в знаменателе софтмакса, соответственно все вляют на лосс) Идея negative sampling в том, чтобы на каждом шаге обновления весов сэмплировать только несколько отрицательных слов из словаря и только их включать в лосс. Это почти не ухудшает качество за счет большой обучающей выборки, но сильно ускоряет обучение.
Ранее по этой теме смотрел объяснение Татьяны Гайнцевой, очень понятно и доходчиво рассказала, а вот эта лекция очень хороша для закрепления темы спустя время.
Радослав лучший лектор, всё так понятно и при этом так информативно!
+
+
+
Да
00:00 Popular NLP tasks
06:04 Text label kinds
07:04 Text Classification in general
08:32 Feature extraction
09:12 Tokenization
10:08 Bag-of-Words
14:04 Token normalization
21:44 Handful tools for preprocessing
23:24 N-gramms
26:28 Collocations: first step
27:50 TF-IDF
30:08 TF-IDF example
32:52 Word embeddings
33:46 One-hot vectors
36:50 PMI
38:54 Matrix factorization
40:56 Word2Vec
50:58 Subsampling
53:02 Negative Sampling
55:20 Continuous BOW (CBOW), Skip-gram
56:12 GloVe visualizations
5 лайков. Все что не посмотрю с Радославом все круто.
Один из лучших лекторов ) спасибо
Самые лучшие лекции по ML на RUclips
Отличная лекция! Было очень увлекательно, понятно и интересно. Для меня темп - то, что надо!
31:17 - а почему мы берем логарифм основания 10?
log2(2) ~0.69
log10(2) ~ 0.3
Очень круто и мощно!!! Супер, что есть репозиторий с презентациями и ноутбуками!!!
Какой же кайф, оч приятно слушать!
Очень качественная подача материала
Огромное спасибо за замечательно структурированную и полезную лекцию! Прохожу курс в Я.Практикуме по DS, не хватает подобных живых объяснений
Шикарно! Спасибо за урок!
Отличный курс!
Про Портер стеммер:
- в каком году сделан
- кем
- чем отличен
И многое другое.
Про обучение эмбедингов: "вот картинки" (по 0.2 секунды каждая)
Лайк за абырвалг =)
Судя по количеству просмотров, на этом рынке конкуренция ниже, чем в торговле🤔 решено - учусь😎 ПОДПИСАЛСЯ🎉
а можно где-то найти видео по генерации стихов, о котором говорилось в начале?
Не ясно почему "The" 1/7 два раза, а не 2/7 один раз. Из-за большой буквы это посчитано как два разных токена?
Я не оч. раздуплил про негатив семплинг.
Как я понял:
Для обучения [[word2vec]] нужен набор данных. Получает его так: шагаем окном (размером 3 слова) по тексту.
Таким образом, для каждого слова имеем 2 слова из его контекста (т.е. 2 положительных обуч. примера) И оставшиеся в словаре слова не из контекста (т.е. много отрицательных обуч. примеров)
Соответственно при обучении берем только 5-6 отрицательных примеров, а не все.
Кто в теме - так это?
не совсем так. В обычном word2vec без negative sampling мы обновляем контекстные вектора для всех слов из словаря (они все есть в знаменателе софтмакса, соответственно все вляют на лосс)
Идея negative sampling в том, чтобы на каждом шаге обновления весов сэмплировать только несколько отрицательных слов из словаря и только их включать в лосс.
Это почти не ухудшает качество за счет большой обучающей выборки, но сильно ускоряет обучение.
Жаль только, что вся ML индустрия на Питоне. Очень жаль, в серьёзные проекты сложно встраивать.
Здравствуйте, я ищу работу на позицию Junior NLP Developer. Можете посоветовать проекты для портфолио?
как успехи в карьере ?
@@helloworld-fv8kx
Все плохо, он дворник
как успехи в карьере ?
Не повезло видимо с направлением карьеры…
Так то я NLP Developer, а такси это так, для души
поставил заслуженный диз
держи нас в курсе