Прикладное машинное обучение 1. Intro to NLP. Word embeddings

Поделиться
HTML-код
  • Опубликовано: 13 дек 2024

Комментарии • 35

  • @kookooyob3440
    @kookooyob3440 Месяц назад

    Ранее по этой теме смотрел объяснение Татьяны Гайнцевой, очень понятно и доходчиво рассказала, а вот эта лекция очень хороша для закрепления темы спустя время.

  • @МаксимСирота-л7ы
    @МаксимСирота-л7ы 4 года назад +60

    Радослав лучший лектор, всё так понятно и при этом так информативно!

  • @ШамильНуркаев-щ3ъ
    @ШамильНуркаев-щ3ъ 3 года назад +34

    00:00 Popular NLP tasks
    06:04 Text label kinds
    07:04 Text Classification in general
    08:32 Feature extraction
    09:12 Tokenization
    10:08 Bag-of-Words
    14:04 Token normalization
    21:44 Handful tools for preprocessing
    23:24 N-gramms
    26:28 Collocations: first step
    27:50 TF-IDF
    30:08 TF-IDF example
    32:52 Word embeddings
    33:46 One-hot vectors
    36:50 PMI
    38:54 Matrix factorization
    40:56 Word2Vec
    50:58 Subsampling
    53:02 Negative Sampling
    55:20 Continuous BOW (CBOW), Skip-gram
    56:12 GloVe visualizations

  • @ВадимШатов-з2й
    @ВадимШатов-з2й 3 года назад +14

    5 лайков. Все что не посмотрю с Радославом все круто.

  • @dartsidious90
    @dartsidious90 4 года назад +7

    Один из лучших лекторов ) спасибо

  • @blackbigdeath
    @blackbigdeath Год назад

    Самые лучшие лекции по ML на RUclips

  • @Kn_Dmitry
    @Kn_Dmitry Год назад

    Отличная лекция! Было очень увлекательно, понятно и интересно. Для меня темп - то, что надо!

  • @gunner1163
    @gunner1163 4 месяца назад +2

    31:17 - а почему мы берем логарифм основания 10?
    log2(2) ~0.69
    log10(2) ~ 0.3

  • @Julia-ej4jz
    @Julia-ej4jz Год назад

    Очень круто и мощно!!! Супер, что есть репозиторий с презентациями и ноутбуками!!!

  • @Видеосъемказапрещена

    Какой же кайф, оч приятно слушать!

  • @dayvagrant
    @dayvagrant 3 года назад +3

    Очень качественная подача материала

  • @zukaroc
    @zukaroc 2 года назад +2

    Огромное спасибо за замечательно структурированную и полезную лекцию! Прохожу курс в Я.Практикуме по DS, не хватает подобных живых объяснений

  • @ДаниилСоловьев-э6ш
    @ДаниилСоловьев-э6ш 4 года назад +4

    Шикарно! Спасибо за урок!

  • @Dusha9119
    @Dusha9119 3 года назад +2

    Отличный курс!

  • @ruslanbashirov8911
    @ruslanbashirov8911 3 года назад +3

    Про Портер стеммер:
    - в каком году сделан
    - кем
    - чем отличен
    И многое другое.
    Про обучение эмбедингов: "вот картинки" (по 0.2 секунды каждая)

  • @gurowskiyalex8948
    @gurowskiyalex8948 4 года назад +16

    Лайк за абырвалг =)

  • @dxlolxb
    @dxlolxb Год назад

    Судя по количеству просмотров, на этом рынке конкуренция ниже, чем в торговле🤔 решено - учусь😎 ПОДПИСАЛСЯ🎉

  • @RubySirius
    @RubySirius Год назад +1

    а можно где-то найти видео по генерации стихов, о котором говорилось в начале?

  • @RomanBudkeev
    @RomanBudkeev Год назад +1

    Не ясно почему "The" 1/7 два раза, а не 2/7 один раз. Из-за большой буквы это посчитано как два разных токена?

  • @PavelLomov
    @PavelLomov Год назад

    Я не оч. раздуплил про негатив семплинг.
    Как я понял:
    Для обучения [[word2vec]] нужен набор данных. Получает его так: шагаем окном (размером 3 слова) по тексту.
    Таким образом, для каждого слова имеем 2 слова из его контекста (т.е. 2 положительных обуч. примера) И оставшиеся в словаре слова не из контекста (т.е. много отрицательных обуч. примеров)
    Соответственно при обучении берем только 5-6 отрицательных примеров, а не все.
    Кто в теме - так это?

    • @ФёдорЯронский
      @ФёдорЯронский Год назад +1

      не совсем так. В обычном word2vec без negative sampling мы обновляем контекстные вектора для всех слов из словаря (они все есть в знаменателе софтмакса, соответственно все вляют на лосс)
      Идея negative sampling в том, чтобы на каждом шаге обновления весов сэмплировать только несколько отрицательных слов из словаря и только их включать в лосс.
      Это почти не ухудшает качество за счет большой обучающей выборки, но сильно ускоряет обучение.

  • @kookooyob3440
    @kookooyob3440 Месяц назад

    Жаль только, что вся ML индустрия на Питоне. Очень жаль, в серьёзные проекты сложно встраивать.

  • @beksaf1088
    @beksaf1088 2 года назад

    Здравствуйте, я ищу работу на позицию Junior NLP Developer. Можете посоветовать проекты для портфолио?

    • @helloworld-fv8kx
      @helloworld-fv8kx 2 года назад

      как успехи в карьере ?

    • @AlekseiKazantcev
      @AlekseiKazantcev 2 года назад

      @@helloworld-fv8kx
      Все плохо, он дворник

    • @RomanBudkeev
      @RomanBudkeev Год назад

      как успехи в карьере ?

    • @AleksandrAru
      @AleksandrAru Год назад

      Не повезло видимо с направлением карьеры…

    • @iwillwatch
      @iwillwatch 7 месяцев назад

      Так то я NLP Developer, а такси это так, для души

  • @dmitriykolesnik6281
    @dmitriykolesnik6281 Год назад

    поставил заслуженный диз

    • @PavelLomov
      @PavelLomov Год назад

      держи нас в курсе