Лекция. Векторные представления слов, Bag of Words. Латентный семантический анализ

Поделиться
HTML-код
  • Опубликовано: 13 май 2023
  • Занятие ведёт Татьяна Гайнцева.
    ---
    Deep Learning School при ФПМИ МФТИ
    Каждые полгода мы запускаем новую итерацию нашего двухсеместрового практического онлайн-курса по глубокому обучению. Наборы проводятся в августе-сентябре и январе-феврале.
    За нашими новостями можно следить здесь:
    Наш канал в TG: t.me/deep_learning_school_news
    Официальный сайт: dls.samcs.ru/ru/
    Официальная группа ВК: dlschool_mipt
    Github-репозиторий: github.com/DLSchool/dlschool
    Поддержать канал можно на Boosty: boosty.to/deeplearningschool
    ФПМИ МФТИ
    Официальный сайт: mipt.ru/education/departments...
    Магистратура: mipt.ru/education/departments...
    Онлайн-магистратура "Современная комбинаторика": omscmipt.ru/
    Онлайн-магистратура "Цифровая экономика": digec.online/
    Лаборатории ФПМИ: mipt.ru/education/departments...

Комментарии • 49

  • @waymorales2444
    @waymorales2444 4 месяца назад +3

    Самый лучший лектор курса

  • @sitd1751
    @sitd1751 4 месяца назад

    Пока лучшее объяснение всех тем, которые я видел. Спасибо!

  • @Kn_Dmitry
    @Kn_Dmitry 4 месяца назад

    Спасибо! Было очень полезно!

  • @qwerty32198
    @qwerty32198 9 месяцев назад +1

    Супер объяснение TF-IDF! Что его делает таким супер - погружение в самые мелкие детали и потом подкрепление численными примерами.

  • @Arseny150
    @Arseny150 Год назад +5

    И на 17:40 ошибка при построении tf-idf векторов - 0.075 для "meat" должно стоять в первом векторе, а не во втором.

  • @damirtenishev6874
    @damirtenishev6874 Год назад +2

    Спасибо. Толковый и понятный рассказ.
    Не хватает одной детали - мотивации переходов. К примеру, 1:00 - векторное представление слов. У нас только что был словь и каждому слову соответствовало одно число - номер в словаре. И было хорошо и удобно. И вдруг - векторное представление. Звучит примерно: "А у меня есть идея как немного попрограммировать и потратить много памяти. Я ещё не знаю, зачем это, но будет точно хуже, чем было".
    Хорошо бы как-то обосновать такой переход. Худший вариант - фразой о том, что так удобнее будет подавать на вход нейронной сети - ибо это только вызывает новые вопросы. Средний вариант - сказать перед этим о том, что мы хотим такое представление слов, чтобы похожие по смыслу слова имели близкие значения и почему это плохо решается сортировкой словаря по значениям. Лучший вариант - перекомпоновать материал так, чтобы такое преобразование воспринималось как "Эврика!" и вытекало само из логики повествования.

  • @user-zj9em2rf5o
    @user-zj9em2rf5o 6 месяцев назад +3

    а ашкуди в руке зачем?🤔

  • @user-jd2if9mg8m
    @user-jd2if9mg8m 5 месяцев назад +1

    Какая же она красивая, я просто не могу на неё смотреть спокойно.

  • @mikkokukanen3834
    @mikkokukanen3834 Год назад

    24:20 - строго говоря, для наилучшего приближения исходной матрицы в сингулярном разложении оставляются не первые n столбцов марицы U и первые n строк матрицы Vt, а в матрице S сингулярных собственных чисел оставляются n максимальных этих самых чисел. Возможно, результат будет тот же, но это неочевидно.

    • @DeepLearningSchool
      @DeepLearningSchool  Год назад +1

      да, это так. Действительно стоило именно так сказать. Я исходила просто из того, что первые числа матрицы S - и есть максимальные

  • @Enerdzizer
    @Enerdzizer 6 дней назад

    А зачем в idf используются логарифмы? Логарифм очень медленно растущая функция, она отражает только порядок частот. Под порядком здесь имеется ввиду не упорядоченность чего-то, а степень какогото основания, например 10. почему не использовать просто частоту слова в документах?

  • @user-vs1ix8py6g
    @user-vs1ix8py6g 9 месяцев назад +2

    забыли вырезать 9:18 - 9:49

  • @damirtenishev6874
    @damirtenishev6874 Год назад +1

    Непонятно: 19:00. Как я могу использовать эффективно TF-IDF для одного текста, если он специаьно разработан для множества документов D ?
    Тут придётся брать какую-то базу документов, к примеру - дамп wikipedia.
    Особенно в свете этого непонятна фраза: "Считаете TF-IDF между этими словами и этим текстом". "Этот текст" как раз и даёт "этии слова", то есть по сути он и есть эти слова. Между ними в этом контексте нет разницы. Поясните, пожалуйста.

  • @user-rs7iv9te2y
    @user-rs7iv9te2y 6 месяцев назад

    Привет красивая женщина

  • @Arseny150
    @Arseny150 Год назад +2

    Очень хорошая лекция, но категорически не согласен, что слова "a" и "the" имеют мало смысла. Артикли как раз имеют очень важное значение, другое дело что русскому человеку это сложно понять (и вообще славяноязычному).
    Это обозначение того, о чем вообще идет речь в предложении. Говоря умными словами, это "тема" и "рема". "A book is on the table" и "The book in on a table" - разные вещи. В первом случае мы говорим про стол и рассказываем, что на нем лежит, во втором - про книгу, и рассказываем, где она.
    В русском языке (и в финском, кстати, тоже) это выражается через порядок слов в предложении: "Волк бегает в лесу" и "В лесу бегает волк" - разный смысл. Но в английском порядок слов жесткий, поэтому используются артикли.

    • @doctorshadow2482
      @doctorshadow2482 Год назад

      Татьяна не говорила "имеют мало смысла". Она сказала "не несут практически никакой смысловой нагрузки". И мысль совершенно правильная, поскольку после её предыдущей фразы про частоты слов и то, что наиболее часто используемые слова определяют смыл документа, этот вопрос возникает сразу же.
      Она имеет в виду, что если я Вам дам все артикли из текста - и только их - вы ничего не сможете сказать о смысле текста, его принадлежности к темам и т.д. А вот, если вы мне дадите 10 самых часто встречающихся слов кроме артиклей и других подобных вещей (местоимения, предлоги и т.д.) - то есть, отбросите то, что разбросано везде - то я, скорее всего, смогу сделать вывод о тексте. Конечно, можно выдумать много контр-примеров - но по сути - это так.
      Попробуйте передать ту мы мысль другими - более правильными для Вас - словами. Татьяна всё сказала правильно. Особенно, с учётом, что это не выверенный текст книги, а живой рассказ, в котором позволяется больше гибкости в изложении.

    • @Arseny150
      @Arseny150 Год назад

      @@doctorshadow2482 спорное утверждение (про текст). Контрпримеры выдумывать не требуется, они давно придуманы и широко известны.
      По-русски его придумал академик Щерба: "Гло́кая ку́здра ште́ко будлану́ла бо́кра и курдя́чит бокрёнка"
      По-английски Льюис Кэрролл:
      Twas brillig, and the slithy toves
      Did gyre and gimble in the wabe;
      All mimsy were the borogoves,
      And the mome raths outgrabe.
      (это знаменитый "Бармаглот")
      И там и там фразы полностью состоят из несуществующих слов за исключением служебных, как вы и предлагали, однако семантика угадывается.
      Согласен с вами в том, что можно с достаточной точностью определить тематику текста по наиболее часто встречающимся словам (что и демонстрируется в семинарах этого курса), но классификация по тематике - это еще не все.

    • @doctorshadow2482
      @doctorshadow2482 Год назад

      @@Arseny150 Это не контр-примеры. Контр-примером был бы пример, где для разумного и правильного текста не работает показанный метод. Но мы говорим не об этом - я пересмотрел видео, есть ещё одно место - 10:08, скорее всего, Вы ссылались на него. Но там она тоже говорит очень важное: "не несут нагрузки в докуенте". Во фразе - да - они критичеки важны. Но в масштабах документа их важность уже не так важна. Когда текстам в газетах делают заголовки, атрикли, для экономии места пропускают, нарушая стандартные правила грамматики.
      Так что её формулировка - очень хорошая. И - возвращаясь - как бы Вы сформулировали?
      Если "классификация по тематике" - для которой цепи Маркова уже не очень хороши, кстати - ещё не всё, то какую часть Вы приведёте как наиболее важную для Вашего случая?

    • @Arseny150
      @Arseny150 Год назад

      @@doctorshadow2482 это пример именно такой, как Вы предлагали - взять текст, который состоит из артиклей, предлогов и прочих служебных слов.
      Понятное дело, что в разумных и правильных реальных текстах используются реальные слова из словаря, но разумные документы никто и не пишет просто набором слов, тем более исключительно существительными в именительном падеже и инфинитивами.
      Впрочем.... вот вам реальный пример. "Пьяный гражданин укусил собаку" (реальная новость из недавней криминальной подборки) или "Собака укусила пьяного гражданина". :) Если мы выкинем артикли, а в русском языке приведем все к именительному падежу и забудем про набор слов, то.... Нет, понятно, что кто-то кого-то покусал :) но кто кого? :)
      Это опять-таки по Кэрроллу - "едят ли кошки мошек?" или "едят ли мошки кошек?" - это один и тот же вопрос или все же разные? :)
      Да, в лекции в двух местах говорится об артиклях, но оба раза примерно в одном ключе - что смысла они почти не несут. Я не хочу препираться по поводу тонкой разницы между "не несут практически никакой смысловой нагрузки" и "имеют мало смысла", по-моему это практически одно и то же.
      Я не готов предложить лучшую формулировку. Если бы мог, сам бы читал лекции. :) А я пока только прохожу этот курс.
      Возможно, стоило бы (не в лекции, а в методике) не выкидывать артикли, а рассматривать их в связке с соответствующим существительным.
      Что касается задачи - ну вот я сейчас размышляю над предсказанием числа лайков у поста в соцсети. Напустить нейросеть на текст, ну и придумать такую своеобразную регрессию...

    • @doctorshadow2482
      @doctorshadow2482 Год назад

      @@Arseny150 Речь не о "несут мало смысла" или "имеют мало смысла". Речь о смысле фразы и текста. На смысл фразы артикли влияют. На смысл текста - нет. Ибо в вашем примере смысл фразы о том кто и кого укусил. А когда будут собирать смысл большого текста, то важно будет, что он об укусе. И детали будут не так важны. Кто захочет деталей - и будет читать текст.
      Порядок слов, акценты, ударения (чего стоит классическое "Тону. Да ну!"), служебные части речи - это всё очень важные детали. Но пока задача понять общую идею. И Татьяна тут хорошо справляется с объяснением.
      В методике очень много разных алгоритмов - часть учитывают артикли, знаки препинания, словоформы (по-другому разделяя на морфемы) и даже - заглавные буквы. Так что там всё есть и Татьяна правильно делает, что на ранних стадиях даже не упоминает все эти дебри. Основную идею быть понять - а тут, как известно, совершенство достигается не когда уже нечего добавить, а когда нечего убрать...

  • @AndreyKarpov13
    @AndreyKarpov13 Год назад +2

    Ох... на что только люди тратят своё драгаценное время, зачем вся эта ......🤣

    • @Arseny150
      @Arseny150 Год назад

      Зачем нужно, чтобы компьютер текст понимал?! Странный вопрос. Вообще в первой лекции цикла был на это ответ.

    • @AndreyKarpov13
      @AndreyKarpov13 Год назад

      @@Arseny150 Это всё уже давно открыто и изобретено и по большому счёт на фиг не нужно. 😅 Купил технику и пользуйся.😂
      И не надо для этого заниматься показухой и казаться умнее всех.🤣

    • @Arseny150
      @Arseny150 Год назад +1

      @@AndreyKarpov13 да вообще этак можно сказать, что всё на свете изобретено, купил и пользуйся. Вон чайник или тостер - купил и пользуйся, зачем физику в школе изучать? Какой-то еще закон Ома, понимаешь...

    • @AndreyKarpov13
      @AndreyKarpov13 Год назад

      @@Arseny150 Всё правильно купил и пользуйся. Тебе какая разница как вода кипит и тосты жарятся. Не трать драгоценное время на всякую ерунду, которая тебе не пригодится в жизни.😂
      А что надо можно быстро подчерпнуть из нета, тот же закон ома, если он вообще тебе нужен, прямо ты электриком работаешь🤣
      Время очень дорогой товар, чтобы тратить его вот на эти все формулы... которые тебе и не нужны.😅

    • @Arseny150
      @Arseny150 Год назад +2

      @@AndreyKarpov13 ну как сказать, мне довольно большая разница. А то вот у нас в дачном поселке одна упорно не хочет понимать, почему пробки выбивает или напряжение в сети падает, если она включает разом бойлер, обогреватель, чайник и что-то там еще.
      Ну и потом, кто-то чай кипятит и тосты жарит, а кто-то новые чайники или тостеры делает. В Data Science довольно много перспективных направлений для работы, вот для тех, кто хочет там работать, лекции на этом канал и нужны.
      Если ты хочешь работать где-то совсем в другой области, где ну никак никакой искусственный интеллект не применяется, то тебе просто этот канал не нужен, да и все. Правда, потом не жалуйся, что у тебя роботы работу отбирают. :)
      Я вот, например, собираюсь предсказывать количество лайков в соцсетях по итогам анализа текста.

  • @nothan510
    @nothan510 11 месяцев назад

    а векторное пространство на основе смысла слобо, где основопологающие понятия выступают в качестве базисов, а а другие слова выражаются через их линейную комбинацию, или я еще до этого не дослушал?

  • @nothan510
    @nothan510 11 месяцев назад +1

    а на русском никак нельзя, понатыкали англиканизмов! 😏
    у меня с английским проблем нет, вы просто пойдите в американский вуз и попробойте читать лекци используя к примеру немецкие или китайские термины!
    не стыда не гордости за родной язык!

    • @user-rs7iv9te2y
      @user-rs7iv9te2y 6 месяцев назад +3

      Подавляющее большинство материала на английском языке, и оттуда же идут все инновации по машинному обучению. В этой сфере очень часто появляются новые термины, которых не успеешь перевести, да и не имеет смысла, так как двойное выучивание терминов неэффективно скажется как на обучении самого себя, так и на обучение других. Это издевательство над здравым смыслом, а не над русским языком, и мною любимым в том числе. И да, англицизм, а не англиканизм

    • @user-cc8le7td3o
      @user-cc8le7td3o 4 месяца назад

      Вата и тут отметилась

    • @ilyamikheev9250
      @ilyamikheev9250 4 месяца назад

      откуда вы такие беретесь?

  • @nothan510
    @nothan510 11 месяцев назад

    проблема в том что это стых computer science и языкознание, формальной и гуманитарной дисциплыны,. it-шников слишком формальный подход к решению проблемы, они пытаются агализировать текст грубой силой на основе статистики количества вхождений слов в тексте! это анализ без понимания, чисто машинный подход!