Лекция. Векторные представления слов, Bag of Words. Латентный семантический анализ
HTML-код
- Опубликовано: 13 май 2023
- Занятие ведёт Татьяна Гайнцева.
---
Deep Learning School при ФПМИ МФТИ
Каждые полгода мы запускаем новую итерацию нашего двухсеместрового практического онлайн-курса по глубокому обучению. Наборы проводятся в августе-сентябре и январе-феврале.
За нашими новостями можно следить здесь:
Наш канал в TG: t.me/deep_learning_school_news
Официальный сайт: dls.samcs.ru/ru/
Официальная группа ВК: dlschool_mipt
Github-репозиторий: github.com/DLSchool/dlschool
Поддержать канал можно на Boosty: boosty.to/deeplearningschool
ФПМИ МФТИ
Официальный сайт: mipt.ru/education/departments...
Магистратура: mipt.ru/education/departments...
Онлайн-магистратура "Современная комбинаторика": omscmipt.ru/
Онлайн-магистратура "Цифровая экономика": digec.online/
Лаборатории ФПМИ: mipt.ru/education/departments...
Самый лучший лектор курса
Пока лучшее объяснение всех тем, которые я видел. Спасибо!
Спасибо! Было очень полезно!
Супер объяснение TF-IDF! Что его делает таким супер - погружение в самые мелкие детали и потом подкрепление численными примерами.
И на 17:40 ошибка при построении tf-idf векторов - 0.075 для "meat" должно стоять в первом векторе, а не во втором.
Спасибо. Толковый и понятный рассказ.
Не хватает одной детали - мотивации переходов. К примеру, 1:00 - векторное представление слов. У нас только что был словь и каждому слову соответствовало одно число - номер в словаре. И было хорошо и удобно. И вдруг - векторное представление. Звучит примерно: "А у меня есть идея как немного попрограммировать и потратить много памяти. Я ещё не знаю, зачем это, но будет точно хуже, чем было".
Хорошо бы как-то обосновать такой переход. Худший вариант - фразой о том, что так удобнее будет подавать на вход нейронной сети - ибо это только вызывает новые вопросы. Средний вариант - сказать перед этим о том, что мы хотим такое представление слов, чтобы похожие по смыслу слова имели близкие значения и почему это плохо решается сортировкой словаря по значениям. Лучший вариант - перекомпоновать материал так, чтобы такое преобразование воспринималось как "Эврика!" и вытекало само из логики повествования.
а ашкуди в руке зачем?🤔
Какая же она красивая, я просто не могу на неё смотреть спокойно.
24:20 - строго говоря, для наилучшего приближения исходной матрицы в сингулярном разложении оставляются не первые n столбцов марицы U и первые n строк матрицы Vt, а в матрице S сингулярных собственных чисел оставляются n максимальных этих самых чисел. Возможно, результат будет тот же, но это неочевидно.
да, это так. Действительно стоило именно так сказать. Я исходила просто из того, что первые числа матрицы S - и есть максимальные
А зачем в idf используются логарифмы? Логарифм очень медленно растущая функция, она отражает только порядок частот. Под порядком здесь имеется ввиду не упорядоченность чего-то, а степень какогото основания, например 10. почему не использовать просто частоту слова в документах?
забыли вырезать 9:18 - 9:49
Непонятно: 19:00. Как я могу использовать эффективно TF-IDF для одного текста, если он специаьно разработан для множества документов D ?
Тут придётся брать какую-то базу документов, к примеру - дамп wikipedia.
Особенно в свете этого непонятна фраза: "Считаете TF-IDF между этими словами и этим текстом". "Этот текст" как раз и даёт "этии слова", то есть по сути он и есть эти слова. Между ними в этом контексте нет разницы. Поясните, пожалуйста.
Привет красивая женщина
Очень хорошая лекция, но категорически не согласен, что слова "a" и "the" имеют мало смысла. Артикли как раз имеют очень важное значение, другое дело что русскому человеку это сложно понять (и вообще славяноязычному).
Это обозначение того, о чем вообще идет речь в предложении. Говоря умными словами, это "тема" и "рема". "A book is on the table" и "The book in on a table" - разные вещи. В первом случае мы говорим про стол и рассказываем, что на нем лежит, во втором - про книгу, и рассказываем, где она.
В русском языке (и в финском, кстати, тоже) это выражается через порядок слов в предложении: "Волк бегает в лесу" и "В лесу бегает волк" - разный смысл. Но в английском порядок слов жесткий, поэтому используются артикли.
Татьяна не говорила "имеют мало смысла". Она сказала "не несут практически никакой смысловой нагрузки". И мысль совершенно правильная, поскольку после её предыдущей фразы про частоты слов и то, что наиболее часто используемые слова определяют смыл документа, этот вопрос возникает сразу же.
Она имеет в виду, что если я Вам дам все артикли из текста - и только их - вы ничего не сможете сказать о смысле текста, его принадлежности к темам и т.д. А вот, если вы мне дадите 10 самых часто встречающихся слов кроме артиклей и других подобных вещей (местоимения, предлоги и т.д.) - то есть, отбросите то, что разбросано везде - то я, скорее всего, смогу сделать вывод о тексте. Конечно, можно выдумать много контр-примеров - но по сути - это так.
Попробуйте передать ту мы мысль другими - более правильными для Вас - словами. Татьяна всё сказала правильно. Особенно, с учётом, что это не выверенный текст книги, а живой рассказ, в котором позволяется больше гибкости в изложении.
@@doctorshadow2482 спорное утверждение (про текст). Контрпримеры выдумывать не требуется, они давно придуманы и широко известны.
По-русски его придумал академик Щерба: "Гло́кая ку́здра ште́ко будлану́ла бо́кра и курдя́чит бокрёнка"
По-английски Льюис Кэрролл:
Twas brillig, and the slithy toves
Did gyre and gimble in the wabe;
All mimsy were the borogoves,
And the mome raths outgrabe.
(это знаменитый "Бармаглот")
И там и там фразы полностью состоят из несуществующих слов за исключением служебных, как вы и предлагали, однако семантика угадывается.
Согласен с вами в том, что можно с достаточной точностью определить тематику текста по наиболее часто встречающимся словам (что и демонстрируется в семинарах этого курса), но классификация по тематике - это еще не все.
@@Arseny150 Это не контр-примеры. Контр-примером был бы пример, где для разумного и правильного текста не работает показанный метод. Но мы говорим не об этом - я пересмотрел видео, есть ещё одно место - 10:08, скорее всего, Вы ссылались на него. Но там она тоже говорит очень важное: "не несут нагрузки в докуенте". Во фразе - да - они критичеки важны. Но в масштабах документа их важность уже не так важна. Когда текстам в газетах делают заголовки, атрикли, для экономии места пропускают, нарушая стандартные правила грамматики.
Так что её формулировка - очень хорошая. И - возвращаясь - как бы Вы сформулировали?
Если "классификация по тематике" - для которой цепи Маркова уже не очень хороши, кстати - ещё не всё, то какую часть Вы приведёте как наиболее важную для Вашего случая?
@@doctorshadow2482 это пример именно такой, как Вы предлагали - взять текст, который состоит из артиклей, предлогов и прочих служебных слов.
Понятное дело, что в разумных и правильных реальных текстах используются реальные слова из словаря, но разумные документы никто и не пишет просто набором слов, тем более исключительно существительными в именительном падеже и инфинитивами.
Впрочем.... вот вам реальный пример. "Пьяный гражданин укусил собаку" (реальная новость из недавней криминальной подборки) или "Собака укусила пьяного гражданина". :) Если мы выкинем артикли, а в русском языке приведем все к именительному падежу и забудем про набор слов, то.... Нет, понятно, что кто-то кого-то покусал :) но кто кого? :)
Это опять-таки по Кэрроллу - "едят ли кошки мошек?" или "едят ли мошки кошек?" - это один и тот же вопрос или все же разные? :)
Да, в лекции в двух местах говорится об артиклях, но оба раза примерно в одном ключе - что смысла они почти не несут. Я не хочу препираться по поводу тонкой разницы между "не несут практически никакой смысловой нагрузки" и "имеют мало смысла", по-моему это практически одно и то же.
Я не готов предложить лучшую формулировку. Если бы мог, сам бы читал лекции. :) А я пока только прохожу этот курс.
Возможно, стоило бы (не в лекции, а в методике) не выкидывать артикли, а рассматривать их в связке с соответствующим существительным.
Что касается задачи - ну вот я сейчас размышляю над предсказанием числа лайков у поста в соцсети. Напустить нейросеть на текст, ну и придумать такую своеобразную регрессию...
@@Arseny150 Речь не о "несут мало смысла" или "имеют мало смысла". Речь о смысле фразы и текста. На смысл фразы артикли влияют. На смысл текста - нет. Ибо в вашем примере смысл фразы о том кто и кого укусил. А когда будут собирать смысл большого текста, то важно будет, что он об укусе. И детали будут не так важны. Кто захочет деталей - и будет читать текст.
Порядок слов, акценты, ударения (чего стоит классическое "Тону. Да ну!"), служебные части речи - это всё очень важные детали. Но пока задача понять общую идею. И Татьяна тут хорошо справляется с объяснением.
В методике очень много разных алгоритмов - часть учитывают артикли, знаки препинания, словоформы (по-другому разделяя на морфемы) и даже - заглавные буквы. Так что там всё есть и Татьяна правильно делает, что на ранних стадиях даже не упоминает все эти дебри. Основную идею быть понять - а тут, как известно, совершенство достигается не когда уже нечего добавить, а когда нечего убрать...
Ох... на что только люди тратят своё драгаценное время, зачем вся эта ......🤣
Зачем нужно, чтобы компьютер текст понимал?! Странный вопрос. Вообще в первой лекции цикла был на это ответ.
@@Arseny150 Это всё уже давно открыто и изобретено и по большому счёт на фиг не нужно. 😅 Купил технику и пользуйся.😂
И не надо для этого заниматься показухой и казаться умнее всех.🤣
@@AndreyKarpov13 да вообще этак можно сказать, что всё на свете изобретено, купил и пользуйся. Вон чайник или тостер - купил и пользуйся, зачем физику в школе изучать? Какой-то еще закон Ома, понимаешь...
@@Arseny150 Всё правильно купил и пользуйся. Тебе какая разница как вода кипит и тосты жарятся. Не трать драгоценное время на всякую ерунду, которая тебе не пригодится в жизни.😂
А что надо можно быстро подчерпнуть из нета, тот же закон ома, если он вообще тебе нужен, прямо ты электриком работаешь🤣
Время очень дорогой товар, чтобы тратить его вот на эти все формулы... которые тебе и не нужны.😅
@@AndreyKarpov13 ну как сказать, мне довольно большая разница. А то вот у нас в дачном поселке одна упорно не хочет понимать, почему пробки выбивает или напряжение в сети падает, если она включает разом бойлер, обогреватель, чайник и что-то там еще.
Ну и потом, кто-то чай кипятит и тосты жарит, а кто-то новые чайники или тостеры делает. В Data Science довольно много перспективных направлений для работы, вот для тех, кто хочет там работать, лекции на этом канал и нужны.
Если ты хочешь работать где-то совсем в другой области, где ну никак никакой искусственный интеллект не применяется, то тебе просто этот канал не нужен, да и все. Правда, потом не жалуйся, что у тебя роботы работу отбирают. :)
Я вот, например, собираюсь предсказывать количество лайков в соцсетях по итогам анализа текста.
а векторное пространство на основе смысла слобо, где основопологающие понятия выступают в качестве базисов, а а другие слова выражаются через их линейную комбинацию, или я еще до этого не дослушал?
а на русском никак нельзя, понатыкали англиканизмов! 😏
у меня с английским проблем нет, вы просто пойдите в американский вуз и попробойте читать лекци используя к примеру немецкие или китайские термины!
не стыда не гордости за родной язык!
Подавляющее большинство материала на английском языке, и оттуда же идут все инновации по машинному обучению. В этой сфере очень часто появляются новые термины, которых не успеешь перевести, да и не имеет смысла, так как двойное выучивание терминов неэффективно скажется как на обучении самого себя, так и на обучение других. Это издевательство над здравым смыслом, а не над русским языком, и мною любимым в том числе. И да, англицизм, а не англиканизм
Вата и тут отметилась
откуда вы такие беретесь?
проблема в том что это стых computer science и языкознание, формальной и гуманитарной дисциплыны,. it-шников слишком формальный подход к решению проблемы, они пытаются агализировать текст грубой силой на основе статистики количества вхождений слов в тексте! это анализ без понимания, чисто машинный подход!