DL2022: Векторные представления слов и текстов (часть 2)

Лекция. Контестные эмбеддинги. Word2Vec.

Word embeddings для векторизации текста | Обработка естественного языка

BLACK BAG - Official Trailer [HD] - Only in Theaters March 14

Islam Makhachev DENIES Arman Tsarukyan as toughest opponent👀 'I'll make everyone shut up' | ESPN MMA

THE AMAZING DIGITAL CIRCUS - Ep 4: Fast Food Masquerade

DL2022: Векторные представления слов и текстов (часть 1)

Alexander D'yakonov

Просмотров 1,6 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 5 фев 2025
Курс "Глубокое обучение (Deep Learning)"
страница курса: github.com/Dya...
автор курса: Александр Дьяконов (dyakonov.org/)
В этой лекции...
Способы представления слов: классические: OHE, counts, LSA, кластеризация, LDA.
Вложение слов в непрерывное пространство (embedding).
word2vec: CBOW, skip-gram.
Negative Sampling.
Ближайшие соседи.
Операции над представлениями слов.
Fasttext.
Glove: Global Vectors for Word Representation.
Contextualized Word Embeddings.
Embeddings in Tag LM.
CoVe = Contextual Word Vectors.
ELMo: Embeddings from Language Models.
FLAIR: Contextual String Embeddings for Sequence Labelling. Представление текстов.

Комментарии • 6

@andreib8871 5 месяцев назад
Александр Геннадьевич, подскажите, пожалуйста, почему на слайде 19 вероятность считается по указанной формуле? По идее, нам нужна оценка вероятности слова_контекста при условии слова_цели, которую мы должны оценить из тренировочных данных. И тут не совсем понятно, как это коррелирует софтмаксом скалярного произведения эмбедингов.
@egger_2283 8 месяцев назад
Здравствуйте, на 49:07 Вы говорите, что мы подаем в нейронку слова, но откуда мы получаем векторное представление для того, чтобы передать его в модель. Из того же самого ворд ту века, с которым мы потом конкатим эмбеддинг? И используем ли мы какую-то аугментацию для ворд-ту-века? Условно в русском языке можно попробовать поварьировать падеж или множественное/единственное число?
@alexanderdyakonov8305 8 месяцев назад ⁺¹
Там на картинке - используется Glove-представление слов.
@drumcord 7 месяцев назад
Спасибо большое за объяснения ) почувствовал себя умственно отсталым
По сравнению с вашим уровнем развития в этой области, так и есть.
Думаю тут стыдиться нечего.
Наверное без знаний математики бессмысленно пытаться понять устройство LLM на примерах и упрощённых аналогиях?
Всгего то пытался понять, как это "слова" шифруются в числа, и кодируются в векторные "ембединги" в пространствах и измерениях с сотнями координатных осей.
Это за пределами моего понимания евклидовой геометрии.
И всё через формулы, формулы и ещё раз формулы...
Никакого понимания, как это шестисотмерное пространство вообразить, и какие там координатные оси...

Следующие

Автовоспроизведение

DL2022: Векторные представления слов и текстов (часть 2)

DL2022: Векторные представления слов и текстов (часть 2)

Лекция. Контестные эмбеддинги. Word2Vec.

Лекция. Контестные эмбеддинги. Word2Vec.

Word embeddings для векторизации текста | Обработка естественного языка

Word embeddings для векторизации текста | Обработка естественного языка

BLACK BAG - Official Trailer [HD] - Only in Theaters March 14

BLACK BAG - Official Trailer [HD] - Only in Theaters March 14

Islam Makhachev DENIES Arman Tsarukyan as toughest opponent👀 'I'll make everyone shut up' | ESPN MMA

Islam Makhachev DENIES Arman Tsarukyan as toughest opponent👀 'I'll make everyone shut up' | ESPN MMA

THE AMAZING DIGITAL CIRCUS - Ep 4: Fast Food Masquerade

THE AMAZING DIGITAL CIRCUS - Ep 4: Fast Food Masquerade

Hey.. long time no see

Hey.. long time no see

DL2022: Языковые модели (часть 2)

DL2022: Языковые модели (часть 2)

Fine-tuning, RAG, Llama, prompt-engineering, LLM-арены | Что происходит в LLM

Fine-tuning, RAG, Llama, prompt-engineering, LLM-арены | Что происходит в LLM

Лекция. Векторные представления слов, Bag of Words. Латентный семантический анализ

Лекция. Векторные представления слов, Bag of Words. Латентный семантический анализ

Рассчитываем контекстную близость слов с помощью библиотеки Word2vec

Рассчитываем контекстную близость слов с помощью библиотеки Word2vec

🚨 Почему избранные проходят через столько испытаний? Узнайте шокирующую правду...

🚨 Почему избранные проходят через столько испытаний? Узнайте шокирующую правду...

Вы НЕ умеете замечать ЗНАКИ и ПОДСКАЗКИ от жизни

Вы НЕ умеете замечать ЗНАКИ и ПОДСКАЗКИ от жизни

Видящий предупредил: многие не готовы к тому, что вот вот произойдет.. Алан Мамиев

Видящий предупредил: многие не готовы к тому, что вот вот произойдет.. Алан Мамиев

Основы глубинного обучения, лекция 8 - Векторные представления слов

Основы глубинного обучения, лекция 8 — Векторные представления слов

"Третий всадник". Стоит ли бояться мирового голода?

"Третий всадник". Стоит ли бояться мирового голода?

SHE CAME BACK LIKE NOTHING HAPPENED! 🤣 #shorts

SHE CAME BACK LIKE NOTHING HAPPENED! 🤣 #shorts

День Рождения Мамы Самвела ! Надежда Наготовила На Целую Свадьбу! Гости В Восторге

День Рождения Мамы Самвела ! Надежда Наготовила На Целую Свадьбу! Гости В Восторге

притворился дедом и проверил шаурмечные на человечность ч10

притворился дедом и проверил шаурмечные на человечность ч10

БОЕВОЙ ДУХ (смешное видео, юмор, приколы, поржать, смех)

БОЕВОЙ ДУХ (смешное видео, юмор, приколы, поржать, смех)

мифы о здоровье💊 в какой верили до этого видео? #медицина #здоровье #питание

мифы о здоровье💊 в какой верили до этого видео? #медицина #здоровье #питание

Drink Matching Game #игры #games #funnygames #умныеигры #matching #игрыдлякомпании #challenge

Drink Matching Game #игры #games #funnygames #умныеигры #matching #игрыдлякомпании #challenge

“Хусури Ман 20” - качество оригинал 4К. Официально!

“Хусури Ман 20” - качество оригинал 4К. Официально!

ДВУХГОЛОВЫЙ ГУСЬ

ДВУХГОЛОВЫЙ ГУСЬ