Transformer: интерпретация моделей и функции слоев. Лекция 23.

Тест 6 ИИ программистов

Свойства Multi-head Attention. Лекция 20.

Film Theory: You Can Skip the Minecraft Movie, I Solved It!

Am I Racist? - Movie Review

I Tested 1-Star Airlines

Llama 3.1: разбор статьи. Часть 5. DPO.

Евгений Разинков

Просмотров 265

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 15 сен 2024
Разбираем статью "The Llama 3 Herd of Models" (2024) со слушателями нашей AI-школы, раздел 4.1.4 Direct Preference Optimization.
Плейлист с разбором Llama 3.1:
• Llama 3.1: разбор статьи
Все видео плейлиста:
1. Intro & Data mix: • Llama 3.1: разбор стат...
2. Model Architecture & Scaling laws: • Llama 3.1: разбор стат...
3. Pre-training: • Llama 3.1: разбор стат...
4. Reward modeling & Supervised Fine-tuning: • Llama 3.1: разбор стат...
Телеграм-канал:
t.me/razinkov_ai
Список моих открытых курсов по AI на RUclips:
t.me/razinkov_...
Предварительная регистрация в следующий поток AI-школы:
razinkov.ai/sc...

Комментарии • 5

@irinakrivichenko7824 11 дней назад
Евгений, благодарю!
Возник вопрос: RLHF ,несмотря на свои недостатки , решал проблему объёма данных, который требовалось собрать от разметчиков. Решается ли как-то эта проблема в DPO?
P.S. курсор на ютубе виден ;)
@razinkov 9 дней назад
Ирина, не вижу здесь недостатков у DPO по сравнению с RLHF, но, возможно, я чего-то не понимаю. Может быть, вы уточните свой вопрос?
P.S. А его положение соответствует тому, что обсуждается в этот момент?) Мне кажется, может не соответствовать)
@irinakrivichenko7824 9 дней назад
@@razinkov
RLHF помогает уменьшить объём данных, необходимых для разметки, за счёт использования модели вознаграждений. На основе собранных данных обучается модель вознаграждений, которая далее оценивает, насколько хорошо модель соответствует человеческим предпочтениям. Соответственно LLM может обучиться на куда более большем объёме данных, чем тот который был размещен людьми.
В DPO используется только те примеры, которые были размещены пользователями? Не нашла нигде, что в DPO как-то расширяют ещё обучающую выборку.
P.s. да , соответствует
@razinkov 9 дней назад
@@irinakrivichenko7824 DPO эту же проблему решает, как я понимаю. Модель наград там ведь тоже есть, просто неявная.
@irinakrivichenko7824 8 дней назад
Кажется я разобралась.
Обозначения:
x - это входной запрос(инструкция), на который модель должна ответить.
y - это возможные ответы модели на данный запрос. Если при у стоит нижний индекс w или l , то это один конкретный ответ.
π(y∣x) - Вектор вероятностей того, что конкретный ответ будет выбран моделью как наиболее подходящий для данного запроса.
θ - индекс для обучаемой модели
ref - индекс для рефересной модели
В качестве награды за ответ используется логарифм от вероятность генерация ответа обучаемой модели делённой на вероятность референсной (исходной) модели.
DPO максимизирует разность наград между победившим и проигравшим ответами. При этом информацию, какой ответ победивший, какой проигравший , можно взять как из размеченной выборки, так и от Брэдли-Терри модели.
Брэдли Терри модель принимает эмбеддинги на оба ответа и выдает вероятность, что человек предпочтёт первый ответ второму. Это позволяет учитывать предпочтения пользователей на тех данных, которые не были размещены.

Следующие

Автовоспроизведение

Transformer: интерпретация моделей и функции слоев. Лекция 23.

Transformer: интерпретация моделей и функции слоев. Лекция 23.

Тест 6 ИИ программистов

Тест 6 ИИ программистов

Свойства Multi-head Attention. Лекция 20.

Свойства Multi-head Attention. Лекция 20.

Film Theory: You Can Skip the Minecraft Movie, I Solved It!

Film Theory: You Can Skip the Minecraft Movie, I Solved It!

Am I Racist? - Movie Review

Am I Racist? - Movie Review

I Tested 1-Star Airlines

I Tested 1-Star Airlines

Unc & Ocho react to Shannon Sharpe's viral moment on IG live... | Nightcap

Unc & Ocho react to Shannon Sharpe's viral moment on IG live... | Nightcap

LLM. Лекция 28.

LLM. Лекция 28.

Машинное обучение и анализ данных (4 курс). Лекция 3. Эксперименты с FLATS

Машинное обучение и анализ данных (4 курс). Лекция 3. Эксперименты с FLATS

Трансформер: training best practices

Трансформер: training best practices

Введение в большие языковые модели (LLM)

Введение в большие языковые модели (LLM)

🧪🧪🧪🧪Как увидеть гиперпространство (4-е измерение)

🧪🧪🧪🧪Как увидеть гиперпространство (4-е измерение)

Fine-Tuning в ChatGPT. Как дообучить LLM (простым языком и на примере)

Fine-Tuning в ChatGPT. Как дообучить LLM (простым языком и на примере)

Звуковые иллюзии, которые работают на всех (почти) [Veritasium]

Звуковые иллюзии, которые работают на всех (почти) [Veritasium]

Введение в языковые модели. Лекция 27.

Введение в языковые модели. Лекция 27.

ЛУЧШАЯ НЕЙРОСЕТЬ ДЛЯ ПРЕЗЕНТАЦИЙ И ЛИДМАГНИТОВ [+ ЕЩЁ ДВЕ]

ЛУЧШАЯ НЕЙРОСЕТЬ ДЛЯ ПРЕЗЕНТАЦИЙ И ЛИДМАГНИТОВ [+ ЕЩЁ ДВЕ]

News Weekly: legal firestorm, MicroStrategy boosts Bitcoin holdings, $HMSTR token ⚡️ Hamster News

News Weekly: legal firestorm, MicroStrategy boosts Bitcoin holdings, $HMSTR token ⚡️ Hamster News

Big or Small challenge 😂 Giant pretzel or pink gummy ice cream? 🧐 #shorts Best video by Hmelkofm

Big or Small challenge 😂 Giant pretzel or pink gummy ice cream? 🧐 #shorts Best video by Hmelkofm

МАЙКЛ ДЖЕКСОН НА ДЕТСКОМ ПРАЗДНИКЕ #иванабрамов #стендап #юмор #майклджэксон #shorts

МАЙКЛ ДЖЕКСОН НА ДЕТСКОМ ПРАЗДНИКЕ #иванабрамов #стендап #юмор #майклджэксон #shorts

Наконец Отабек Умаров приехал в Баку к нам в #seabreeze ✊🏼 #baku #emin #otabekumarov

Наконец Отабек Умаров приехал в Баку к нам в #seabreeze ✊🏼 #baku #emin #otabekumarov

صلو على الحبيب المصطفى 🫶 #cooking #abirzkitchen

صلو على الحبيب المصطفى 🫶 #cooking #abirzkitchen

Остановили аттракцион из-за дочки!

Остановили аттракцион из-за дочки!

Новая концовка ❗️ #schoolboyrunaway #конопатый

Новая концовка ❗️ #schoolboyrunaway #конопатый

15 СУПЕР АНТИСТРЕССОВ ЕСЛИ СКУЧНО МЕДВЕДЮ ВАЛЕРЕ

15 СУПЕР АНТИСТРЕССОВ ЕСЛИ СКУЧНО МЕДВЕДЮ ВАЛЕРЕ