RLHF & DPO Explained (In Simple Terms!)

Direct Preference Optimization: Your Language Model is Secretly a Reward Model | DPO paper explained

一小時略懂量子電腦｜量子位元、量子計算、超導電路、離子阱、拓撲量子位元、量子糾錯

The Greatest Comeback Of All Time?

MARK 마크 '프락치 (Fraktsiya) (Feat. 이영지)' MV

DPO V.S. RLHF 模型微调

Alice in AI-land

Просмотров 3,2 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 2 янв 2025

Комментарии • 7

@neurite001 11 месяцев назад ⁺¹
激动万分啊, 也像 Andrew Ng 一样, 在咖啡馆里差一点就跳起来, 终于有中文博主讲解DPO了
@AliceInAILand 11 месяцев назад ⁺⁴
😄 我也是看到这么漂亮的证明满心欢喜；今天还看到meta家已经用这个self-rewarding的方法fine tune llama2-70b 说在一些benchmark上效果比gpt4好arxiv.org/abs/2401.10020
@theodoruszhou2692 10 месяцев назад
Thank you very much for the video, the explanations were very clear, and I learned a lot. Looking forward to your next work～
@AliceInAILand 9 месяцев назад
Glad it was helpful :)
@iwisher666 9 месяцев назад ⁺¹
加油加油
@ZhousiChen-h8p 7 месяцев назад
能给数学并不好的人（我）解答一下吗？
RLHF和DPO的共同点都是preference对子，DPO不依赖于reward model和RL，那是不是说DPO的训练数据会少很多？因为preference也是人来评判的，没用到其他模型作为近似。我感觉reward model也有是一个数据增广的作用，或者bootstrapping的感觉。
也很想知道，怎么把调整模型输出某个句子出现的概率转换成梯度的，最近看到一篇叫做KTO，说是不依赖preference对子，只要一个例子和一个二元判断受人类欢迎和不受欢迎就够了。不清楚为什么对子为啥这么重要。
如果可以，能请你更多用自然语言解释解释和对比一下这些方法论之间的异同吗？也希望节目时间能短一点。。。谢谢你！🤗
@fungpangfan8825 6 месяцев назад
❤🎉

Следующие

Автовоспроизведение

RLHF & DPO Explained (In Simple Terms!)

RLHF & DPO Explained (In Simple Terms!)

Direct Preference Optimization: Your Language Model is Secretly a Reward Model | DPO paper explained

Direct Preference Optimization: Your Language Model is Secretly a Reward Model | DPO paper explained

一小時略懂量子電腦｜量子位元、量子計算、超導電路、離子阱、拓撲量子位元、量子糾錯

一小時略懂量子電腦｜量子位元、量子計算、超導電路、離子阱、拓撲量子位元、量子糾錯

The Greatest Comeback Of All Time?

The Greatest Comeback Of All Time?

MARK 마크 '프락치 (Fraktsiya) (Feat. 이영지)' MV

MARK 마크 '프락치 (Fraktsiya) (Feat. 이영지)' MV

Madison Police identify school shooter as 15-year-old female student

Madison Police identify school shooter as 15-year-old female student

Andrew Ng Explores The Rise Of AI Agents And Agentic Reasoning | BUILD 2024 Keynote

Andrew Ng Explores The Rise Of AI Agents And Agentic Reasoning | BUILD 2024 Keynote

CS 285: Eric Mitchell: Reinforcement Learning from Human Feedback: Algorithms & Applications

CS 285: Eric Mitchell: Reinforcement Learning from Human Feedback: Algorithms & Applications

Direct Preference Optimization: Forget RLHF (PPO)

Direct Preference Optimization: Forget RLHF (PPO)

Леонид Парфенов, спецгость Редакции - о Вене и вине, империи и импрессионистах, Намедни и вечности

Леонид Парфенов, спецгость Редакции — о Вене и вине, империи и импрессионистах, Намедни и вечности

Путешествие с Маэстро, Евгением Понасенковым, в мир истории, психологии великих, науки и искусства!

Путешествие с Маэстро, Евгением Понасенковым, в мир истории, психологии великих, науки и искусства!

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Transformer论文逐段精读

Transformer论文逐段精读

经济机器是怎样运行的 (时长30分钟) Ray Dalio

经济机器是怎样运行的 (时长30分钟) Ray Dalio

Simon's reaction when Wenda sus Gray #sprunki #wenda #gray

Simon's reaction when Wenda sus Gray #sprunki #wenda #gray

БУДЬ МУЖИКОМ! (Анимация)

БУДЬ МУЖИКОМ! (Анимация)

МАФИЯ В ШКОЛЕ 😱 ЗАСТУПИЛСЯ ЗА ДРУГА 🤯 ШКОЛЬНИКИ СТАЛИ МИЛЛИОНЕРАМИ

МАФИЯ В ШКОЛЕ 😱 ЗАСТУПИЛСЯ ЗА ДРУГА 🤯 ШКОЛЬНИКИ СТАЛИ МИЛЛИОНЕРАМИ

СПАСИБО ЮТУБ, БЫЛО КРУТО!

СПАСИБО ЮТУБ, БЫЛО КРУТО!

ТЫ БЫ НИКОГДА ТАКОЕ НЕ ЗАГУГЛИЛ #19

ТЫ БЫ НИКОГДА ТАКОЕ НЕ ЗАГУГЛИЛ #19

А человечки едят салатики?😸 (Котики нет)

А человечки едят салатики?😸 (Котики нет)

Калмыков НОКАУТИРОВАЛ Хамзата. Хоронженко VS Пахан & Маэстро-КОНФЛИКТ. Тандовский ГАЗ на Искандара

Калмыков НОКАУТИРОВАЛ Хамзата. Хоронженко VS Пахан & Маэстро–КОНФЛИКТ. Тандовский ГАЗ на Искандара

‘’ОДИН В ТАЙГЕ” ПЕРВЫЕ СНАСТИ НА НАЛИМА. РЕМОНТ ТАЁЖНОЙ ИЗБЫ. НАИКРАСИВЕЙШИЕ МЕСТА! НОВЫЙ 2025 ГОД..

‘’ОДИН В ТАЙГЕ” ПЕРВЫЕ СНАСТИ НА НАЛИМА. РЕМОНТ ТАЁЖНОЙ ИЗБЫ. НАИКРАСИВЕЙШИЕ МЕСТА! НОВЫЙ 2025 ГОД..