o1 模型：你需要更新一下关于 LLM 的心理模型了？｜01/12 days of openai：o1

ChatGPT 两周年复盘：理解 ChatGPT，理解费曼学习法，理解人的学习

比《人類大歷史》更重要的書：《連結》最完整解析，原來我們對 AI 的看法錯了！？

KARATE KID: LEGENDS - Official Trailer (HD)

Raising a Grocery Store King Crab as a Pet

Seungmin "그렇게, 천천히, 우리(As we are)" | [Stray Kids : SKZ-PLAYER]

深度解读“强化微调”，o1 模型训练的关键｜02/12 days of openai

howie serious

Просмотров 355

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 21 дек 2024

Комментарии • 8

@wanyuzhu3844 11 дней назад ⁺¹
GPT 学习的高质量素材！学完《费曼学习法》，再来学习这个视频集。陈老师在《费曼学习法》中对于 GPT 概念的讲解很容易让普通人也能理解。比如 transformer 这个概念，我自己学的时候，我不可能把这个概念和“人类是如何理解语言“”的放在一起对比，因为我不具备这方面的知识体系。没有合适的打比方和举例子，这些抽象概念就会越学越抽象😂但是老师这样一讲就好理解了，对于大语言模型、神经网络这些概念也不会这么畏惧了。
@howieserious 10 дней назад
看完视频，费曼一下～
@shuyi-n7j 11 дней назад ⁺¹
AI从人类神经网络起源，从GPT到O1越来越感觉到机器呈指数级的升级，人类能从机器的发展原理中学到什么呢？正如陈老师所说，o1模型的训练对学习、对家庭教育有很大的启示，1.海量阅读是基础，2.少而精的刻意训练和反馈，3.父母给孩子的正反馈都是每一次给孩子的强化训练，4.不浪费精力在无效的题海战术里。机器原理源于人类，人类从机器中受到启发，这才是人类与机器的完美共生啊😄～
@howieserious 10 дней назад
极好的费曼
@m.m8994 8 дней назад
如果限定到了特定的领域，基于过往预训+SFT的模型储备的知识或许确实可以在某个特定领域表现出比较好的泛化能力，但RFT好像也需要一个类似奖励模型的评分器，这个评分器直接影响RFT的效果，依照视频博主的翻译的例子来说，评分器就是其老婆。但问题是将来OPENAI开放RFT后，他们如何能贴合各种不同领域的使用者来提供各自擅长能力的评分器呢。
@howieserious 5 дней назад
这个期货也得等明年才发。估计到时候大家对强化微调会有更多更深入的认识。
@anan-m9e6l 2 дня назад
听完之后，收益良多，有个小小的疑问，听下来强化微调跟RLHF没什么区别，都是对大模型的输入给出一个分数，那为什么还要分为这两种
@howieserious День назад
RLHF 不算“真正的”强化学习，因为评判标准是人为的。o1 模型在后训练阶段，用上了真正的强化学习，和 AlphaGo 类似的那种。

Следующие

Автовоспроизведение

o1 模型：你需要更新一下关于 LLM 的心理模型了？｜01/12 days of openai：o1

o1 模型：你需要更新一下关于 LLM 的心理模型了？｜01/12 days of openai：o1

ChatGPT 两周年复盘：理解 ChatGPT，理解费曼学习法，理解人的学习

ChatGPT 两周年复盘：理解 ChatGPT，理解费曼学习法，理解人的学习

比《人類大歷史》更重要的書：《連結》最完整解析，原來我們對 AI 的看法錯了！？

比《人類大歷史》更重要的書：《連結》最完整解析，原來我們對 AI 的看法錯了！？

KARATE KID: LEGENDS - Official Trailer (HD)

KARATE KID: LEGENDS - Official Trailer (HD)

Raising a Grocery Store King Crab as a Pet

Raising a Grocery Store King Crab as a Pet

Seungmin "그렇게, 천천히, 우리(As we are)" | [Stray Kids : SKZ-PLAYER]

Seungmin "그렇게, 천천히, 우리(As we are)" | [Stray Kids : SKZ-PLAYER]

The History of Super Mario’s Hidden Ending

The History of Super Mario’s Hidden Ending

如何快速理解一切复杂概念？非常简单，只需三步！｜03/12 days of openai: sora

如何快速理解一切复杂概念？非常简单，只需三步！｜03/12 days of openai: sora

【人工智能】Ilya预言预训练时代将终结 | NeurIPS 2024演讲 | 深度学习假设 | LSTM | Scaling Laws | 联结主义 | 预训练时代 | 数据耗尽 | 超级智能

【人工智能】Ilya预言预训练时代将终结 | NeurIPS 2024演讲 | 深度学习假设 | LSTM | Scaling Laws | 联结主义 | 预训练时代 | 数据耗尽 | 超级智能

DPO V.S. RLHF 模型微调

DPO V.S. RLHF 模型微调

专访许成钢：极权体制下的经济奇迹与困局｜局面访谈20241221

专访许成钢：极权体制下的经济奇迹与困局｜局面访谈20241221

Google搜索之死、信息获取的范式革命｜08/12 days of openai: ChatGPT Search

Google搜索之死、信息获取的范式革命｜08/12 days of openai: ChatGPT Search

Llama3.1 8B 使用《史记》七十列传文本数据微调训练，实现现代文翻译至古文，效果还不错! | colab | unsloth | hugging face | 大模型微调

Llama3.1 8B 使用《史记》七十列传文本数据微调训练，实现现代文翻译至古文，效果还不错! | colab | unsloth | hugging face | 大模型微调

ChatGPT 工具论，工具内化于你，而非外在于你｜04/12 days of openai: canvas

ChatGPT 工具论，工具内化于你，而非外在于你｜04/12 days of openai: canvas

【人工智能】OpenAI o1模型背后的技术 | 后训练阶段的缩放法则 | 测试时计算 | 慢思考 | 隐式思维链CoT | STaR | Critic模型 | 大语言模型的天花板在哪里

【人工智能】OpenAI o1模型背后的技术 | 后训练阶段的缩放法则 | 测试时计算 | 慢思考 | 隐式思维链CoT | STaR | Critic模型 | 大语言模型的天花板在哪里

БЫВШАЯ ВЕРНУЛАСЬ В КАМПУС 😱 ОПОЗОРИЛАСЬ ПЕРЕД КЛАССОМ 👎 КАМИЛЬ ПОРУГАЛСЯ ДРУГОМ ИЗ ЗА ДЕВЧОНКИ

БЫВШАЯ ВЕРНУЛАСЬ В КАМПУС 😱 ОПОЗОРИЛАСЬ ПЕРЕД КЛАССОМ 👎 КАМИЛЬ ПОРУГАЛСЯ ДРУГОМ ИЗ ЗА ДЕВЧОНКИ

ПАЦАНСКИЕ РАЗБОРКИ В СЕЛЕ - МУЖСКОЕ ЖЕНСКОЕ feat. Приятный Ильдар

ПАЦАНСКИЕ РАЗБОРКИ В СЕЛЕ - МУЖСКОЕ ЖЕНСКОЕ feat. Приятный Ильдар

Несколько мощных взрывов произошли в Киеве после ракетного обстрела города

Несколько мощных взрывов произошли в Киеве после ракетного обстрела города

ОБЗОР ТРЕЙЛЕРА ОБНОВЛЕНИЯ STANDOFF 2 0.32.0 Kitsune Dreams

ОБЗОР ТРЕЙЛЕРА ОБНОВЛЕНИЯ STANDOFF 2 0.32.0 Kitsune Dreams

Пара слов про ЛАЗЕРНУЮ сварку

Пара слов про ЛАЗЕРНУЮ сварку

Егор Жуков - куда и почему он пропал / вДудь

Егор Жуков – куда и почему он пропал / вДудь

УХОД ГУДАЯ, КОНФЛИКТ С ЛИДЕРАМИ, ИМПЕРИЯ РУХНУЛА?

УХОД ГУДАЯ, КОНФЛИКТ С ЛИДЕРАМИ, ИМПЕРИЯ РУХНУЛА?

Скулбой 3: Хэппи Пёз*эй - ТРЕЙЛЕР ( DH Animation уже старая тема )

Скулбой 3: Хэппи Пёз*эй - ТРЕЙЛЕР ( DH Animation уже старая тема )