【生成式AI導論 2024】第4講：訓練不了人工智慧？你可以訓練你自己 (中) - 拆解問題與使用工具

KIMI K1.5深度解读，DeepSeek R1国内竞品到底如何？

DeepSeek对英伟达有何影响？答案没人敢说！投资逻辑自此发生改变！你该如何应对？

Surprising Son with Dream Car on 16th Birthday

The Battle Over NYC Congestion Pricing

How To Get Dragon Race Part 1 + Full Guide In Blox Fruits Update 24

DeepSeek-R1深度解读，如何做到 RL+LLM 训练的？

ZOMI酱

Просмотров 4,4 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 5 фев 2025
DeepSeek-R1深度解读，如何做到 RL+LLM 训练的？

Комментарии • 22

@AngieSong-lq3ur 7 дней назад ⁺²
哇好开心有人带着读研究报告
@shaly0815 8 дней назад ⁺²
目前是我看過最好的解釋deep-seek 功能的人
@ZOMI666 7 дней назад
谢谢
@brotherchang День назад
以推理模型（ OpenAI o1及 DeepSeek R1）需要思考链（CoT) 的阐述内容，常理上使用监督学习（注重每一个步骤细节的掌控）作为训练较为合理完整，而DeepSeek使用的强化学习（只注重目标结果的奖励）训练效果却与监督学习相当，请问你觉得为什么会这样呢？目前这个效果在DeepSeek R1是呈现了，可以较直观合理化解释其中的道理吗？
@洪好马 6 дней назад ⁺²
不要苛坷别人的讲话语气，能够说清问题就好，我觉的逻辑过程说的很清晰，算法过程需要大四以上才能理解。
@ZOMI666 5 дней назад
感谢您的建议
@吴吉人 День назад
20:30 on policy 和 off policy的特点是不是写反了？
@Coconut-Crusted-French-Toast 15 дней назад ⁺¹
感谢分享
@ZOMI666 7 дней назад
谢谢
@kerkerYue 11 дней назад ⁺¹
想請問主播有聽說過北京通用人工智能研究院嗎如何評價感謝🫰
@ZOMI666 7 дней назад ⁺¹
听过，国家 4 大 AI 研究院之一
@jiachengxu6336 15 дней назад ⁺¹
神速
@cgyyit 14 дней назад ⁺¹
这“奖励”听到我好苦😂
@ZOMI666 14 дней назад
为什么呀
@JASONCHOW-zq5vv 9 дней назад ⁺²
大哥，讲话就好好讲，不要搞一堆奇怪的语气，很萌吗？？好好讲话，好好讲解不行？一个好好的研究报告，被讲解成这样
@ZOMI666 7 дней назад
例如哪里？
@dbb3756 3 дня назад ⁺¹
我觉得人家讲的挺生动的😂
@minlin6618 День назад
这不讲的挺好的吗？可能别人说话的音色就是这样，为啥不关注内容。不喜欢听的话可以划走。。非要留评找存在感
@helloworld-m5z 7 дней назад
這博主說話陰陽怪氣的
@ZOMI666 3 дня назад
Этот блоггер странно разговаривает

Следующие

Автовоспроизведение

【生成式AI導論 2024】第4講：訓練不了人工智慧？你可以訓練你自己 (中) - 拆解問題與使用工具

【生成式AI導論 2024】第4講：訓練不了人工智慧？你可以訓練你自己 (中) — 拆解問題與使用工具

KIMI K1.5深度解读，DeepSeek R1国内竞品到底如何？

KIMI K1.5深度解读，DeepSeek R1国内竞品到底如何？

DeepSeek对英伟达有何影响？答案没人敢说！投资逻辑自此发生改变！你该如何应对？

DeepSeek对英伟达有何影响？答案没人敢说！投资逻辑自此发生改变！你该如何应对？

Surprising Son with Dream Car on 16th Birthday

Surprising Son with Dream Car on 16th Birthday

The Battle Over NYC Congestion Pricing

The Battle Over NYC Congestion Pricing

How To Get Dragon Race Part 1 + Full Guide In Blox Fruits Update 24

How To Get Dragon Race Part 1 + Full Guide In Blox Fruits Update 24

Felix "Unfair" | [Stray Kids : SKZ-PLAYER]

Felix "Unfair" | [Stray Kids : SKZ-PLAYER]

DeepSeek R1 Explained to your grandma

DeepSeek R1 Explained to your grandma

先秦儒家哲學 01：儒家的基本性格：背景、人物與經典

先秦儒家哲學 01：儒家的基本性格：背景、人物與經典

DeepSeek-R1 Paper Explained - A New RL LLMs Era in AI?

DeepSeek-R1 Paper Explained - A New RL LLMs Era in AI?

Transformer论文逐段精读

Transformer论文逐段精读

深度强化学习(3/5)：策略学习 Policy-Based Reinforcement Learning

深度强化学习(3/5)：策略学习 Policy-Based Reinforcement Learning

NEW Deepseek AI Good For Creating Trading Strategies in TradingView and PineScript? (FREE AI)

NEW Deepseek AI Good For Creating Trading Strategies in TradingView and PineScript? (FREE AI)

EP-134 王维嘉：DeepSeek对中美AI竞争意味着什么？ | Open AI | 大模型 | 人工智能 | chatGPT | 深度求索 | 英伟达 | 芯片 | 举国体制 | 贸易战

EP-134 王维嘉：DeepSeek对中美AI竞争意味着什么？ | Open AI | 大模型 | 人工智能 | chatGPT | 深度求索 | 英伟达 | 芯片 | 举国体制 | 贸易战

【主題專訪】GPU神話不再？解碼DeepSeek，AI應用將百花齊放，誰將成最大贏家。專訪耐能智慧創辦人劉峻誠博士

【主題專訪】GPU神話不再？解碼DeepSeek，AI應用將百花齊放，誰將成最大贏家。專訪耐能智慧創辦人劉峻誠博士

'25.02.03【觀點│正經龍鳳配】DeepSeek 如何標誌美國的失敗

'25.02.03【觀點│正經龍鳳配】DeepSeek 如何標誌美國的失敗

Отдельный вид испытания в Египте - ТОРГОВЦЫ

Отдельный вид испытания в Египте — ТОРГОВЦЫ

Урок тем, кто решит ВЫЙТИ против БОКСЁРА на его ТЕРРИТОРИИ🥊🔥 #shorts

Урок тем, кто решит ВЫЙТИ против БОКСЁРА на его ТЕРРИТОРИИ🥊🔥 #shorts

На ТАКОЙ ПОСТУПОК способен только человек с по-настоящему ДОБРЫМ СЕРДЦЕМ #shorts

На ТАКОЙ ПОСТУПОК способен только человек с по-настоящему ДОБРЫМ СЕРДЦЕМ #shorts

ДОНК ПРОТИВ ВАНДЕРФУЛА! SPIRIT - NAVI IEM KATOWICE 2025

ДОНК ПРОТИВ ВАНДЕРФУЛА! SPIRIT - NAVI IEM KATOWICE 2025

Как грузин обдурил СССР на десятки миллионов, используя хитрую схему

Как грузин обдурил СССР на десятки миллионов, используя хитрую схему

как обнять себя на фото? #туториал

как обнять себя на фото? #туториал

New Colour Match Puzzle Challenge - Incredibox Sprunki

New Colour Match Puzzle Challenge - Incredibox Sprunki

ЗВОНИТЕ САНИТАРАМ | Маркарян - ВСЁ / СУМАСШЕДШИЙ Последователь Косенко / МНОГОЖЕНЕЦ Заигрался

ЗВОНИТЕ САНИТАРАМ | Маркарян - ВСЁ / СУМАСШЕДШИЙ Последователь Косенко / МНОГОЖЕНЕЦ Заигрался