EZ撸paper: DeepSeek-V3 论文中的隐藏细节 (part 4):从入门到精通DeepSeek multi-token prediction | 论文深度解读+独家分析

Поделиться
HTML-код
  • Опубликовано: 7 фев 2025
  • DeepSeek-v3 模型深度解析:为什么训练成本可以如此之低?从基础到深入彻底讲明白 DeepSeek-V3 Multi-Token Prediction #deepseek #llm
    paper:
    arxiv.org/abs/...
    code:
    github.com/dee...
    Meta MTP paper:
    arxiv.org/pdf/...
    Google speculative decoding paper:
    arxiv.org/pdf/...
    DeepMind speculative decoding paper:
    arxiv.org/pdf/...
    EAGLE paper:
    arxiv.org/pdf/...
    Medusa paper:
    arxiv.org/pdf/...
    KOALA paper:
    arxiv.org/pdf/...
    DeepSeek-V3 技术报告详细解读 part1:
    • EZ撸paper: DeepSeek-V3 ...
    DeepSeek-V3 技术报告详细解读 part2:
    • EZ撸paper: DeepSeek-V3 ...
    DeepSeek-V3 技术报告详细解读 part3:
    • EZ撸paper: DeepSeek-V3 ...
    DeepSeek-V3 技术报告详细解读 part4:
    • EZ撸paper: DeepSeek-V3 ...

Комментарии • 83

  • @luluvizmoz
    @luluvizmoz 6 дней назад +8

    这四个视频(~2.5小时)我全都一倍速看完啦,佩服自己1秒钟,haha
    我是一个完全的AI外行,只是一个普通的程序员,对机器学习和深度学习也是毛线都不懂,但你的这个V3 paper的系列视频对我“理解”大语言模型(尤其是正确看待最近火热的Deepseek现象)非常有帮助。你的每一句话里面几乎都有我不明白的概念术语,我连矩阵相乘该怎么算都早已经忘干净了,但并不耽误我享受你的视频(请允许我这么说,哈哈)。你讲解paper的方式非常好,语言连贯、剪辑紧凑、逻辑性强、非常专业(虽然我其实不懂,但多年的生活经验还是能让我听出谁是专业的谁是假把式的,哈哈哈)。
    平时大家都说“内行看门道,外行看热闹”。看了你的视频,我感觉我算是站得离门近了一点(但还是站在门外边)的那种“看热闹”的路人,不过我还看出了:“套路”。也就是你在视频中反复提到的,除了讲本篇paper(what)以外,还介绍了这之前的一些paper(why),介绍了Deepseek团队的每一个关键成果是基于哪些前人的成果,他们优化了什么,改进了什么。你甚至还猜测了他们团队的人是怎么想到这些点子的,也就是你所分享的研究哲学/方法。AI专业的东西我听不懂,但这些还是能听得懂的,也非常认可你分享的这些观点。你的视频给我的最大收获,就是让我真正理解了Yann LeCun说的"Open source models are surpassing closed ones”这句话。这样看来,deepseek模型确实是开源社区的胜利,而且截止到今天,已经起到了“造福全世界”的效果(诸多Deepseek模型的云端部署已经可以免费用了),也逼得OpenAI今天上线了o3-mini。非常感谢你的分享!而且我还有一个很大的收获,就是人类对算力的需求不会因为Deepseek找到了一些低成本的train和inference的方法就迅速消退的,因为AI目前的能力和人类期待的能力还相去甚远,只是小荷才露尖尖角。2025对AI来说依然很值得期待。
    另外你的视频也引起了我对大语言模型行业的一些好奇,挺想了解的,有几个小问题:
    1. 大模型行业的研发对数学的要求太高了,看起来大模型行业本身也积累了相当多的领域知识。如果以你为基准的话,我想知道这种人才(立即能从事大模型研发的)目前在全世界有5w人吗?中国和美国哪边的人更多?是不是可以用现有算法人才来估算?
    2. 由于deepseek的这些关键进展(大幅降低了成本),是不是会继续刺激现有大厂使用这些新的方法重新炼丹,从而用比Deepseek更多的算力训练出更厉害的模型?(我个人认为会的,因为只要scaling law还有效,那么用同样算力、更高效的训练方法必然能做出比Deepseek厉害更多的模型。如果做不出来,那反而说明scaling law完蛋了)
    3. 除了Deepseek已经公布的这些“妙招”以外,目前你看到的还有哪些比较有潜力的方法或论文或关键词吗?可以分享一下吗?
    4. 我能做的肯定是在AI应用这个层次,所以我比较关注大模型所使用的评估测试数据集。我想问:作为研发大模型的人,也是从这些测试数据集的分类角度(比如知识、编码、推理等)来评判、拆分大模型能力的吗?
    5. deepseek这种低成本的模型,fine-tune的成本也会变低吗?
    最后再次感谢你的分享 👍

    • @ez.encoder.academy
      @ez.encoder.academy  6 дней назад +8

      哇, 这是我迄今为止收到的最长留言了, 感谢你用心打了这么多字, 每个字给了我很多鼓励, 我也认真回复一下. 另外我没想到自己在世界的一个角落默默地做了几个视频, 我最初就没指望会有很多人看, 因为太专业了, 但却出人意料的能影响到世界另外一个角落的你, 还有其他的朋友.
      按照你的留言, 我分段回复一下:
      -------------
      1. 一倍速看了2.5个小时, 我感觉你是不是在暗示我语速太慢, 哈哈
      2. 我觉得你真正"看懂"了我的视频, 这个时代知识更新迭代太快了, 只是简单的学知识是没有用的, 很可能一年甚至几个月之后, 刚学的知识就没用了, 包括我视频里讲解的DeepSeek技术报告那些知识. 但真正不变的东西, 或者我建议大家学习的东西, 是背后的思路, 脉络, 直观理解, 方法论, 只要抓住这些最核心的东西, 理解任何知识都会很快, 也不会被时间冲刷走.
      3. 大家都有自己的领域, 有些知识对你的领域可能没有直接的作用, 比如知道MLA, MTP对你会有多大作用? 但是成功的人解决问题, 都是有固定的套路的, 我觉得重要的是学习别人解决问题的思路,套路, 然后用到自己的领域里面. 授人以鱼不如授人以渔, 我们学习, 换个角度, 就是要有意识地, 学人以鱼不如学人以渔.
      4. DeepSeek能开源真是太了不起了, 相比较现在的OpenAI, Google, Anthropic, 我觉得DeepSeek对技术发展的贡献是巨大的, 真的是造福全世界. 我们生活在一个地球上, 人与人直接是需要链接和合作的.
      5. 我非常同意你说的"人类对算力的需求不会因为Deepseek找到了一些低成本的train和inference的方法就迅速消退的", 另外硬件也会有相对应的突破和发展, 科学技术就是不断在螺旋上升的.
      --------------
      1. 搞AI有多少人我不知道, 我猜你可能背后想问的问题是, 如何赶上这波AI浪潮, 我觉得每个人都可以, 分几个层次:
      a. 如果你是有专业背景的人, 比如像我就是搞科研的, 或者程序员做产品的, 可以在自己的课题, 产品里面, 有意识的用上一些AI的思想,工具, 去解决问题. 久而久之, 就可以慢慢就入到这个领域
      b. 很多程序员, 可以考虑做一下和AI相关的工程性的工作, 比如如何训练,如何部署LLM,这一块需求量很大, 这里不光是能跑起来, 还要稳定的低成本的跑起来, 还要能简单的跑起来, 比如ollama这样的工作. 我相信很多程序都能做一块的工作.
      c. 即使自己工作和上面两点都不沾边, 至少在自己工作生活中, 把ChatGPT, DeepSeek, Cursor这些作为工具先用起来, 解决日常问题, 比如做些简单数据分析等. 这些东西以后就会变成手机,汽车一样普遍, 至少现在先熟悉这些基本技能
      2. DeepSeek肯定会迫使其他大厂跟进, 然后推出更好更便宜的模型, 这是必然的, 我相信scaling law还是有效的, 之前是卷模型大小, 卷数据大小, 现在开始卷推理的计算 (inference time compute)
      3. 我现在更多关注的是应用问题, 我比较感兴趣现在LLM如何解决我们工作生活中的问题, 大家都是怎么在用LLM的. 毕竟知识更新很快, 每天paper我都读不过来, 我还是更感兴趣一个技术如何对人类产生impact
      4. 至少paper上是按照数据集来评判模型能力, 但我觉得这个不准, 几个原因:
      a. 如果真正看过某些数据集的, 我觉得还是很粗糙的, 多个方面, (1) 因为网上搜集的数据, 质量不高, 有些作者就做些简单去重等整理, 但很多错误等在里面 (2) 数据集本身和实际场景差别挺大的, 比如很多数据集是多选问题, 让模型ABCD选个答案, 有多少实际场景, 除了考试, 人类是这样遇到并解决问题的?
      b. 很多数据集, 已经在网上了, 后面的模型使用的数据可能已经被污染了
      所以最好的方式, 还是实际场景中人来测试, 但这个效率是很低的, 这一块如果能有些创新将会很有帮助
      5. 我认为是的, 主要是后面工作可以吸收DeepSeek里面的技术或者思想, 降低成本, 解决各种问题, 包括finetune
      一点自己的想法, 希望对你有帮助

    • @gaozhan956
      @gaozhan956 5 дней назад

      非常棒的观后感👍mark

    • @SharkerZhao
      @SharkerZhao День назад

      两倍速看完,作者思路非常清晰,点个大大的赞

    • @YZX-s6u
      @YZX-s6u 20 часов назад

      同感。也感谢作者的分享,学到了很多。

  • @baoyiliu2665
    @baoyiliu2665 15 часов назад

    真棒,非AI研究人员也听懂了,同时催更r1系列后续

  • @ydtsaia
    @ydtsaia 2 дня назад +1

    謝謝如此深入的講解, 收穫很多. 完全可以跟李沐大神並駕齊驅.

    • @ez.encoder.academy
      @ez.encoder.academy  2 дня назад

      謝謝🙏不敢跟李沐大神比肩,他是我心中永遠的大神

  • @NightJun
    @NightJun 8 дней назад +3

    我真的很喜歡聽架構或模型的簡化講解,謝謝博主

    • @ez.encoder.academy
      @ez.encoder.academy  8 дней назад +3

      謝謝肯定, 感謝像你這樣的網友們, 給我正面的反饋, 讓我的心暖暖的, 我都不知道我分享paper能收到大家歡迎, 我很開心能對大家有幫助

  • @jasonzhong7698
    @jasonzhong7698 День назад

    听完后很多以前不是太明白的东西终于懂了, 谢谢

  • @yunfan0501
    @yunfan0501 5 дней назад

    感谢up主的分享,我个人觉得讲解得特别棒,也特别赞同您得观点,需要知其所以然。期待您其他视频的分享。

  • @ghostviper5887
    @ghostviper5887 День назад

    讲的方式非常好,很有启发

  • @proz0239
    @proz0239 7 дней назад +1

    我的妈呀,讲得太好了。博主新年快乐!希望今年可以一直跟着博主每个视频学习!

    • @ez.encoder.academy
      @ez.encoder.academy  7 дней назад +1

      新年快乐, 感谢你的支持呀~那我接下来要好好认真准备和做视频了, 不能辜负你的期望

  • @weishao6541
    @weishao6541 4 дня назад

    感谢博主分享,讲的非常清楚受益匪浅!对后面的infrastructure 部分也非常感兴趣,是deepseek 模型成功的关键之一。期待博主继续讲解

  • @w.3589
    @w.3589 8 дней назад

    非常感谢制作视频。文科学者表示非常受益于您的解读!❤

    • @ez.encoder.academy
      @ez.encoder.academy  8 дней назад +1

      谢谢鼓励,没想到我的分享能帮助到领域外不同学科的人,我很高兴

  • @murrayma-z5m1o
    @murrayma-z5m1o 4 дня назад

    我是从一个B站上的搬运的视频过来的,现在是做RL的Phd,您的视频确实让我对很多点有了更深的理解,是我目前看到的讲解的最棒的一个,没有之一,哈哈

    • @ez.encoder.academy
      @ez.encoder.academy  4 дня назад

      有人搬运我的视频吗?能给个链接吗,我要举报

    • @murrayma-z5m1o
      @murrayma-z5m1o 4 дня назад

      刚才在B站找到您本人的账号啦,给你私信啦。

    • @ez.encoder.academy
      @ez.encoder.academy  4 дня назад

      好的,谢谢,我看能不能举报

  • @ydl9815
    @ydl9815 7 дней назад

    讲得很清晰,很棒

  • @junyiye427
    @junyiye427 6 дней назад

    感谢博主分享自己的思维体系。

  • @PlainviewZhang
    @PlainviewZhang 6 дней назад

    学习了,谢谢博主!

  • @hawkoli1987
    @hawkoli1987 8 дней назад

    再次感谢博主的努力工作,大过年的还在加班加点给大家送福利,感激不尽!
    非常期待博主的自传,有空了贴个购买链接!

    • @ez.encoder.academy
      @ez.encoder.academy  8 дней назад

      谢谢你的肯定, 让我过年寒冷的冬天感到丝丝温暖, 确实最近猛肝了几天, 要休息一下.
      我的书最近还在写, 放到GitBook上了, 是免费的: ez-encoder-academy.gitbook.io/my-ai-journey
      第一次写书, 请给我多提意见,谢谢!

  • @seanzhang9797
    @seanzhang9797 6 дней назад

    谢谢,我在视频的帮助下看完了这些论文,也看了r1的论文

    • @zdhpeter
      @zdhpeter 6 дней назад

      感谢分享!

  • @jshw-zx9sm
    @jshw-zx9sm 7 дней назад

    谢谢分享👍

  • @ctrlv-n7w
    @ctrlv-n7w 9 дней назад +3

    mtp很自然的想法,就是一次预测next-m,就是最后一层输出n×1,变成n×m😂

    • @ez.encoder.academy
      @ez.encoder.academy  9 дней назад

      是的,我也觉得这个想法很直接,而且效果也好,后面会成为变成训练的标配. 有点类似当年的ResNet

    • @justinnine4940
      @justinnine4940 8 дней назад +2

      没那么简单,不是说你一次算4个token,下一步就可以从第5个token开始算。它是每一个token都要算一遍,每遍算4个出来,也挺费劲的

    • @hawkoli1987
      @hawkoli1987 8 дней назад

      很好的问题,我也想问下,训练的时候,假设第一次基于t1-t4生成了t5到t8,计算了loss, update了gradient; 第二次应该就是整个shift4,基于t5-t8去生成t9-t12并计算loss了吧; 不会每次只shift1, i.e. 基于t2-t5去生成t6-t9?
      如果是shift1, 感觉这个训练的效率就太低了,虽然可能会提高数据利用率。但是如果是shift4, 这个就是非常明显的加速。从它报道的训练效率来看,我猜想应该是shift4

    • @ez.encoder.academy
      @ez.encoder.academy  8 дней назад +1

      我理解就是shift1, 如果是parallel那种结构, shift1,shift2,shift3,shift4是同时算的, 如果是causal的架构, 我理解就是先shift1, 输出给下一个MTP算shift2, 以此类推, 最后一起算loss, 这里有个重点不要忽略了, MTP是参数量很小的"小模型", 算起来很快的, 所以后面MTP那部分计算量不大

    • @hawkoli1987
      @hawkoli1987 8 дней назад

      明白了。只是想确认下我的理解,就是shift1之后需要t2-t5的input embedding和t1-t4的output concat起来,在concat之前,t2-t5的input embedding只是通过一次embedding layer么?不需要像main module一样做任何的t2-t5之间的self-attention?
      这样感觉虽然效率的确会很高,但是MTP module的压力感觉会很大。但是如果Meta的parallel heads MTP都能行,那加了AR的MTP,有更多的input signal, 而且在concat之后也有self-attention layer, 那肯定也是可行的。
      另一个方面,如果只是shift1,那这个MTP就比不加MTP增加了训练时的计算量,虽然可能增加不多。那它就是单纯的增加训练的效果,而不是效率,对么?

  • @andyshao4254
    @andyshao4254 6 дней назад

    感谢用心分享。
    能否博主也出一个llm实践的基础扫盲视频,比如train与reference的区别,过程部署中,两者的异同,推理模型部署的具体实践。

    • @ez.encoder.academy
      @ez.encoder.academy  6 дней назад

      可以啊,谢谢你的建议,但我还有主业,这些内容可能不会太快出来,我可以考虑先在这些方向逐步做些小的视频

  • @himoreality
    @himoreality 7 дней назад

    讲的非常好! 想问问后续还有打算继续介绍 V3 里面提到的 DualPipe 和 Communication 这些训练加速吗

  • @kcltfask
    @kcltfask 2 дня назад

    所以MTP是為了幫model學到更多東西, 並不是真的在inference的時侯一次predict多個token, 是這樣理解嗎?

    • @ez.encoder.academy
      @ez.encoder.academy  2 дня назад +1

      这里我为了简化问题, 故意忽略了一个细节:
      1. 在Meta MTP那篇文章里面, 最后的MTP输出在推理的时候是可以用的, 也就是"真的在inference的時侯一次predict多個token", 这样可以提高推理速度. 因为我主要想强调MTP在training时候的作用, 所以把这个点略过了.
      2. 但是在DeepSeek MTP里面, 他们是把后面几个MTP module在推理的时候, 直接去掉了, 这样好处是是训练和推理的时候, 模型架构是一样的, 并且推理的时候, 模型参数不会变多, 计算量不会因为MTP而变大,所以DeepSeek"不是真的在inference的時侯一次predict多個token"
      希望我解释清楚了

  • @熊嘉俊
    @熊嘉俊 6 дней назад

    请问一下part4是最后一个部分了吗还会有deepseek的其他部分讲解吗

  • @toulashang3892
    @toulashang3892 7 дней назад

    求带读Deepseek R1 Zero🙏🙏

    • @ez.encoder.academy
      @ez.encoder.academy  7 дней назад

      好的,我现在压力很大😭很多人要我讲,如果我讲得不好或者哪里讲错了,辜负了大家. 我需要多花点时间准备😄

    • @toulashang3892
      @toulashang3892 7 дней назад

      @ 不会的,你讲的特别深入浅出,是我的菜,哈哈哈,谢谢昂~~~

  • @chenghaoyang8781
    @chenghaoyang8781 5 дней назад

    感谢博主的讲解,受益匪浅。
    我从事半导体设备研发工作,欧美厂商已经导入AI来做机台零件寿命预测等。国内这方面还很欠缺希望这次DS的风口,国产设备也能加快AI的导入。

  • @k46926472
    @k46926472 8 дней назад

    想看r1的解说

  • @steveli7530
    @steveli7530 8 дней назад

    大模型verify小模型token是否正确是不是也需要计算和时间?为什么这部分可以忽略?

    • @hawkoli1987
      @hawkoli1987 8 дней назад +1

      我的理解是大模型verification本身的时间是小头,时间大头浪费在等之前的token生成完毕(因为自回归是个线性过程)。假设小模型生成所有的0-9个token只需要1分钟(假设对应大模型10分钟),在此之后的大模型对所有10个token可以同时verify,即使每个要1分钟,那也总共2分钟。如果在第5个token发现错误要重新生成,那就再重复5-9的验证和重新生成,又是2分钟。加起来也就4分钟,还是会大量缩短推理时间

    • @ez.encoder.academy
      @ez.encoder.academy  8 дней назад +2

      这里我没花时间讲清楚, 大模型verify小模型需要计算和时间, 但是因为可以并行, 也就是给大模型输入小模型生成的序列, 大模型一次把所有token对应的logits (可以理解为prob distribution)都算出来, 这样相比较原始的大模型一个一个自己生成, verify这一步其实开销不大

  • @AA-ze5oj
    @AA-ze5oj 4 дня назад

    请教:有人说DEEPSEEK开源的代码不能用,是不是真的?

    • @ez.encoder.academy
      @ez.encoder.academy  4 дня назад

      都开源了还有什么不能用?有什么不放心的,直接检查源码,各种安全测试都可以做,底裤都扒开了给大家看,还有人为了反对而反对

    • @AA-ze5oj
      @AA-ze5oj 4 дня назад

      @ez.encoder.academy 测试过,代码不能直接用,要改,很化时间。
      并非为反对而反对,以然都可以蒸馏了,大家都可以了,没有什么反对不反对的了。

    • @ez.encoder.academy
      @ez.encoder.academy  4 дня назад

      哦, 抱歉抱歉, 我理解错了. 你说的是技术上跑不起来吗? 哈哈, 我以为又一个来抬杠的. 我收回我刚才说的.

  • @xiaozhao2493
    @xiaozhao2493 9 дней назад +4

    谢谢博主仔细讲deep seek的论文!我有一个问题?今天OpenAI and 微软公司说deepseek 用蒸馏技术从OpenAI 拿数据,这样可以利用更大、更强的模型输出成果,在较小模型获得更出色的表现,并让他们在特定任务上以更低廉的成本得到类似结果。博主怎能看? 另外问题是:从deep seek 论文上逻辑分析可能省GPU, 但是怎么能证明实际训练中真正可以极大省GPU 算力?

    • @ez.encoder.academy
      @ez.encoder.academy  8 дней назад +1

      也谢谢你的问题,希望你不是在给我挖坑,让我跳吧?😄

    • @xiaozhao2493
      @xiaozhao2493 8 дней назад +1

      谢谢回复!我不是挖坑,只是想学习和交流,想弄清这个deepseek到底怎么提高效率?

    • @ez.encoder.academy
      @ez.encoder.academy  8 дней назад +3

      好的, 明白了, 你这两个问题只有DeepSeek内部的人能回答, 作为局外人我其实不知道答案, 也只能和其它媒体一样, 瞎猜一通

    • @nullpointer0x0000
      @nullpointer0x0000 7 дней назад

      今天看到微软同时也在他们云上部署了R1😂 个人觉得微软有openai 肯定不服气要去搞一搞,他们法律比较强,之前在各大洲收购动视暴雪就是神操作,这次也会想尽办法拖住竞争对手

    • @andyshao4254
      @andyshao4254 6 дней назад

      我也真是没搞懂为什么蒸馏这个事,撇开政治立场不说,为什么技术专家们两面对立,说不可能/不需要蒸馏的很坚定;说对GPT蒸馏的也很确信,但也没有充分理由。
      两面给的技术理由都似乎有道理,专业上判断真的很难吗?
      不过看你对paper的解读,dp从底层逻辑上都很清晰,性能提升已经很有说服力,为什么还会需要蒸馏呢

  • @AA-ze5oj
    @AA-ze5oj 6 дней назад

    英文太草,

    • @ez.encoder.academy
      @ez.encoder.academy  6 дней назад

      抱歉啊,用的那个写字板特别滑,不太好写字,后面我尽量写工整点