DeepSeek-R1深度解读,如何做到 RL+LLM 训练的?

Поделиться
HTML-код
  • Опубликовано: 5 фев 2025
  • DeepSeek-R1深度解读,如何做到 RL+LLM 训练的?

Комментарии • 22

  • @AngieSong-lq3ur
    @AngieSong-lq3ur 7 дней назад +2

    哇好开心有人带着读研究报告

  • @shaly0815
    @shaly0815 8 дней назад +2

    目前是我看過最好的解釋deep-seek 功能的人

  • @brotherchang
    @brotherchang День назад

    以推理模型( OpenAI o1及 DeepSeek R1) 需要思考链(CoT) 的阐述内容,常理上使用监督学习(注重每一个步骤细节的掌控)作为训练较为合理完整,而DeepSeek使用的强化学习(只注重目标结果的奖励)训练效果却与监督学习相当,请问你觉得为什么会这样呢? 目前这个效果在DeepSeek R1是呈现了,可以较直观合理化解释其中的道理吗?

  • @洪好马
    @洪好马 6 дней назад +2

    不要苛坷别人的讲话语气,能够说清问题就好,我觉的逻辑过程说的很清晰,算法过程需要大四以上才能理解。

    • @ZOMI666
      @ZOMI666  5 дней назад

      感谢您的建议

  • @吴吉人
    @吴吉人 День назад

    20:30 on policy 和 off policy的特点是不是写反了?

  • @Coconut-Crusted-French-Toast
    @Coconut-Crusted-French-Toast 15 дней назад +1

    感谢分享

  • @kerkerYue
    @kerkerYue 11 дней назад +1

    想請問主播有聽說過 北京通用人工智能研究院嗎 如何評價 感謝🫰

    • @ZOMI666
      @ZOMI666  7 дней назад +1

      听过,国家 4 大 AI 研究院之一

  • @jiachengxu6336
    @jiachengxu6336 15 дней назад +1

    神速

  • @cgyyit
    @cgyyit 14 дней назад +1

    这“奖励”听到我好苦😂

    • @ZOMI666
      @ZOMI666  14 дней назад

      为什么呀

  • @JASONCHOW-zq5vv
    @JASONCHOW-zq5vv 9 дней назад +2

    大哥,讲话就好好讲,不要搞一堆奇怪的语气,很萌吗??好好讲话,好好讲解不行?一个好好的研究报告,被讲解成这样

    • @ZOMI666
      @ZOMI666  7 дней назад

      例如哪里?

    • @dbb3756
      @dbb3756 3 дня назад +1

      我觉得人家讲的挺生动的😂

    • @minlin6618
      @minlin6618 День назад

      这不讲的挺好的吗?可能别人说话的音色就是这样,为啥不关注内容。不喜欢听的话可以划走。。非要留评找存在感

  • @helloworld-m5z
    @helloworld-m5z 7 дней назад

    這博主說話陰陽怪氣的

    • @ZOMI666
      @ZOMI666  3 дня назад

      Этот блоггер странно разговаривает