【人工智能】o1 pro架构揭秘 | Semianalysis长文剖析推理训练架构 | Claude 3.5 Opus失败了么 | Scaling Laws或会持续 | 草莓训练 | token经济学

Поделиться
HTML-код
  • Опубликовано: 18 дек 2024

Комментарии •

  • @peterjohn330
    @peterjohn330 День назад +1

    太专业了

  • @billhuang8778
    @billhuang8778 День назад +2

    为大飞点赞,建议分析文章的时候加一些比喻,更容易理解。

    • @bestpartners
      @bestpartners  День назад +2

      好的,以前尝试加过,但是也有人反应比喻的不是很恰当,哈哈,众口难调我继续努力

  • @gwod4782
    @gwod4782 3 дня назад +14

    难怪OpenAI会把下一个突破点选在数学和编程任务,因为这类任务造假数据比较容易,而且有标准答案,很容易做成reward做强化学习。这也能解释为什么后训练CPU密集,因为这类解题验证答案的任务只能CPU做,等于是把CPU的推理能力赋能给模型了。

    • @abse-mj8pw
      @abse-mj8pw День назад

      CPU没有推理能力,验证器可以是LLM等model,数学很重要因为其有形式化的语言,并且跟推理能力强相关,其他的问题比如规划问题,这些问题重要因为目前LLM能力不足,用COT可以增强能力。现在所有的问题造数据和RL都不是问题。

  • @liuanjie8202
    @liuanjie8202 3 дня назад +4

    ORM should stand for Outcome Reward Model, not Optimal Reward Model in the context.

  • @mahdykhayyamian6167
    @mahdykhayyamian6167 2 дня назад +1

    赞高产👍

  • @htlu5140
    @htlu5140 2 дня назад +1

    👍

  • @silent_watchmen
    @silent_watchmen 2 дня назад +2

    Jetson Orin Nano Super发布了 中文媒体还没人讲 大飞赶快蹭热度啊

  • @ericwong2674
    @ericwong2674 3 дня назад +3

    老師所用詞匯,非普羅大衆能夠聽得懂的

  • @corgirun7892
    @corgirun7892 2 дня назад +2

    Semianalysis的质量极高,相比国内的研报简直就是瞎扯淡

    • @skystarry-d6q
      @skystarry-d6q День назад

      国内有高质量的研报????没见过

  • @hiucollo2402
    @hiucollo2402 3 дня назад +1

    Thank you 大 飞 一口氣看到尾 看完再看 TRUMP WIN 🏆 🏆 🏆 ☘ 🍉 😄 🌺 🀄 😃 💐 ☕ 🌸 😁 🏵 😀 🧧 🎉 😇 💮 🌺 😎 🎊 🏮 🍀

  • @alexyoung3609
    @alexyoung3609 3 дня назад +1

    第二✌