Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
太专业了
为大飞点赞,建议分析文章的时候加一些比喻,更容易理解。
好的,以前尝试加过,但是也有人反应比喻的不是很恰当,哈哈,众口难调我继续努力
难怪OpenAI会把下一个突破点选在数学和编程任务,因为这类任务造假数据比较容易,而且有标准答案,很容易做成reward做强化学习。这也能解释为什么后训练CPU密集,因为这类解题验证答案的任务只能CPU做,等于是把CPU的推理能力赋能给模型了。
CPU没有推理能力,验证器可以是LLM等model,数学很重要因为其有形式化的语言,并且跟推理能力强相关,其他的问题比如规划问题,这些问题重要因为目前LLM能力不足,用COT可以增强能力。现在所有的问题造数据和RL都不是问题。
ORM should stand for Outcome Reward Model, not Optimal Reward Model in the context.
赞高产👍
👍
Jetson Orin Nano Super发布了 中文媒体还没人讲 大飞赶快蹭热度啊
真是累啊,哈哈
老師所用詞匯,非普羅大衆能夠聽得懂的
Semianalysis的质量极高,相比国内的研报简直就是瞎扯淡
国内有高质量的研报????没见过
Thank you 大 飞 一口氣看到尾 看完再看 TRUMP WIN 🏆 🏆 🏆 ☘ 🍉 😄 🌺 🀄 😃 💐 ☕ 🌸 😁 🏵 😀 🧧 🎉 😇 💮 🌺 😎 🎊 🏮 🍀
第二✌
太专业了
为大飞点赞,建议分析文章的时候加一些比喻,更容易理解。
好的,以前尝试加过,但是也有人反应比喻的不是很恰当,哈哈,众口难调我继续努力
难怪OpenAI会把下一个突破点选在数学和编程任务,因为这类任务造假数据比较容易,而且有标准答案,很容易做成reward做强化学习。这也能解释为什么后训练CPU密集,因为这类解题验证答案的任务只能CPU做,等于是把CPU的推理能力赋能给模型了。
CPU没有推理能力,验证器可以是LLM等model,数学很重要因为其有形式化的语言,并且跟推理能力强相关,其他的问题比如规划问题,这些问题重要因为目前LLM能力不足,用COT可以增强能力。现在所有的问题造数据和RL都不是问题。
ORM should stand for Outcome Reward Model, not Optimal Reward Model in the context.
赞高产👍
👍
Jetson Orin Nano Super发布了 中文媒体还没人讲 大飞赶快蹭热度啊
真是累啊,哈哈
老師所用詞匯,非普羅大衆能夠聽得懂的
Semianalysis的质量极高,相比国内的研报简直就是瞎扯淡
国内有高质量的研报????没见过
Thank you 大 飞 一口氣看到尾 看完再看 TRUMP WIN 🏆 🏆 🏆 ☘ 🍉 😄 🌺 🀄 😃 💐 ☕ 🌸 😁 🏵 😀 🧧 🎉 😇 💮 🌺 😎 🎊 🏮 🍀
第二✌