Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
哇好开心有人带着读研究报告
目前是我看過最好的解釋deep-seek 功能的人
谢谢
以推理模型( OpenAI o1及 DeepSeek R1) 需要思考链(CoT) 的阐述内容,常理上使用监督学习(注重每一个步骤细节的掌控)作为训练较为合理完整,而DeepSeek使用的强化学习(只注重目标结果的奖励)训练效果却与监督学习相当,请问你觉得为什么会这样呢? 目前这个效果在DeepSeek R1是呈现了,可以较直观合理化解释其中的道理吗?
不要苛坷别人的讲话语气,能够说清问题就好,我觉的逻辑过程说的很清晰,算法过程需要大四以上才能理解。
感谢您的建议
20:30 on policy 和 off policy的特点是不是写反了?
感谢分享
想請問主播有聽說過 北京通用人工智能研究院嗎 如何評價 感謝🫰
听过,国家 4 大 AI 研究院之一
神速
这“奖励”听到我好苦😂
为什么呀
大哥,讲话就好好讲,不要搞一堆奇怪的语气,很萌吗??好好讲话,好好讲解不行?一个好好的研究报告,被讲解成这样
例如哪里?
我觉得人家讲的挺生动的😂
这不讲的挺好的吗?可能别人说话的音色就是这样,为啥不关注内容。不喜欢听的话可以划走。。非要留评找存在感
這博主說話陰陽怪氣的
Этот блоггер странно разговаривает
哇好开心有人带着读研究报告
目前是我看過最好的解釋deep-seek 功能的人
谢谢
以推理模型( OpenAI o1及 DeepSeek R1) 需要思考链(CoT) 的阐述内容,常理上使用监督学习(注重每一个步骤细节的掌控)作为训练较为合理完整,而DeepSeek使用的强化学习(只注重目标结果的奖励)训练效果却与监督学习相当,请问你觉得为什么会这样呢? 目前这个效果在DeepSeek R1是呈现了,可以较直观合理化解释其中的道理吗?
不要苛坷别人的讲话语气,能够说清问题就好,我觉的逻辑过程说的很清晰,算法过程需要大四以上才能理解。
感谢您的建议
20:30 on policy 和 off policy的特点是不是写反了?
感谢分享
谢谢
想請問主播有聽說過 北京通用人工智能研究院嗎 如何評價 感謝🫰
听过,国家 4 大 AI 研究院之一
神速
这“奖励”听到我好苦😂
为什么呀
大哥,讲话就好好讲,不要搞一堆奇怪的语气,很萌吗??好好讲话,好好讲解不行?一个好好的研究报告,被讲解成这样
例如哪里?
我觉得人家讲的挺生动的😂
这不讲的挺好的吗?可能别人说话的音色就是这样,为啥不关注内容。不喜欢听的话可以划走。。非要留评找存在感
這博主說話陰陽怪氣的
Этот блоггер странно разговаривает