深度解读“强化微调”,o1 模型训练的关键|02/12 days of openai

Поделиться
HTML-код
  • Опубликовано: 21 дек 2024

Комментарии • 8

  • @wanyuzhu3844
    @wanyuzhu3844 11 дней назад +1

    GPT 学习的高质量素材!学完《费曼学习法》,再来学习这个视频集。陈老师在《费曼学习法》中对于 GPT 概念的讲解很容易让普通人也能理解。比如 transformer 这个概念,我自己学的时候, 我不可能把这个概念和“人类是如何理解语言“”的放在一起对比,因为我不具备这方面的知识体系。没有合适的打比方和举例子,这些抽象概念就会越学越抽象😂但是老师这样一讲就好理解了,对于大语言模型、神经网络这些概念也不会这么畏惧了。

  • @shuyi-n7j
    @shuyi-n7j 11 дней назад +1

    AI从人类神经网络起源,从GPT到O1越来越感觉到机器呈指数级的升级,人类能从机器的发展原理中学到什么呢?正如陈老师所说,o1模型的训练对学习、对家庭教育有很大的启示,1.海量阅读是基础,2.少而精的刻意训练和反馈,3.父母给孩子的正反馈都是每一次给孩子的强化训练,4.不浪费精力在无效的题海战术里。机器原理源于人类,人类从机器中受到启发,这才是人类与机器的完美共生啊😄~

  • @m.m8994
    @m.m8994 8 дней назад

    如果限定到了特定的领域,基于过往预训+SFT的模型储备的知识或许确实可以在某个特定领域表现出比较好的泛化能力,但RFT好像也需要一个类似奖励模型的评分器,这个评分器直接影响RFT的效果,依照视频博主的翻译的例子来说,评分器就是其老婆。但问题是将来OPENAI开放RFT后,他们如何能贴合各种不同领域的使用者来提供各自擅长能力的评分器呢。

    • @howieserious
      @howieserious  5 дней назад

      这个期货也得等明年才发。估计到时候大家对强化微调会有更多更深入的认识。

  • @anan-m9e6l
    @anan-m9e6l 2 дня назад

    听完之后,收益良多,有个小小的疑问,听下来强化微调跟RLHF没什么区别,都是对大模型的输入给出一个分数,那为什么还要分为这两种

    • @howieserious
      @howieserious  День назад

      RLHF 不算“真正的”强化学习,因为评判标准是人为的。o1 模型在后训练阶段,用上了真正的强化学习,和 AlphaGo 类似的那种。