【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (三) - Actor-Critic

Поделиться
HTML-код
  • Опубликовано: 19 окт 2024

Комментарии • 24

  • @JinzhuWANG
    @JinzhuWANG 3 года назад +12

    先赞后看,养成习惯

  • @TaoWang1
    @TaoWang1 3 месяца назад

    在看到之前对于G'和V的公式的时候,感到困惑,既然V的求法是趋近于G',那么为什么二者相减所得到的A岂不是趋近于0了?直到看到了 23:41 才了解,V算的是多次迭代后的平均,而G'是一次迭代的数值。因此这里的意涵是说,「本次的G'相对于整体的平均表现而言,是好是坏?」

  • @XingSui-hy7fc
    @XingSui-hy7fc 4 месяца назад

    李老师是真神

  • @weiliu-c2l
    @weiliu-c2l Год назад

    请问一下, 就是在视频得 11:23 这个地方,谈到 V 得训练。但是这里得 rt 我理解应该是一个平均期望值。 而不应该是 某一个 action t 获得得具体得 rewardt , 但是平均期望值实际上又是和 Actor 得矩阵相关得。 这里请问理解是否正确,应该怎样处理?

  • @yhwang366
    @yhwang366 3 года назад +4

    讲的真好

  • @canovon6991
    @canovon6991 2 года назад

    请问18:51提到的有关无关是否可以这么理解“MC认为在个别data上Sa与Sb有关,a影响b;TD认为在个别data上Sa与Sb无关,但他们的期望是有关系的”?

  • @当当下
    @当当下 2 года назад

    为什么后面有两个网络分别计算critic和actor-value,这两个值不是一回事,都可以用来训练行为网络嘛?

  • @zhongzhongclock
    @zhongzhongclock 3 года назад

    没讲reward shaping啊!怎么中间断了一小段吗?(四)一上来就跳到了最后一段了。

  • @zhongzhongclock
    @zhongzhongclock 3 года назад +1

    15:32 哈哈,我脑子里写了3/4,根据两种V(S)的计算方法,可以是0(MC),也可以是3/4(TD)

    • @zhongzhongclock
      @zhongzhongclock 3 года назад

      不过也不能是3/4,应该是3/4 × γ, 如果 γ是1的话,3/4也算是对的

    • @yanzhuang1147
      @yanzhuang1147 3 года назад

      因为这里sample的数量太少了,如果有更多的sample量的话,我感觉两者之间的差距会越来越小

  • @rexzhang15
    @rexzhang15 2 года назад

    29:10 先看这页slide会更清楚点,前面听了好久不知道critic用在哪里

  • @客家饒舌執牛耳
    @客家饒舌執牛耳 3 года назад +1

    7/16 簽

  • @sgeusveuev7691
    @sgeusveuev7691 2 года назад +7

    不黑不吹,中文圈里能比prof lee讲的更好的基本没有,比中国那些prof讲的好太多了

    • @chestnutlee3665
      @chestnutlee3665 2 года назад

      如果李沐也算中文圈的话,也还不错~

    • @邓思超-o4f
      @邓思超-o4f Год назад

      严谨一点 他讲的也是中文,只能说中国内地讲的没他好呀。他也是中国的!

    • @wangbing-pk9ty
      @wangbing-pk9ty Год назад

      用大陸這個詞會好一點欸,尤其是作比較的時候

    • @atlrytusername
      @atlrytusername Год назад

      @@邓思超-o4f 这你得去问问他承不承认了。。。

    • @superyoungchaos
      @superyoungchaos Год назад

      英文的讲的这么好的也是凤毛麟角

  • @bitvision-lg9cl
    @bitvision-lg9cl Год назад

    所以 MC 和 TD 各有优劣

  • @difeitang1823
    @difeitang1823 2 года назад

    那sparse的reward怎么办呢,rt基本都是0

    • @張哲銘-k5v
      @張哲銘-k5v 2 года назад

      就只能用馬可夫練MC計算了吧

  • @sq9340
    @sq9340 3 года назад

    当所有同学都回答是0的时候,李老师会不会有点伤心😢

    • @bennybenbenw
      @bennybenbenw Год назад +2

      那是直覺式回答吧 我們人類習慣性問題