Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
先赞后看,养成习惯
在看到之前对于G'和V的公式的时候,感到困惑,既然V的求法是趋近于G',那么为什么二者相减所得到的A岂不是趋近于0了?直到看到了 23:41 才了解,V算的是多次迭代后的平均,而G'是一次迭代的数值。因此这里的意涵是说,「本次的G'相对于整体的平均表现而言,是好是坏?」
李老师是真神
请问一下, 就是在视频得 11:23 这个地方,谈到 V 得训练。但是这里得 rt 我理解应该是一个平均期望值。 而不应该是 某一个 action t 获得得具体得 rewardt , 但是平均期望值实际上又是和 Actor 得矩阵相关得。 这里请问理解是否正确,应该怎样处理?
讲的真好
请问18:51提到的有关无关是否可以这么理解“MC认为在个别data上Sa与Sb有关,a影响b;TD认为在个别data上Sa与Sb无关,但他们的期望是有关系的”?
为什么后面有两个网络分别计算critic和actor-value,这两个值不是一回事,都可以用来训练行为网络嘛?
没讲reward shaping啊!怎么中间断了一小段吗?(四)一上来就跳到了最后一段了。
15:32 哈哈,我脑子里写了3/4,根据两种V(S)的计算方法,可以是0(MC),也可以是3/4(TD)
不过也不能是3/4,应该是3/4 × γ, 如果 γ是1的话,3/4也算是对的
因为这里sample的数量太少了,如果有更多的sample量的话,我感觉两者之间的差距会越来越小
29:10 先看这页slide会更清楚点,前面听了好久不知道critic用在哪里
7/16 簽
不黑不吹,中文圈里能比prof lee讲的更好的基本没有,比中国那些prof讲的好太多了
如果李沐也算中文圈的话,也还不错~
严谨一点 他讲的也是中文,只能说中国内地讲的没他好呀。他也是中国的!
用大陸這個詞會好一點欸,尤其是作比較的時候
@@邓思超-o4f 这你得去问问他承不承认了。。。
英文的讲的这么好的也是凤毛麟角
所以 MC 和 TD 各有优劣
那sparse的reward怎么办呢,rt基本都是0
就只能用馬可夫練MC計算了吧
当所有同学都回答是0的时候,李老师会不会有点伤心😢
那是直覺式回答吧 我們人類習慣性問題
先赞后看,养成习惯
在看到之前对于G'和V的公式的时候,感到困惑,既然V的求法是趋近于G',那么为什么二者相减所得到的A岂不是趋近于0了?直到看到了 23:41 才了解,V算的是多次迭代后的平均,而G'是一次迭代的数值。因此这里的意涵是说,「本次的G'相对于整体的平均表现而言,是好是坏?」
李老师是真神
请问一下, 就是在视频得 11:23 这个地方,谈到 V 得训练。但是这里得 rt 我理解应该是一个平均期望值。 而不应该是 某一个 action t 获得得具体得 rewardt , 但是平均期望值实际上又是和 Actor 得矩阵相关得。 这里请问理解是否正确,应该怎样处理?
讲的真好
请问18:51提到的有关无关是否可以这么理解“MC认为在个别data上Sa与Sb有关,a影响b;TD认为在个别data上Sa与Sb无关,但他们的期望是有关系的”?
为什么后面有两个网络分别计算critic和actor-value,这两个值不是一回事,都可以用来训练行为网络嘛?
没讲reward shaping啊!怎么中间断了一小段吗?(四)一上来就跳到了最后一段了。
15:32 哈哈,我脑子里写了3/4,根据两种V(S)的计算方法,可以是0(MC),也可以是3/4(TD)
不过也不能是3/4,应该是3/4 × γ, 如果 γ是1的话,3/4也算是对的
因为这里sample的数量太少了,如果有更多的sample量的话,我感觉两者之间的差距会越来越小
29:10 先看这页slide会更清楚点,前面听了好久不知道critic用在哪里
7/16 簽
不黑不吹,中文圈里能比prof lee讲的更好的基本没有,比中国那些prof讲的好太多了
如果李沐也算中文圈的话,也还不错~
严谨一点 他讲的也是中文,只能说中国内地讲的没他好呀。他也是中国的!
用大陸這個詞會好一點欸,尤其是作比較的時候
@@邓思超-o4f 这你得去问问他承不承认了。。。
英文的讲的这么好的也是凤毛麟角
所以 MC 和 TD 各有优劣
那sparse的reward怎么办呢,rt基本都是0
就只能用馬可夫練MC計算了吧
当所有同学都回答是0的时候,李老师会不会有点伤心😢
那是直覺式回答吧 我們人類習慣性問題