【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (四) - 回饋非常罕見的時候怎麼辦？機器的望梅止渴

【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (二) - Policy Gradient 與修課心情

【機器學習2021】機器終身學習 (Life Long Learning, LL) (一) - 為什麼今日的人工智慧無法成為天網？災難性遺忘(Catastrophic Forgetting)

'최초 공개' 제니 (JENNIE) - Mantra #엠카운트다운 EP.867 | Mnet 241017 방송

Chino Pacas - Smith (ft. Junior H & Fuerza Regida) [Video Visualizador Oficial]

【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (三) - Actor-Critic

Hung-yi Lee

Просмотров 40 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 19 окт 2024

Комментарии • 24

@JinzhuWANG 3 года назад ⁺¹²
先赞后看，养成习惯
@TaoWang1 3 месяца назад
在看到之前对于G'和V的公式的时候，感到困惑，既然V的求法是趋近于G'，那么为什么二者相减所得到的A岂不是趋近于0了？直到看到了 23:41 才了解，V算的是多次迭代后的平均，而G'是一次迭代的数值。因此这里的意涵是说，「本次的G'相对于整体的平均表现而言，是好是坏？」
@XingSui-hy7fc 4 месяца назад
李老师是真神
@weiliu-c2l Год назад
请问一下，就是在视频得 11:23 这个地方，谈到 V 得训练。但是这里得 rt 我理解应该是一个平均期望值。而不应该是某一个 action t 获得得具体得 rewardt ，但是平均期望值实际上又是和 Actor 得矩阵相关得。这里请问理解是否正确，应该怎样处理?
@yhwang366 3 года назад ⁺⁴
讲的真好
@canovon6991 2 года назад
请问18:51提到的有关无关是否可以这么理解“MC认为在个别data上Sa与Sb有关，a影响b；TD认为在个别data上Sa与Sb无关，但他们的期望是有关系的”？
@当当下 2 года назад
为什么后面有两个网络分别计算critic和actor-value，这两个值不是一回事，都可以用来训练行为网络嘛？
@zhongzhongclock 3 года назад
没讲reward shaping啊！怎么中间断了一小段吗？（四）一上来就跳到了最后一段了。
@zhongzhongclock 3 года назад ⁺¹
15:32 哈哈，我脑子里写了3/4，根据两种V(S)的计算方法，可以是0(MC),也可以是3/4(TD)
@zhongzhongclock 3 года назад
不过也不能是3/4，应该是3/4 × γ, 如果 γ是1的话，3/4也算是对的
@yanzhuang1147 3 года назад
因为这里sample的数量太少了，如果有更多的sample量的话，我感觉两者之间的差距会越来越小
@rexzhang15 2 года назад
29:10 先看这页slide会更清楚点，前面听了好久不知道critic用在哪里
@客家饒舌執牛耳 3 года назад ⁺¹
7/16 簽
@sgeusveuev7691 2 года назад ⁺⁷
不黑不吹，中文圈里能比prof lee讲的更好的基本没有，比中国那些prof讲的好太多了
@chestnutlee3665 2 года назад
如果李沐也算中文圈的话，也还不错~
@邓思超-o4f Год назад
严谨一点他讲的也是中文，只能说中国内地讲的没他好呀。他也是中国的！
@wangbing-pk9ty Год назад
用大陸這個詞會好一點欸，尤其是作比較的時候
@atlrytusername Год назад
@@邓思超-o4f 这你得去问问他承不承认了。。。
@superyoungchaos Год назад
英文的讲的这么好的也是凤毛麟角
@bitvision-lg9cl Год назад
所以 MC 和 TD 各有优劣
@difeitang1823 2 года назад
那sparse的reward怎么办呢，rt基本都是0
@張哲銘-k5v 2 года назад
就只能用馬可夫練MC計算了吧
@sq9340 3 года назад
当所有同学都回答是0的时候，李老师会不会有点伤心😢
@bennybenbenw Год назад ⁺²
那是直覺式回答吧我們人類習慣性問題

Следующие

Автовоспроизведение

【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (四) - 回饋非常罕見的時候怎麼辦？機器的望梅止渴

【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (四) - 回饋非常罕見的時候怎麼辦？機器的望梅止渴

【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (二) - Policy Gradient 與修課心情

【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (二) – Policy Gradient 與修課心情

【機器學習2021】機器終身學習 (Life Long Learning, LL) (一) - 為什麼今日的人工智慧無法成為天網？災難性遺忘(Catastrophic Forgetting)

【機器學習2021】機器終身學習 (Life Long Learning, LL) (一) - 為什麼今日的人工智慧無法成為天網？災難性遺忘(Catastrophic Forgetting)

'최초 공개' 제니 (JENNIE) - Mantra #엠카운트다운 EP.867 | Mnet 241017 방송

'최초 공개' 제니 (JENNIE) - Mantra #엠카운트다운 EP.867 | Mnet 241017 방송

Chino Pacas - Smith (ft. Junior H & Fuerza Regida) [Video Visualizador Oficial]

Chino Pacas - Smith (ft. Junior H & Fuerza Regida) [Video Visualizador Oficial]

MP3 CDs: a hybrid "format" that never existed, yet was surprisingly common

MP3 CDs: a hybrid "format" that never existed, yet was surprisingly common

【機器學習2022】開學囉~ 又要週更了~

【機器學習2022】開學囉~ 又要週更了~

【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (五) - 如何從示範中學習？逆向增強式學習 (Inverse RL)

【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (五) - 如何從示範中學習？逆向增強式學習 (Inverse RL)

Reinforcement Learning, by the Book

Reinforcement Learning, by the Book

【機器學習2021】神經網路壓縮 (Network Compression) (二) - 從各種不同的面向來壓縮神經網路

【機器學習2021】神經網路壓縮 (Network Compression) (二) - 從各種不同的面向來壓縮神經網路

【生成式AI導論 2024】第6講：大型語言模型修練史 - 第一階段: 自我學習，累積實力 (熟悉機器學習的同學從 15:00 開始看起即可)

【生成式AI導論 2024】第6講：大型語言模型修練史 — 第一階段: 自我學習，累積實力 (熟悉機器學習的同學從 15:00 開始看起即可)

【機器學習2021】機器終身學習 (Life Long Learning, LL) (二) - 災難性遺忘(Catastrophic Forgetting)的克服之道

【機器學習2021】機器終身學習 (Life Long Learning, LL) (二) - 災難性遺忘(Catastrophic Forgetting)的克服之道

How Stable Diffusion Works (AI Image Generation)

How Stable Diffusion Works (AI Image Generation)

【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (一) - 增強式學習跟機器學習一樣都是三個步驟

【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (一) – 增強式學習跟機器學習一樣都是三個步驟

Harvard Professor Explains Algorithms in 5 Levels of Difficulty | WIRED

Harvard Professor Explains Algorithms in 5 Levels of Difficulty | WIRED

Бывшая Кахи #непосредственнокаха

Бывшая Кахи #непосредственнокаха

10 FREE DEAD BOXES?! #deadgame

10 FREE DEAD BOXES?! #deadgame

КАМИЛЬ ПОПАЛ В ТЮРЬМУ 😨 РАЗБИЛИ СТЕКЛО ТАЧКИ АМИНА ПОДРУЖИЛАСЬ С КВАДРОБЕРОМ ?

КАМИЛЬ ПОПАЛ В ТЮРЬМУ 😨 РАЗБИЛИ СТЕКЛО ТАЧКИ АМИНА ПОДРУЖИЛАСЬ С КВАДРОБЕРОМ ?

ИСКАЛИ НЕМЦА ЗА СОТКУ А НАШЛИ ИРАНСКУЮ "БОМБУ" !!!!!

ИСКАЛИ НЕМЦА ЗА СОТКУ А НАШЛИ ИРАНСКУЮ "БОМБУ" !!!!!

Саша Сулим: «Психиатрическая лечебница спасла девочку от пути маньяка»

Саша Сулим: «Психиатрическая лечебница спасла девочку от пути маньяка»

Почему не стираются ваши татуировки?

Почему не стираются ваши татуировки?

У него не было ни ДОМА, ни ДЕНЕГ, ни ЕДЫ. Но у него БЫЛА МЕЧТА😢😢😢 #shorts

У него не было ни ДОМА, ни ДЕНЕГ, ни ЕДЫ. Но у него БЫЛА МЕЧТА😢😢😢 #shorts

Арестович: Куда ведет план победы? @A.Shelest

Арестович: Куда ведет план победы? @A.Shelest