[강화학습 7강] Policy Gradient
HTML-код
- Опубликовано: 1 янв 2025
- 슬라이드 : www0.cs.ucl.ac....
드디어 가장 중요한 7강을 업로드 했습니다.
편집이 늦어져서 죄송합니다ㅠ.ㅠ
7강은 분량도 꽤 많네요ㅎㅎ 재미있게 봐주시면 감사하겠습니다.
개발자, AI 관련 유익한 정보를 꾸준히 올리겠습니다.
구독과 좋아요 부탁드립니다.
------------------------------
본 강의는 인프런에서도 무료로 수강하실 수 있습니다.
바로가기: www.inflearn.c...
1~7강까지 2번정도 메모하면서 들으니까 이제야 이해가 될랑말랑하네요.ㅎㅎ 좋은 강의 감사드립니다~~
34:23 에서J의 gradient를 구하는 방법중 가장 원시적인 방법 슬라이드에서 마지막 줄에 policy가 미분 불가능할때도 쓰인다고 했는데, J를 미분하는거랑 policy를 미분하는거랑 같은거에요? J가 미분불가능할때도 가능하다로 하면 이해는 가는데, policy가 미분불가일때도 된다고 해서..
policy의 세타에 입실론값을 더해주면 되니까 가능한것같네요. J가 미분 불가능할때도 가능한 이유는 J를 미분하지 않기 때문이고, 같은 이유로 policy도 미분할 필요가 없이 입실론값만 더해주면 된다는 뜻이라고 이해했어요. J는 J의 미분 대신 근사값을 취하고 동시에 policy는 그에 대응하는 변화값인 입실론만큼 변하겠죠?
😘정말 빡세게 다 수강했습니다. 정말 개념 잡기 힘들었는데 많은 도움 되었네요. 이제 실버 강의와 수튼 교재에 도전할 준비가 된듯하네요.
감사합니다~~실버 강의 들으시다가 궁금한거 생기시면 또 댓글 남겨 주세요 화이팅!!
실버 강의가 7강은 슬라이드만 나와서 그런지 너무 힘들었는데
정말 다행이네요.ㅜㅜ
두분 분명 복 많이 받으실꺼에요
실버 선생님 손동작이 참 명품이시죠.. 부족한 저희 영상이 도움이 되었다니 기쁘네요!
2일동안 1강부터 7강을 들어봤습니다... 빡새게 들었는데... 정말 잘 듣고 있습니다... 감사합니다^*
대단하네요 ㄷㄷ
1강부터 7강까지 정말 잘 들었어요! 좋은 강의 감사합니다.
정말 좋은 강의입니다. 감사합니다.^^
전체 10개 강의를 반복해서 듣고 있는데 들을수록 잘만든 강의네요. 감사합니다. 출근하다 본 적이 있는데 컨퍼런스에서 만나게 되면 이야기 나누고 싶네요
따듯한 말씀 감사합니다 ㅠㅠ
would love the hear the conversation in English.
좋은강의네요~! 잘보고갑니다
2번이상 들으니까 85%이상 이해가 갑니다 :) 이해하고 보니 정말 감사하고 좋은 강의였습니다! 감사합니다.
재밌어요 잘가르치시는 것 같아요!! 앞으로도 좋은 강의 부탁드립니다.
제가 머리가 나빠서 Policy Gradient 이해하기가 힘들었는데, 이거보고 한번에 이해했습니다. 정말 좋은 강의 감사합니다!!
정말 좋은 강의 입니다. 더 많은 영상 기다리겠습니다!ㅎㅎ
좋은영상 감사합니다
잘 들었습니다 ~!!
1:25:46 원래 loss 함수의 gradient = E [ gradient(log pi(s,a)* advatange) ] 였는데 E[td-error] =advantage 여서 advantage 자리를 td-error로 대체한다는 말씀이시죠?? expectation안에 expectation이 들어가게 되는 것 같은데 재밌네요 ㅎ. 직관적으로는 맞는데 수학적으로도 이게 허용이 된다니 !
맞습니다!!
존경합니다
56:55
" for t=1 to T-1 do
쎄타
36:40 에 나오는 가정에서 폴리시 파이는 differentiable 하다 했는데, 이 이유가 폴리시 파이가 뉴럴넷 이라서 그런가요? J(theta) 가 뉴럴넷으로 되서 J(theta) 에 관한 gradient 는 구할수 있는건 이해가 갑니다. 폴리시 파이는 미분가능한 함수 인지 어떻게 알수있나요?
맞습니다. 파이는 구현하는 사람이 직접 정해주는것이기 때문에 그냥 미분 가능한 함수를 가져다 쓰면 되고, 뉴럴넷이 대표적인 예시일 것 같습니다.
Reducing variance using a baseline 슬라이드에서 Advantage 가 쓰이는게 Asynchronous advantage actor critic 에서 본거같은데 A3C 에서 쓰이는 advantage 와 같은 의미로 쓰인건가요??
네 정확히 같은 의미로 쓰인 것입니다~
actor 의 loss 함수가 결국 보상합에서 출발한거니까, loss 함수를 그냥 Q값으로 하면 안될까요? 실제로 DPG 에서는 이렇게 하는 거 같고 저렇게 log_prob 를 통해 gradient 뽑느거보다 직관적이여서요! (actor 의 loss 를 critic 의 value 로 설정하는 실험해봤는데 ddpg 처럼 target 네트워크를 따로 주지 않아서 그런지 학습이 매우 천천히 되는 것처럼 보이긴 하는데 보상 널뛰기가 너무 심하네요.. 안된다고 보는게 맞겠습니다 )
DPG 논문을 보고 왔습니다. 결론적으로, 재한된 상황에서 loss 를 그냥 Q값으로 해도 되네요! 제한된 상황이란 건 뉴럴넷의 action이 1개인 deterministic 한 경우이고 이를 deterministic policy gradient 고, stochastic policy gradient 의 특수한 경우인 것이네요~ 실험시 잘 안됐던 이유는 action 이 1개여야 하는데 여러개였어야 하기 떄문인 것 같아요
안녕하세요! 강의 잘들었습니다!!
질문이 있는데요!
action-value actor-critic 수도코드 부분에서 TD error 구하는 부분에서도 parameter w를 old parameter(w-)와 parameter(w)로 나누는 건가요?
안녕하세요! 음.. 영상에서 w와 w-로 나눈다는 이야기는 한 적 없었던 것 같은데, 혹시 dqn 에서 쓰이는 기법이 여기서도 쓰이나 궁금해서 물어보시는건가요??
@@pang-yolab2520 넵넵!! 혹시 나눠서 쓰는지 궁금해서 질문한거였어요!ㅋㅋ
Why youtube suddenly decided to recommend me David Silver's slides explained in chinese?
In which language is he talking? Anyone can help?
@@이화종-t8v
Just out of curiousity, is your CS education in mainly in Korean, or in English? I'm from Czech Republic and most of our courses are taught both in Czech and in English. Some professors are lazy to give bi-lingual lectures and they teach only in English.