7:40 A는 theta와 관련 없다고 나오는데, 관련 있는 것 아닌가요? Value function은 정책을 따르기 때문에 관련이 있다고 생각합니다. 즉, 저는 저 식이 del(log pi(a|s)) * A 라고 생각하는데, 저 식이 del(log pi(a|s) * A) 라는 말씀이신가요?
안녕하세요 팡요랩의 강의를 들으며 강화학습을 이해하는데 많은 도움을 받고 있는 학생입니다! 강의를 들으며 궁금한 점이 있어 질문드립니다 ㅠㅠㅠㅠ 논문에 쓰여진 actor-critic style의 PPO알고리즘을 보면 기존 AC에 맨날 하던 TD-error를 이용하여 value function에 해당하는 뉴럴넷을 학습하는 부분은 아예 없더라구요 아마도 Advantage Function Estimation할 때에 learned state-value function을 사용한다고 나와있어서 그런것 같은데 이 말은 value function 뉴럴넷은 이미 충분히 학습되어있다고 가정을 한것인가요?? 직접 코드로 구현할 때에는 value function이 처음엔 학습되어있지 않아 엉터리 값을 출력할텐데 이것이 문제가 될것같아 혼란스러워 질문드립니다 ㅠㅠ 답변 부탁드려요!
github.com/seungeunrho/minimalRL/blob/master/ppo.py 요거 참조하시면 좋을거같아요! loss에 보면 기존에 td-error를 이용한 텀이 더해져 있습니다~~ value function의 error 텀도 반드시 같이 학습이 되어야 해요!
강화학습 처음 배우면서 기초이론 수업과 논문 리뷰 수업에서 많은 도움 받고 있습니다. 감사합니다.^^
7:40 A는 theta와 관련 없다고 나오는데, 관련 있는 것 아닌가요? Value function은 정책을 따르기 때문에 관련이 있다고 생각합니다. 즉, 저는 저 식이 del(log pi(a|s)) * A 라고 생각하는데, 저 식이 del(log pi(a|s) * A) 라는 말씀이신가요?
영상 항상 잘보고 있습니다! 다음 논문 리뷰 영상도 기다리겠습니다ㅠㅠㅠ
너무 듣고싶은 강의였는데 올려주셔서 감사합니다 :)
오랜만에 올리셨네요. 기다리고 있었습니다 :)
19:10 라그랑주 승수법(lagrangian relaxation, largrangian multiplier method)
항상 잘 보고 있어요!!!
좋은 영상 올려주셔서 감사합니다 ㅎㅎ
천천히 많이 설명하셔도 되어요 ㅠㅠㅠ ㅋㅋ
감사합니다~!!
이 다음 논문으로는 멀티에이전트 어떠신가요??ㅎㅎㅎ
오호.. 생각해보겠습니다!!
안녕하세요 팡요랩의 강의를 들으며 강화학습을 이해하는데 많은 도움을 받고 있는 학생입니다!
강의를 들으며 궁금한 점이 있어 질문드립니다 ㅠㅠㅠㅠ
논문에 쓰여진 actor-critic style의 PPO알고리즘을 보면 기존 AC에 맨날 하던 TD-error를 이용하여 value function에 해당하는 뉴럴넷을 학습하는 부분은 아예 없더라구요
아마도 Advantage Function Estimation할 때에 learned state-value function을 사용한다고 나와있어서 그런것 같은데 이 말은 value function 뉴럴넷은 이미 충분히 학습되어있다고 가정을 한것인가요??
직접 코드로 구현할 때에는 value function이 처음엔 학습되어있지 않아 엉터리 값을 출력할텐데 이것이 문제가 될것같아 혼란스러워 질문드립니다 ㅠㅠ 답변 부탁드려요!
github.com/seungeunrho/minimalRL/blob/master/ppo.py
요거 참조하시면 좋을거같아요!
loss에 보면 기존에 td-error를 이용한 텀이 더해져 있습니다~~
value function의 error 텀도 반드시 같이 학습이 되어야 해요!
@@pang-yolab2520 아 value자체가 loss에 있어서 전부 학습되는군요 답변 정말 감사합니다!
그러면 policy와 value가 파라미터를 공유하지 않아도 loss를 저런식으로 만들어서 학습하면 이상 없이 잘 동작하나요???
너무 잘보고 있습니다! 어서 돌아와주세요
혹시 patreon 같은거 하실 생각없으신가요 ㅠㅠ 논문 설명 영상을 더 볼수만 있다면 조금이라도 도움이 되고 싶습니다 ㅠㅠ
선생님 clipped surrogate objective에서 lower bound에 대해 부가적인 설명 부탁드려도 괜찮을까요?
2nd order이랑 first order method 차이점이 뭔가요 ㅠ?
대충 알듯말듯 하네요