안녕하세요. 좋은 강의 감사 드립니다. 그런데, 50:24 에서 1. Actor의 loss function식은 policy gradient로 부터 유도된것 같은데, policy gradient가 왜 loss function이 되는지 문의 드립니다. 2. critic 의 loss function은 nu로 미분되지 않은 형태인데, 1. actor의 loss function은 theta에 대한 미분식인지 궁금합니다..~
critic 학습시키는 건 Q learning 과 거의 같네요 actor-critic은 거기에 actor라는 게 추가되는 거고 근데 actor가 왜 필요한지 궁금하네요 q learning에서는 가치함수만 학습하고 정책은 단순히 가치함수에서 argmax 고르는 걸로 이해했는데 argmax를 actor로 바꾼 것에 의의가 있는 것일까요??
학습자가 궁금한 내용을 추적하고 사고하는 그대로!!! 하나하나 짚어주시면서 설명해주십니다 정말 최고!! 감사합니다 ㅎㅎ
에 책을 구매하고 읽었었는데. 100% 이해 못한 부분도 있었는데.
이번 영상을 보니 거의 다 이해가 되었습니다. 설명을 정말 잘 해 주셨네요.
감사합니다. 👍👍
강의를 통해 많은 이해가 되었습니다. 감사합니다.
많은 도움이 되었습니다. 감사합니다
pg를 이해하는 가장 좋은 강의인듯!! 감사합니다
정말 쉽게 설명해주시네요~ 너무 감사합니다 x2
엄청나게 유익하네요! 감사합니다
너무 감사합니다
39:55 ㅋㅋㅋㅋㅋ
안녕하세요. 좋은 강의 감사 드립니다.
그런데, 50:24 에서 1. Actor의 loss function식은 policy gradient로 부터 유도된것 같은데, policy gradient가 왜 loss function이 되는지 문의 드립니다.
2. critic 의 loss function은 nu로 미분되지 않은 형태인데, 1. actor의 loss function은 theta에 대한 미분식인지 궁금합니다..~
엄청나네요
critic 학습시키는 건 Q learning 과 거의 같네요
actor-critic은 거기에 actor라는 게 추가되는 거고
근데 actor가 왜 필요한지 궁금하네요
q learning에서는 가치함수만 학습하고 정책은 단순히 가치함수에서 argmax 고르는 걸로 이해했는데
argmax를 actor로 바꾼 것에 의의가 있는 것일까요??