RLCode와 A3C 쉽고 깊게 이해하기

Поделиться
HTML-код
  • Опубликовано: 17 янв 2025

Комментарии • 12

  • @kwang-jebaeg2460
    @kwang-jebaeg2460 6 лет назад

    학습자가 궁금한 내용을 추적하고 사고하는 그대로!!! 하나하나 짚어주시면서 설명해주십니다 정말 최고!! 감사합니다 ㅎㅎ

  • @usr-sdd-2ffv
    @usr-sdd-2ffv 2 года назад

    에 책을 구매하고 읽었었는데. 100% 이해 못한 부분도 있었는데.
    이번 영상을 보니 거의 다 이해가 되었습니다. 설명을 정말 잘 해 주셨네요.
    감사합니다. 👍👍

  • @youjjang153
    @youjjang153 6 лет назад

    강의를 통해 많은 이해가 되었습니다. 감사합니다.

  • @davidjung5276
    @davidjung5276 7 лет назад +1

    많은 도움이 되었습니다. 감사합니다

  • @karina_rocket_punch
    @karina_rocket_punch 6 лет назад

    pg를 이해하는 가장 좋은 강의인듯!! 감사합니다

  • @ukjoeee
    @ukjoeee 7 лет назад

    정말 쉽게 설명해주시네요~ 너무 감사합니다 x2

  • @jeongwookim217
    @jeongwookim217 6 лет назад

    엄청나게 유익하네요! 감사합니다

  • @songnaru
    @songnaru 7 лет назад

    너무 감사합니다

  • @Lflame
    @Lflame 6 лет назад +3

    39:55 ㅋㅋㅋㅋㅋ

  • @김수연-r8c
    @김수연-r8c 4 года назад

    안녕하세요. 좋은 강의 감사 드립니다.
    그런데, 50:24 에서 1. Actor의 loss function식은 policy gradient로 부터 유도된것 같은데, policy gradient가 왜 loss function이 되는지 문의 드립니다.
    2. critic 의 loss function은 nu로 미분되지 않은 형태인데, 1. actor의 loss function은 theta에 대한 미분식인지 궁금합니다..~

  • @ksong5589
    @ksong5589 5 лет назад

    엄청나네요

  • @gaspell
    @gaspell Год назад

    critic 학습시키는 건 Q learning 과 거의 같네요
    actor-critic은 거기에 actor라는 게 추가되는 거고
    근데 actor가 왜 필요한지 궁금하네요
    q learning에서는 가치함수만 학습하고 정책은 단순히 가치함수에서 argmax 고르는 걸로 이해했는데
    argmax를 actor로 바꾼 것에 의의가 있는 것일까요??