[쉽게읽는 강화학습 논문 6화] PPO 논문 리뷰

Поделиться
HTML-код
  • Опубликовано: 29 дек 2024

Комментарии • 17

  • @yubii02
    @yubii02 Год назад +2

    강화학습 처음 배우면서 기초이론 수업과 논문 리뷰 수업에서 많은 도움 받고 있습니다. 감사합니다.^^

  • @memilmarkoux1222
    @memilmarkoux1222 Год назад

    7:40 A는 theta와 관련 없다고 나오는데, 관련 있는 것 아닌가요? Value function은 정책을 따르기 때문에 관련이 있다고 생각합니다. 즉, 저는 저 식이 del(log pi(a|s)) * A 라고 생각하는데, 저 식이 del(log pi(a|s) * A) 라는 말씀이신가요?

  • @양갱-z5v
    @양갱-z5v 5 лет назад +2

    영상 항상 잘보고 있습니다! 다음 논문 리뷰 영상도 기다리겠습니다ㅠㅠㅠ

  • @myeongjunkim3501
    @myeongjunkim3501 5 лет назад +2

    너무 듣고싶은 강의였는데 올려주셔서 감사합니다 :)

  • @youndukn
    @youndukn 5 лет назад

    오랜만에 올리셨네요. 기다리고 있었습니다 :)

  • @eruly4287
    @eruly4287 4 года назад +2

    19:10 라그랑주 승수법(lagrangian relaxation, largrangian multiplier method)

  • @vincent3534
    @vincent3534 5 лет назад

    항상 잘 보고 있어요!!!
    좋은 영상 올려주셔서 감사합니다 ㅎㅎ
    천천히 많이 설명하셔도 되어요 ㅠㅠㅠ ㅋㅋ

  • @juntae3756
    @juntae3756 5 лет назад +1

    감사합니다~!!
    이 다음 논문으로는 멀티에이전트 어떠신가요??ㅎㅎㅎ

  • @hyeonchuljung8883
    @hyeonchuljung8883 5 лет назад +3

    안녕하세요 팡요랩의 강의를 들으며 강화학습을 이해하는데 많은 도움을 받고 있는 학생입니다!
    강의를 들으며 궁금한 점이 있어 질문드립니다 ㅠㅠㅠㅠ
    논문에 쓰여진 actor-critic style의 PPO알고리즘을 보면 기존 AC에 맨날 하던 TD-error를 이용하여 value function에 해당하는 뉴럴넷을 학습하는 부분은 아예 없더라구요
    아마도 Advantage Function Estimation할 때에 learned state-value function을 사용한다고 나와있어서 그런것 같은데 이 말은 value function 뉴럴넷은 이미 충분히 학습되어있다고 가정을 한것인가요??
    직접 코드로 구현할 때에는 value function이 처음엔 학습되어있지 않아 엉터리 값을 출력할텐데 이것이 문제가 될것같아 혼란스러워 질문드립니다 ㅠㅠ 답변 부탁드려요!

    • @pang-yolab2520
      @pang-yolab2520  5 лет назад

      github.com/seungeunrho/minimalRL/blob/master/ppo.py
      요거 참조하시면 좋을거같아요!
      loss에 보면 기존에 td-error를 이용한 텀이 더해져 있습니다~~
      value function의 error 텀도 반드시 같이 학습이 되어야 해요!

    • @hyeonchuljung8883
      @hyeonchuljung8883 5 лет назад

      @@pang-yolab2520 아 value자체가 loss에 있어서 전부 학습되는군요 답변 정말 감사합니다!
      그러면 policy와 value가 파라미터를 공유하지 않아도 loss를 저런식으로 만들어서 학습하면 이상 없이 잘 동작하나요???

  • @HangyeolKim-b3m
    @HangyeolKim-b3m 4 года назад

    너무 잘보고 있습니다! 어서 돌아와주세요

  • @멜리사-j3w
    @멜리사-j3w 4 года назад

    혹시 patreon 같은거 하실 생각없으신가요 ㅠㅠ 논문 설명 영상을 더 볼수만 있다면 조금이라도 도움이 되고 싶습니다 ㅠㅠ

  • @Jay-z2l4e
    @Jay-z2l4e 4 года назад

    선생님 clipped surrogate objective에서 lower bound에 대해 부가적인 설명 부탁드려도 괜찮을까요?

  • @MonkeyCantClap
    @MonkeyCantClap 3 года назад

    2nd order이랑 first order method 차이점이 뭔가요 ㅠ?

  • @남노성민
    @남노성민 4 года назад

    대충 알듯말듯 하네요