[쉽게읽는 강화학습 논문 7] 알파 스타 논문리뷰

[쉽게 읽는 강화학습 논문] 알파고 논문리뷰 1편

RLCode와 A3C 쉽고 깊게 이해하기

Trying EVERY Fast Food Holiday Item!

Demetrious Johnson Trains w/ KHABIB & ISLAM MAKHACHEV! | EXCLUSIVE FOOTAGE!

I Ruined an Entire City With Unrelenting 100% Insanity - Highway Police Simulator

[쉽게읽는 강화학습 논문 6화] PPO 논문 리뷰

팡요랩 Pang-Yo Lab

Просмотров 14 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 29 дек 2024

Комментарии • 17

@yubii02 Год назад ⁺²
강화학습 처음 배우면서 기초이론 수업과 논문 리뷰 수업에서 많은 도움 받고 있습니다. 감사합니다.^^
@memilmarkoux1222 Год назад
7:40 A는 theta와 관련 없다고 나오는데, 관련 있는 것 아닌가요? Value function은 정책을 따르기 때문에 관련이 있다고 생각합니다. 즉, 저는 저 식이 del(log pi(a|s)) * A 라고 생각하는데, 저 식이 del(log pi(a|s) * A) 라는 말씀이신가요?
@양갱-z5v 5 лет назад ⁺²
영상 항상 잘보고 있습니다! 다음 논문 리뷰 영상도 기다리겠습니다ㅠㅠㅠ
@myeongjunkim3501 5 лет назад ⁺²
너무 듣고싶은 강의였는데 올려주셔서 감사합니다 :)
@youndukn 5 лет назад
오랜만에 올리셨네요. 기다리고 있었습니다 :)
@eruly4287 4 года назад ⁺²
19:10 라그랑주 승수법(lagrangian relaxation, largrangian multiplier method)
@vincent3534 5 лет назад
항상 잘 보고 있어요!!!
좋은 영상 올려주셔서 감사합니다 ㅎㅎ
천천히 많이 설명하셔도 되어요 ㅠㅠㅠ ㅋㅋ
@juntae3756 5 лет назад ⁺¹
감사합니다~!!
이 다음 논문으로는 멀티에이전트 어떠신가요??ㅎㅎㅎ
@pang-yolab2520 5 лет назад
오호.. 생각해보겠습니다!!
@hyeonchuljung8883 5 лет назад ⁺³
안녕하세요 팡요랩의 강의를 들으며 강화학습을 이해하는데 많은 도움을 받고 있는 학생입니다!
강의를 들으며 궁금한 점이 있어 질문드립니다 ㅠㅠㅠㅠ
논문에 쓰여진 actor-critic style의 PPO알고리즘을 보면 기존 AC에 맨날 하던 TD-error를 이용하여 value function에 해당하는 뉴럴넷을 학습하는 부분은 아예 없더라구요
아마도 Advantage Function Estimation할 때에 learned state-value function을 사용한다고 나와있어서 그런것 같은데 이 말은 value function 뉴럴넷은 이미 충분히 학습되어있다고 가정을 한것인가요??
직접 코드로 구현할 때에는 value function이 처음엔 학습되어있지 않아 엉터리 값을 출력할텐데 이것이 문제가 될것같아 혼란스러워 질문드립니다 ㅠㅠ 답변 부탁드려요!
@pang-yolab2520 5 лет назад
github.com/seungeunrho/minimalRL/blob/master/ppo.py
요거 참조하시면 좋을거같아요!
loss에 보면 기존에 td-error를 이용한 텀이 더해져 있습니다~~
value function의 error 텀도 반드시 같이 학습이 되어야 해요!
@hyeonchuljung8883 5 лет назад
@@pang-yolab2520 아 value자체가 loss에 있어서 전부 학습되는군요 답변 정말 감사합니다!
그러면 policy와 value가 파라미터를 공유하지 않아도 loss를 저런식으로 만들어서 학습하면 이상 없이 잘 동작하나요???
@HangyeolKim-b3m 4 года назад
너무 잘보고 있습니다! 어서 돌아와주세요
@멜리사-j3w 4 года назад
혹시 patreon 같은거 하실 생각없으신가요 ㅠㅠ 논문 설명 영상을 더 볼수만 있다면 조금이라도 도움이 되고 싶습니다 ㅠㅠ
@Jay-z2l4e 4 года назад
선생님 clipped surrogate objective에서 lower bound에 대해 부가적인 설명 부탁드려도 괜찮을까요?
@MonkeyCantClap 3 года назад
2nd order이랑 first order method 차이점이 뭔가요 ㅠ?
@남노성민 4 года назад
대충 알듯말듯 하네요

Следующие

Автовоспроизведение

[쉽게읽는 강화학습 논문 7] 알파 스타 논문리뷰

[쉽게읽는 강화학습 논문 7] 알파 스타 논문리뷰

[쉽게 읽는 강화학습 논문] 알파고 논문리뷰 1편

[쉽게 읽는 강화학습 논문] 알파고 논문리뷰 1편

RLCode와 A3C 쉽고 깊게 이해하기

RLCode와 A3C 쉽고 깊게 이해하기

Trying EVERY Fast Food Holiday Item!

Trying EVERY Fast Food Holiday Item!

Demetrious Johnson Trains w/ KHABIB & ISLAM MAKHACHEV! | EXCLUSIVE FOOTAGE!

Demetrious Johnson Trains w/ KHABIB & ISLAM MAKHACHEV! | EXCLUSIVE FOOTAGE!

I Ruined an Entire City With Unrelenting 100% Insanity - Highway Police Simulator

I Ruined an Entire City With Unrelenting 100% Insanity - Highway Police Simulator

KARATE KID: LEGENDS - Official Trailer (HD)

KARATE KID: LEGENDS - Official Trailer (HD)

Part 1 of 3 - Proximal Policy Optimization Implementation: 11 Core Implementation Details

Part 1 of 3 — Proximal Policy Optimization Implementation: 11 Core Implementation Details

[구현 3] PPO 알고리즘(Proximal Policy Optimization)

[구현 3] PPO 알고리즘(Proximal Policy Optimization)

Deep RL Bootcamp Lecture 5: Natural Policy Gradients, TRPO, PPO

Deep RL Bootcamp Lecture 5: Natural Policy Gradients, TRPO, PPO

[강화학습 7강] Policy Gradient

[강화학습 7강] Policy Gradient

[강화학습 1강] 강화학습 introduction

[강화학습 1강] 강화학습 introduction

[딥러닝 자연어처리] BERT 이해하기

[딥러닝 자연어처리] BERT 이해하기

[쉽게 읽는 강화학습 논문 2화] 알파고 제로(Zero) 논문 리뷰

[쉽게 읽는 강화학습 논문 2화] 알파고 제로(Zero) 논문 리뷰

An introduction to Policy Gradient methods - Deep Reinforcement Learning

An introduction to Policy Gradient methods - Deep Reinforcement Learning

[쉽게 읽는 강화학습 논문 3화] DQN 논문 리뷰

[쉽게 읽는 강화학습 논문 3화] DQN 논문 리뷰

ГОЛОЛЁД🤬10 ФУР СЛЕТЕЛИ С ТРАССЫ,БАРНАУЛ ВЫГРУЗКА УЖАС((ПОРВАЛ КРЫЛО…

ГОЛОЛЁД🤬10 ФУР СЛЕТЕЛИ С ТРАССЫ,БАРНАУЛ ВЫГРУЗКА УЖАС((ПОРВАЛ КРЫЛО…

Иван Ургант. 31 декабря 11:00

Иван Ургант. 31 декабря 11:00

天使消失了？#小丑 #天使 #shorts

天使消失了？#小丑 #天使 #shorts

А какой скин выбрал(а) ты? #roblox #игра #смешное #интересное #роблокс

А какой скин выбрал(а) ты? #roblox #игра #смешное #интересное #роблокс

Another year, another snow day to enjoy like pros. ❄️ Who’s in? 🤣 #sia #snowman #shorts #fyp

Another year, another snow day to enjoy like pros. ❄️ Who’s in? 🤣 #sia #snowman #shorts #fyp

AZAL-ın qəzaya düşən təyyarəsinin uçuş trayektoriyası - "Flightradar" #shorts #shortsvideo

AZAL-ın qəzaya düşən təyyarəsinin uçuş trayektoriyası - "Flightradar" #shorts #shortsvideo

Oh my god! This paint is so magical, it dyed the clown's forehead and face green! #clown #angel

Oh my god! This paint is so magical, it dyed the clown's forehead and face green! #clown #angel

Sigma Boy $10k Challenge With Different Objects in Geometry Dash! 😱

Sigma Boy $10k Challenge With Different Objects in Geometry Dash! 😱