31:00 agent state 설명 41:00 markov state 다시 한 번 설명 44:00 Rat example 53:43 Deterministic policy 는 확률에 의존적이지 않으니까 기대값을 안 취해도 되지 않을까? (X) 환경자체에 확률값이 있어서 기대값을 취해줘야함
1:04:18 에서 RL agent들의 분류를 설명할 때, Value Based Agent는 policy가 없는거라고 하셨는데.. value function이라는 거 자체가 policy에 dependent한 것이라고 앞에서 말씀하신거랑 다른 것 같아서요.. 슬라이드에 적힌 것처럼 implicit한 policy가 있다고 봐야하나요? value based라는 개념이 조금 혼동되네요 ㅎㅎ
이 짧은 질문 안에 질문해주신 분의 내공이 느껴지네요 ㅎㅎ 정확하게 말씀해 주셨습니다. RL의 방법론은 크게 value based method 와 policy based method로 나뉘어지며, value based method에는 "explicit" 한 policy가 없을뿐, value function에 기반한 implicit policy가 있습니다. 여하간에 agent가 environment 안에서 어떻게든 동작을 해야하니까요! 이해를 돕도록 이런 implicit policy의 예시를 들어보자면, "지금 내가 있는 state s 에서 갈 수 있는 다음 state s1과 s2 중에서 value가 큰 쪽으로 가라! " 같은 것이 있을 수 있습니다. 이를 value function 에 기반한 greedy 한 policy라고 할 수 있습니다. 이 경우 분명 implicit 한 policy는 존재하지만, policy를 위하여 explicit 하게 따로 뉴럴 넷을 둔다던가 하는 것은 아니기 때문에 value based method 라고 할 수 있습니다. 설명이 부족하여 혼동이 있으셨던게 자연스러운 것 같습니다. 그런 내용이 영상에 있었더라면 좋았겠네요.. 늦게나마 도움이 되셨길 바랍니다!
좋은 설명 감사드립니다. 근데 질문이 있어요! agent state가 H의 함수이고, H가 markov 인데, agent state가 markov가 아닐 수가 있나요? 정보를 덜 사용한다고 하면 partially observable markov라고 보는게 맞지 않을까 싶어서요 ㅠㅠ
그리고 좀 더 자세하게 value based에서 explicit 과 implicit의 차이를 설명해주실 수 있으신가요? ㅠㅠ 이해가 잘 안되네요. 밑 댓글에서도 value function이 더 큰쪽으로 가라! 라고 했는 데, 그럼 그 비교를 하기 위한 value function도 policy를 사용해서 구할 수 있는 거 아닌가요? ... 이해가 전혀 안됩니다 도와주세요 ㅠㅠ
좋은 질문인 것 같습니다! 그러니까 질문은 로봇의 경우 과정에서 잘 한 행동도 있을 것이고, 못 한 행동도 있을 것인데, 무엇이 잘한 행동인지 모를텐데 이럴 경우 리워드를 어떻게 주는가? 인 것 같습니다. 이런 경우에 말씀해주신대로 모든 상태에 대해 똑같은 리워드를 줍니다. 예컨대 잘 걷는 로봇을 학습시키고 싶다면,1초를 버틸 때마다 +1의 리워드를 주는 식으로 설정할 수 있습니다. 그러면 리워드의 총합을 극대화 시키기 위해 1초라도 더 버티는 방향으로 학습이 진행될 것입니다. 여기서 헷갈리시면 안 되는 것이, 플러스와 마이너스 리워드가 섞여 있는게 아니라 플러스의 리워드만 모든 상태에 대해 똑같이 적용된다는 점입니다. 그렇다면 걷는 도중 못한 행동에도 잘한행동과 마찬가지로 똑같이 플러스의 리워드를 받을텐데요, 그럼에도 불구하고 강화학습은 참으로 신기하게도! 잘한 행동을 더 많이 하도록 교정이 됩니다. 왜냐하면 경험이 충~분히 쌓여서, 예컨대 1억번쯤 넘어지고 나서 되돌아보면 나쁜 행동이 많았던 경우가 평균적으로 더 빨리 넘어졌을 것이고, 좋은 행동이 많았떤 경우는 평균적으로 더 오래 걸었을 것입니다. 그래서 크게 보면 나쁜 행동이 많은 경우 리워드가 적고, 좋은 행동이 많은 경우 리워드가 높아서 좋은행동이 많아지도록 교정이 될 수 있습니다. 답변이 늦어져 죄송하고, 부족하나마 이해에 도움이 되셨길 바랍니다. 감사합니다!
쉽고 좋은 강의 감사합니다.. 그럼에도 어려운 1인 ㅠㅠ 궁금한 것이 이것저것 찾다보니 유전알고리즘 이란것도 있던데... 강화학습이라는 것과 이 유전알고리즘은 어떤 관계가 있을까요? 서로를 혹 어떻게 보완해주는지?? 구글링을 해봐도 각각은 나오는데 두개가 어떤 관계인지를 찾기는 어렵네요.. ㅠㅠ (영어는 안되서 한글로 찾다보니)
너무 흥미로워요 😊
오른쪽 분에게 이입돼서 봤습니다. 좋은 영상 감사드립니다.
28:00 environment state 예시
31:00 agent state 설명
41:00 markov state 다시 한 번 설명
44:00 Rat example
53:43 Deterministic policy 는 확률에 의존적이지 않으니까 기대값을 안 취해도 되지 않을까? (X) 환경자체에 확률값이 있어서 기대값을 취해줘야함
1강부터 차근차근 끝까지 들어보는게 첫번째 목표입니다.
좋은 강의니까 끝까지 들을 수 있겠죠? ㅎㅎ
아들이 올해 컴공들어가는데, 애비도 좀 알고 싶다하니 소개해 받았습니다.
첫강부터 차근차근 잘 듣겠습니다.
이전 알파고 3강은 20분씩이라 잘 들었는데요, 이번 강의는 첫강부터 120분이라 졸음이 밀려옵니다. 화이팅.
대단한 부성애에 존경을 표합니다. 아버지로서 반성하게 되네요. 아들이 부럽기도 하구요.
힘내십쇼 아버지 멋지십니다!
4월 1일 강화학습 공부 시작!
다른 강의를 러프하게 듣고 이해가 안되는 부분이 많았는데, 1강에서 용어 및 개념을 정리해 주시니까 잘못 이해했던 용어가 교정되고 다음 강의를 이해하는데 많은 도움이 될 것 같네요. 감사합니다.
ㅋㅋㅋㅋㅋㅋㅋㅋ 핵 졸려하시는 오른쪽분 사람냄새가 나서 더 좋네요. 좋은자료 너무 감사합니다.
실버 교수님 강의 듣고 100%이해 잘 안가는 것 같아서 복습으로 다시 듣는데 매우 도움 많이되고 있습니다. 너무 감사드려요
시청해주셔서 감사합니다! 앞으로도 재미있고 유익한 강의 많이 올리려고 합니다.
학원 안다니는 공부 잘하는 학생! 참 좋은 비유인것 같아요 ㅋㅋㅋ
23:55 reward를 받아서 action을 했다는 부분이 혹시 먼저 액션을 해야 보상을 받는것이 아닌지 질문이있습니다.
소문난 맛집이라고 해서 왔습니다. 잘 부탁드립니다
제어 어플리케이션에 강화학습을 적용하는 연구를 하려하는데 참 큰 도움이 되네요
개념을 잘 설명해주시니 참 좋습니다 감사해요
나플라 형이 여기 왜있어?? 형 강화학습으로 랩 훈련한거였구나..역시 1등하는데는 이유가..
선생님 너무 잘생기셨네요.. 설명도 너무 듣기 쉽습니다
좋은 영상 부탁드려요!
재미있게 들었습니다. ㅎㅎ 좋은 강의 감사합니다.
1:04:18 에서 RL agent들의 분류를 설명할 때, Value Based Agent는 policy가 없는거라고 하셨는데.. value function이라는 거 자체가 policy에 dependent한 것이라고 앞에서 말씀하신거랑 다른 것 같아서요.. 슬라이드에 적힌 것처럼 implicit한 policy가 있다고 봐야하나요? value based라는 개념이 조금 혼동되네요 ㅎㅎ
이 짧은 질문 안에 질문해주신 분의 내공이 느껴지네요 ㅎㅎ 정확하게 말씀해 주셨습니다. RL의 방법론은 크게 value based method 와 policy based method로 나뉘어지며, value based method에는 "explicit" 한 policy가 없을뿐, value function에 기반한 implicit policy가 있습니다. 여하간에 agent가 environment 안에서 어떻게든 동작을 해야하니까요!
이해를 돕도록 이런 implicit policy의 예시를 들어보자면, "지금 내가 있는 state s 에서 갈 수 있는 다음 state s1과 s2 중에서 value가 큰 쪽으로 가라! " 같은 것이 있을 수 있습니다. 이를 value function 에 기반한 greedy 한 policy라고 할 수 있습니다. 이 경우 분명 implicit 한 policy는 존재하지만, policy를 위하여 explicit 하게 따로 뉴럴 넷을 둔다던가 하는 것은 아니기 때문에 value based method 라고 할 수 있습니다.
설명이 부족하여 혼동이 있으셨던게 자연스러운 것 같습니다. 그런 내용이 영상에 있었더라면 좋았겠네요.. 늦게나마 도움이 되셨길 바랍니다!
기업강의 하시나요? 강의 요청드리고자하는데 어떻게 연락이될까요?
잘 봤습니다 감사합니다:)
쉽게 잘 듣고 있어요.. 감사합니다.
감사합니다!
강의 정말 잘봤습니다!! 정말 감사드립니다
이해가 너무 잘되네요!! 좋은 강의 감사합니다!!
좋은 설명 감사드립니다. 근데 질문이 있어요! agent state가 H의 함수이고, H가 markov 인데, agent state가 markov가 아닐 수가 있나요? 정보를 덜 사용한다고 하면 partially observable markov라고 보는게 맞지 않을까 싶어서요 ㅠㅠ
좋은 자료 감사합니다~
뜬금없는데, 왼쪽 분 나플라 닮았어요...
설명 정말 잘하세요 ㅎㅎ 감사히 듣겠습니다 뭔가 과외받는느낌이네요 ㅎㅎ
친구에게 편하게 가르쳐 주는 느낌으로 진행해보려고 합니다. 감사합니다!ㅎㅎ
Fully Observable Enviroment가 이해가 잘 안되요. 다 볼 수 있는 건 알겠는 데, 환경 상태와 agent 상태와 Ot가 왜 다 같은건지요? 자세하게 설명해주실 수 있으신가요? ㅜㅜ
그리고 좀 더 자세하게 value based에서 explicit 과 implicit의 차이를 설명해주실 수 있으신가요? ㅠㅠ 이해가 잘 안되네요. 밑 댓글에서도 value function이 더 큰쪽으로 가라! 라고 했는 데, 그럼 그 비교를 하기 위한 value function도 policy를 사용해서 구할 수 있는 거 아닌가요? ... 이해가 전혀 안됩니다 도와주세요 ㅠㅠ
맞습니다. 둘이 서로 밀접하게 연결되어 있는 관계이고, 뒤에 강의를 더 들어 보시면 될 것 같습니다!
강화학습에 관심이많지만 머리가 아주나빠서 고생입니다. 근데 예전부터 정말로 궁금한점이있습니다.
로봇걷기를 예로들자면
설명에는 로봇의경우는 넘어지면 -1리워드 잘걸어가면뭐+1 이런식으로준다고 들었습니다.
로봇의경우라면 여태까지했던 모든상태에대한 행동들에대해서 리워드가-1이고
잘걷는다치면 +1이라고한것도 여태까지했던 모든상태에대한 행동들의 리워드가 +1일까요??
리워드를준다는게 모든상태중에서 잘한행동이 있을테고 못한행동이있을텐데 리워드를줄려면 여태햇던 모든상태에대해 주는거바께는 생각나지않습니다.
바둑도마찬가지일꺼구요 잘한행동 못한행동이 뒤섞여있는데 이겻다고해서 모든행동에대해+1하면 아무래도쫌 시스템적오류가날꺼같기도하구요
너무길게써서 죄송합니다 ㅠㅠ 리워드주는방식은 정확히알수있을까 여쭤봅니다!
좋은 질문인 것 같습니다!
그러니까 질문은 로봇의 경우 과정에서 잘 한 행동도 있을 것이고, 못 한 행동도 있을 것인데, 무엇이 잘한 행동인지 모를텐데 이럴 경우 리워드를 어떻게 주는가? 인 것 같습니다.
이런 경우에 말씀해주신대로 모든 상태에 대해 똑같은 리워드를 줍니다.
예컨대 잘 걷는 로봇을 학습시키고 싶다면,1초를 버틸 때마다 +1의 리워드를 주는 식으로 설정할 수 있습니다. 그러면 리워드의 총합을 극대화 시키기 위해 1초라도 더 버티는 방향으로 학습이 진행될 것입니다.
여기서 헷갈리시면 안 되는 것이, 플러스와 마이너스 리워드가 섞여 있는게 아니라 플러스의 리워드만 모든 상태에 대해 똑같이 적용된다는 점입니다.
그렇다면 걷는 도중 못한 행동에도 잘한행동과 마찬가지로 똑같이 플러스의 리워드를 받을텐데요,
그럼에도 불구하고 강화학습은 참으로 신기하게도! 잘한 행동을 더 많이 하도록 교정이 됩니다.
왜냐하면 경험이 충~분히 쌓여서, 예컨대 1억번쯤 넘어지고 나서 되돌아보면 나쁜 행동이 많았던 경우가 평균적으로 더 빨리 넘어졌을 것이고, 좋은 행동이 많았떤 경우는 평균적으로 더 오래 걸었을 것입니다.
그래서 크게 보면 나쁜 행동이 많은 경우 리워드가 적고, 좋은 행동이 많은 경우 리워드가 높아서 좋은행동이 많아지도록 교정이 될 수 있습니다.
답변이 늦어져 죄송하고, 부족하나마 이해에 도움이 되셨길 바랍니다.
감사합니다!
안녕하세요 ! 발표할 때 이 강의 듣고 강화학습 이해할 때 잘 활용했어서 자율동아리 만들어서 이 강의 듣고 보고서 같은거 쓰려고 하는데요! 고2가 배경지식 없이 들어도 괜찮은 수준일까요 ??
아하 그러시면 조금 어려울 수도 잇을 것 같습니다..! 6강부터요 ㅠ gradient 등등의 개념이 나와서요..
잘보고 있어욤 ㅎㅎㅎ ~~~
이지은님 감사합니다 !!!
쉽고 좋은 강의 감사합니다.. 그럼에도 어려운 1인 ㅠㅠ
궁금한 것이 이것저것 찾다보니 유전알고리즘 이란것도 있던데...
강화학습이라는 것과 이 유전알고리즘은 어떤 관계가 있을까요? 서로를 혹 어떻게 보완해주는지??
구글링을 해봐도 각각은 나오는데 두개가 어떤 관계인지를 찾기는 어렵네요.. ㅠㅠ (영어는 안되서 한글로 찾다보니)
한국말인데 왜 못알아듣겠지..
재밌게 잘 보기 시작했습니다 :) 정리 감사합니다 :) 강의를 듣는 입장에 있으신 분이 깔끔하게 정리를 잘 하시네요
오우 한국말 강의 감사합니다
I love you so much :-)
꿀맛!