안녕하세요 영상 잘봤습니다. 보는 도중 질문이 생겼습니다. 1. Input 으로 넣는 19x19x17텐서중 16개가 흰색과 검은색돌의 상태라고 했는데 가장 첫 수를 둘때는 모두가 빈칸인건가요? 2. 마지막 17번째는 현재가 흑인지 백인지를 판단하는 특징이랬는데 C도 19x19일텐데 흑색일 때 1로만 19x19를 채우는것인지 아니면 다른방법으로 채우는지 궁금합니다
policy와 value 이렇게 두 개의 출력을 만드는 방법을 물어 보신 거죠~? 네트워크를 쌓다가 중간 layer에서 갈라져 나오면 됩니다. 예컨대 h1이 중간 layer를 가리키는 python 변수 라면 p = relu(w1*h1+b1) v = relu(w2*h1+b2) 이런식으로 둘다 h1으로부터 연결하여 그래프를 생성하면 됩니다!
알파고1리뷰부터 시작해서 이걸 다보다니.. 하지만 직접 논문 읽는 것 보다 시간 진짜 시간 몇십배 많이 세이브 했네요 감사합니다.ㅋㅋ
아닛 알파고 제로도 리뷰해주시네요 !! 감사합니다 ~!
좋은 강의 감사합니다!
진짜 좋은 컨텐츠네요! 너무너무 감사합니다!!
오 감사합니다. 설명을 잘해주셔서인지, 사실 별거 아니었네란 느낌이ㅎㅎ 알파고 제로처럼, actor-critic 도 그냥 같은 뉴럴넷쓰는게 더 좋을 수도 있을거란 느낌이 드네요. score function트릭 같은거 다 다시 유도해야 할것 같지만요..
raw network가 게임할 때 mcts를 안써서 3000점밖에 안되는데,
어짜피 학습할떄의 mcts와 같으면 굳이 5초씩 더돌린다고 elo가 저렇게 올라간다는게 좀 이해가 안가네요
초보자라서 잘모릅니다.
강의 감사합니다~!
프알못이라 잘은 모르겠지만 열심히 봤습니다 ㅋㅋ
안녕하세요 영상 잘봤습니다. 보는 도중 질문이 생겼습니다.
1. Input 으로 넣는 19x19x17텐서중 16개가 흰색과 검은색돌의 상태라고 했는데 가장 첫 수를 둘때는 모두가 빈칸인건가요?
2. 마지막 17번째는 현재가 흑인지 백인지를 판단하는 특징이랬는데 C도 19x19일텐데 흑색일 때 1로만 19x19를 채우는것인지 아니면 다른방법으로 채우는지 궁금합니다
1. 가장 첫 수를 둘 때는 모두가 빈 칸 맞습니다!
2. 1로만 19*19를 채우는것 맞습니다!
@@pang-yolab2520 답변 감사합니다
리프노드에서 Expansion할때 한번에 361개를 연결해야 하는건가요?
좋은 강의들 감사합니다!! muzero도 궁금한데 리뷰 해주시기에는 책 쓰시느라 바쁘시겠죠?ㅠ
좋은 리뷰 감사드립니다. 혹시, 학습 이후에 MCTS를 실제로 두면서 사용할 때에도 파라미터 값이 업데이트가 되는지, 단순히 액션만 선택하는지 궁금합니다.
영성 너무 잘 봤습니다~~~~^^ 혹시 강화학습 9강 10강은 언제 올라오나요?????
연말 여행을 다녀오느라 답변이 늦었네요! 주로 매 격주마다 촬영을 하고 있어서, 큰 일이 없다면 9강은 이번주말, 10강은 3주 후에 업로드 될 예정입니다!
그럼 selection을 할 때는 max Q, 하지만 Play 때 Policy는, 30수 이후부터는 max N으로 이해하면 될까요?
SELF-PLAY 결과로 MCTS에서 PI와 Z가 나오고... PI를 저장한다고 하면... PI를 어떤식으로 저장하나요? 그게 PI NN의 출력값을 저장한다는 것인가요?
아닙니다! MCTS의 아웃풋 PI와 뉴럴넷의 아웃풋 pi는 다릅니다. MCTS의 아웃풋이 더 정확할테니, 뉴럴넷의 아웃풋을 MCTS의 아웃풋에 맞춰나가며 학습이 진행되게 됩니다.
오른쪽 분 머리가 밤톨이 같고 귀여워요.
혹시 GAN 이나 BERT 에 대한 설명 영상도 제작해주실 수 있을까요..??
원래 강화학습 분야를 중심으로 다룰 계획이었는데... 언제가 될지 모르겠지만 차후 컨텐츠로 준비해보겠습니다!
강의 내용이 좋네요
그리고 mcts소스 코드 공유 안될까요
select 할때 어떻게 끝어서 0.4초를 만들었는지 궁금합니다
그리고 알파고 제로를 넘을 수는 없을까요
mcts 소스코드는 제가 따로 없어서... 알파고 제로를 이기려면.. 구글이 들인 시간보다 더 오래 더 많이 학습한다면 가능할 것도 같아요
팡요랩 Pang-Yo Lab 네 감사합니다
혹시 신경망에서 출력을 2개로 만든 방법이 어떻게 되나요?
policy와 value 이렇게 두 개의 출력을 만드는 방법을 물어 보신 거죠~? 네트워크를 쌓다가 중간 layer에서 갈라져 나오면 됩니다.
예컨대 h1이 중간 layer를 가리키는 python 변수 라면
p = relu(w1*h1+b1)
v = relu(w2*h1+b2)
이런식으로 둘다 h1으로부터 연결하여 그래프를 생성하면 됩니다!
@@pang-yolab2520 오호! 이해했습니다! 영상 재밌게 보고 있어요! 감사합니다!
알파고Lee가 Convolutional NN, 알파고Zero가 Residual NN를 사용한 이유가 무엇인지 알 수 있을까요?
CNN은 바둑판 이미지를 그대로 인식하고자 하는 것으로 추정을 해봅니다만 ResNet은 어떤 이유로 선택된 것인지 모르겠습니다.
기본적으로 ResNet이 Vanilla Convolution보다 성능이 좋습니다. 즉 ResNet 형태의 Convolution을 쓴 걸로 생각됩니다. (Residual + Conv)
@@franard4547 감사합니다 ♡
이거 1화는 어떤 건가요?
처음부터 보고 싶은데 없어서
1화는 알파고 논문리뷰 라는 제목의 영상으로 3개의 영상에 나뉘어져 업로드되어있습니다!
개발자가 필수로 읽어야할 책과 논문좀 알려주세요
개발자가 필수로 읽어야 할 책과 논문은 저희도 잘 모르겠습니다 ㅠ.ㅠ 어떤 쪽 개발을 하시나요?
논문은 어디서읽을수잇나요
deepmind.com/documents/119/agz_unformatted_nature.pdf
여기에서 읽으실 수 있습니다!
내용은 좋은데 광고 너무 많아서 못 봄.