[쉽게 읽는 강화학습 논문 2화] 알파고 제로(Zero) 논문 리뷰

Поделиться
HTML-код
  • Опубликовано: 12 янв 2025

Комментарии • 36

  • @민수-t7p3f
    @민수-t7p3f 3 года назад

    알파고1리뷰부터 시작해서 이걸 다보다니.. 하지만 직접 논문 읽는 것 보다 시간 진짜 시간 몇십배 많이 세이브 했네요 감사합니다.ㅋㅋ

  • @karina_rocket_punch
    @karina_rocket_punch 6 лет назад +1

    아닛 알파고 제로도 리뷰해주시네요 !! 감사합니다 ~!

  • @밍구-g3i5b
    @밍구-g3i5b 3 года назад

    좋은 강의 감사합니다!

  • @ischemicpenumbra1
    @ischemicpenumbra1 6 лет назад

    진짜 좋은 컨텐츠네요! 너무너무 감사합니다!!

  • @kimchi_taco
    @kimchi_taco 5 лет назад

    오 감사합니다. 설명을 잘해주셔서인지, 사실 별거 아니었네란 느낌이ㅎㅎ 알파고 제로처럼, actor-critic 도 그냥 같은 뉴럴넷쓰는게 더 좋을 수도 있을거란 느낌이 드네요. score function트릭 같은거 다 다시 유도해야 할것 같지만요..

  • @aabbbce
    @aabbbce 11 месяцев назад

    raw network가 게임할 때 mcts를 안써서 3000점밖에 안되는데,
    어짜피 학습할떄의 mcts와 같으면 굳이 5초씩 더돌린다고 elo가 저렇게 올라간다는게 좀 이해가 안가네요
    초보자라서 잘모릅니다.
    강의 감사합니다~!

  • @zhscstsysus7yshssywcwgbw448
    @zhscstsysus7yshssywcwgbw448 5 лет назад

    프알못이라 잘은 모르겠지만 열심히 봤습니다 ㅋㅋ

  • @riroan-k3f
    @riroan-k3f 5 лет назад +1

    안녕하세요 영상 잘봤습니다. 보는 도중 질문이 생겼습니다.
    1. Input 으로 넣는 19x19x17텐서중 16개가 흰색과 검은색돌의 상태라고 했는데 가장 첫 수를 둘때는 모두가 빈칸인건가요?
    2. 마지막 17번째는 현재가 흑인지 백인지를 판단하는 특징이랬는데 C도 19x19일텐데 흑색일 때 1로만 19x19를 채우는것인지 아니면 다른방법으로 채우는지 궁금합니다

    • @pang-yolab2520
      @pang-yolab2520  5 лет назад +1

      1. 가장 첫 수를 둘 때는 모두가 빈 칸 맞습니다!
      2. 1로만 19*19를 채우는것 맞습니다!

    • @riroan-k3f
      @riroan-k3f 5 лет назад

      @@pang-yolab2520 답변 감사합니다
      리프노드에서 Expansion할때 한번에 361개를 연결해야 하는건가요?

  • @루루르슈
    @루루르슈 4 года назад

    좋은 강의들 감사합니다!! muzero도 궁금한데 리뷰 해주시기에는 책 쓰시느라 바쁘시겠죠?ㅠ

  • @김호이호이-q8f
    @김호이호이-q8f 3 года назад

    좋은 리뷰 감사드립니다. 혹시, 학습 이후에 MCTS를 실제로 두면서 사용할 때에도 파라미터 값이 업데이트가 되는지, 단순히 액션만 선택하는지 궁금합니다.

  • @성일음-s1d
    @성일음-s1d 6 лет назад +1

    영성 너무 잘 봤습니다~~~~^^ 혹시 강화학습 9강 10강은 언제 올라오나요?????

    • @pang-yolab2520
      @pang-yolab2520  6 лет назад

      연말 여행을 다녀오느라 답변이 늦었네요! 주로 매 격주마다 촬영을 하고 있어서, 큰 일이 없다면 9강은 이번주말, 10강은 3주 후에 업로드 될 예정입니다!

  • @doyunkang1011
    @doyunkang1011 2 года назад

    그럼 selection을 할 때는 max Q, 하지만 Play 때 Policy는, 30수 이후부터는 max N으로 이해하면 될까요?

  • @jaeyoonkim9255
    @jaeyoonkim9255 6 лет назад

    SELF-PLAY 결과로 MCTS에서 PI와 Z가 나오고... PI를 저장한다고 하면... PI를 어떤식으로 저장하나요? 그게 PI NN의 출력값을 저장한다는 것인가요?

    • @pang-yolab2520
      @pang-yolab2520  6 лет назад

      아닙니다! MCTS의 아웃풋 PI와 뉴럴넷의 아웃풋 pi는 다릅니다. MCTS의 아웃풋이 더 정확할테니, 뉴럴넷의 아웃풋을 MCTS의 아웃풋에 맞춰나가며 학습이 진행되게 됩니다.

  • @Hooniboogie
    @Hooniboogie 4 года назад

    오른쪽 분 머리가 밤톨이 같고 귀여워요.

  • @ischemicpenumbra1
    @ischemicpenumbra1 6 лет назад

    혹시 GAN 이나 BERT 에 대한 설명 영상도 제작해주실 수 있을까요..??

    • @pang-yolab2520
      @pang-yolab2520  6 лет назад

      원래 강화학습 분야를 중심으로 다룰 계획이었는데... 언제가 될지 모르겠지만 차후 컨텐츠로 준비해보겠습니다!

  • @서모아-g8l
    @서모아-g8l 5 лет назад

    강의 내용이 좋네요
    그리고 mcts소스 코드 공유 안될까요
    select 할때 어떻게 끝어서 0.4초를 만들었는지 궁금합니다
    그리고 알파고 제로를 넘을 수는 없을까요

    • @pang-yolab2520
      @pang-yolab2520  5 лет назад +1

      mcts 소스코드는 제가 따로 없어서... 알파고 제로를 이기려면.. 구글이 들인 시간보다 더 오래 더 많이 학습한다면 가능할 것도 같아요

    • @서모아-g8l
      @서모아-g8l 5 лет назад

      팡요랩 Pang-Yo Lab 네 감사합니다

  • @pentiumg
    @pentiumg 6 лет назад

    혹시 신경망에서 출력을 2개로 만든 방법이 어떻게 되나요?

    • @pang-yolab2520
      @pang-yolab2520  6 лет назад +1

      policy와 value 이렇게 두 개의 출력을 만드는 방법을 물어 보신 거죠~? 네트워크를 쌓다가 중간 layer에서 갈라져 나오면 됩니다.
      예컨대 h1이 중간 layer를 가리키는 python 변수 라면
      p = relu(w1*h1+b1)
      v = relu(w2*h1+b2)
      이런식으로 둘다 h1으로부터 연결하여 그래프를 생성하면 됩니다!

    • @pentiumg
      @pentiumg 6 лет назад

      @@pang-yolab2520 오호! 이해했습니다! 영상 재밌게 보고 있어요! 감사합니다!

  • @finedust999
    @finedust999 5 лет назад +1

    알파고Lee가 Convolutional NN, 알파고Zero가 Residual NN를 사용한 이유가 무엇인지 알 수 있을까요?
    CNN은 바둑판 이미지를 그대로 인식하고자 하는 것으로 추정을 해봅니다만 ResNet은 어떤 이유로 선택된 것인지 모르겠습니다.

    • @franard4547
      @franard4547 4 года назад +1

      기본적으로 ResNet이 Vanilla Convolution보다 성능이 좋습니다. 즉 ResNet 형태의 Convolution을 쓴 걸로 생각됩니다. (Residual + Conv)

    • @finedust999
      @finedust999 4 года назад

      @@franard4547 감사합니다 ♡

  • @TV-fx5fl
    @TV-fx5fl 5 лет назад

    이거 1화는 어떤 건가요?
    처음부터 보고 싶은데 없어서

    • @pang-yolab2520
      @pang-yolab2520  5 лет назад

      1화는 알파고 논문리뷰 라는 제목의 영상으로 3개의 영상에 나뉘어져 업로드되어있습니다!

  • @uio86a
    @uio86a 5 лет назад

    개발자가 필수로 읽어야할 책과 논문좀 알려주세요

    • @pang-yolab2520
      @pang-yolab2520  5 лет назад

      개발자가 필수로 읽어야 할 책과 논문은 저희도 잘 모르겠습니다 ㅠ.ㅠ 어떤 쪽 개발을 하시나요?

  • @uio86a
    @uio86a 5 лет назад

    논문은 어디서읽을수잇나요

    • @pang-yolab2520
      @pang-yolab2520  5 лет назад

      deepmind.com/documents/119/agz_unformatted_nature.pdf
      여기에서 읽으실 수 있습니다!

  • @kimjeffry6694
    @kimjeffry6694 Год назад

    내용은 좋은데 광고 너무 많아서 못 봄.