深度强化学习(5/5):AlphaGo & Model-Based RL

Поделиться
HTML-код
  • Опубликовано: 2 янв 2025

Комментарии •

  • @nizhonglian
    @nizhonglian 4 года назад +40

    非常谢谢王教授的课程,slides简洁明了,表达清楚,没有废话,全是干货,一系列已全部听完,恳请王教授继续录制其他视频AI课程视频,比如GAN,transfer learning,federated learning(深入讲解+实例讲解), 等等。本人会继续关注。加油!

  • @zhiweisong4617
    @zhiweisong4617 3 года назад +4

    听了老师的课程真是醍醐灌顶啊!!感谢。希望老师能多出课程~~~

  • @mian8825
    @mian8825 10 месяцев назад

    Remarkable! Can’t believe the explanation of alphaGo and alphaZero as good as this exists! Thank you! 膜拜神人😍

  • @ShusenWang
    @ShusenWang  4 года назад +3

    讲义: github.com/wangshusen/DRL/blob/master/Notes_CN/

  • @hanxianghe4446
    @hanxianghe4446 4 года назад +4

    万人血书建议王老师出对应的编程课,国内这种资源太少

  • @rck.5726
    @rck.5726 6 месяцев назад

    太强了,王教授。

  • @mengzhang1561
    @mengzhang1561 3 года назад +5

    能把强化学习讲明白的真没几个,您算一个!

  • @youlock7140
    @youlock7140 2 года назад

    能不能讲讲中国象棋nnue结构?

  • @43SunSon
    @43SunSon 2 года назад

    Why crossEntropy not just the loss function?

  • @mingkuitan2565
    @mingkuitan2565 3 года назад

    树森老师讲课非常棒

    • @ShusenWang
      @ShusenWang  3 года назад

      谭教授翻墙违法,哈哈

  • @tonyjoe1485
    @tonyjoe1485 3 года назад +1

    惊为天人,您的讲述真的好像在听评书一样让人心潮澎湃

  • @約翰到家
    @約翰到家 2 года назад

    不知在股市操作中該如何應用

  • @thomasliu3043
    @thomasliu3043 2 года назад

    請問王教授,如果只允許AI下每步棋之前,搜索與人類差不多的結點數量(數十個),誰的勝率比較高?
    李世石腦中的策略函數Pi、價值函數V(不討論計算力,只單純考慮第一眼判斷局面的能力),與AI相比,誰比較精確?
    如果讓一個人類圍棋新手學習16萬份棋譜,與AI學習的數量相同,誰的訓練效果會比較好?(不討論計算力,只比較策略函數Pi、價值函數V)

    • @thomasliu3043
      @thomasliu3043 2 года назад

      另外再请问,人脑相对于电脑,有什么优势/劣势?

  • @itchainx4375
    @itchainx4375 Год назад

    1:21 19*19*3吧,还要考虑space

  • @tsaiwr
    @tsaiwr 3 года назад

    谢谢王老师的精彩讲解 收益很多 我有个问题 在计算score(a)的时候 既然最后是以Q(a)为主 是不是可以理解成policy network训练所得的pi(a|s)只是一开始提供了一个选择评估哪个action的优先权 最终action的好坏还是要通过大量的fast rollout来评估?谢谢!

  • @lanliu9263
    @lanliu9263 3 года назад

    hi,你好,我有三个问题想问下 1. 第二步 policy gradient 时,两个network在对战时,为什么对手网络不更新参数呢,如果也更新参数,对手网络不会变得更强么?从而主神经网络跟更强的对手下的话,应该会变得更强么? 2. 在做策略梯度训练的时候,先策略网络和价值网络训练不同步,价值网络需要在策略网络完成后,根据其结果来训练价值网络,和actor-critic不同,这样做的原因是不是主要是因为围棋是长期决策问题,就是很多步后才能得到结果?而actor-critic一般用于做每步都可以做评估的训练的场景呢?3. 价值网络是在策略网络全部训练完后,再集中训练价值网络呢?还是每完成一次策略网络(完成一盘棋)后,然后就更新下价值网络? 谢谢🙂。

    • @archibaldchain1204
      @archibaldchain1204 2 года назад

      依我的理解:
      1. 是两个network对战结束才跟新参数吧. 2.是的, 因为围棋需要完全下完才能知道好坏 3. 是一盘棋跟新策略网络,然后立马跟新价值网络,再下一盘,继续跟新

    • @thomasliu3043
      @thomasliu3043 2 года назад

      對第2個,我的理解:
      如果你一直跟自己下棋,你的勝率將維持在百分之50,你很快就會失去動力(因為獎勵機制失效了)。如果你和一個程度相仿的好友下棋,日復一日,勝率從50逐漸上升到60,你會獲得成就感(獎勵),並且確信自己這段時間所學的戰術是有用的。
      等到一段時間,你感覺已經有9成9的勝率,你會覺得沒意思,不論怎麼努力,勝率也不會提高了,此時就是再去找一個程度相仿的對手(更新對手的網絡)的最好時機
      並且強化學習有一定概率會導致policy network 變得更弱的。此時就需要一個固定強度的對手來告訴policy network,"你先前學到的是錯的",趕緊重學。如果連對手也一起更新,那雙方的棋可能會越下越臭。

  • @gacctom
    @gacctom 3 года назад

    謝謝分享~看到這集結束,學習了很多強化深度強化學習的理論和觀念!但請問老師一下,是否有對應的程式範例可以trace 相關的流程,來驗證課程的理論呢?謝謝!

  • @binsong7440
    @binsong7440 Год назад

    请问一下,在蒙特卡洛树搜索阶段,select 是递归进行吗,还是select 只是选择输入状态下一步的state

  • @josephzhu5129
    @josephzhu5129 4 года назад

    讲的很清楚,致敬!

  • @nianjinye3631
    @nianjinye3631 3 года назад +1

    Hi, 老师您好,视频中介绍每一步alphaGo都会进行一次蒙特卡洛树搜索,我的疑惑是上一步的搜索结果会不会很大概率包括了当前状态的结果呢,为什么还需要从初始状态进行搜索

    • @thomasliu3043
      @thomasliu3043 2 года назад

      好問題

    • @thomasliu3043
      @thomasliu3043 2 года назад

      以我下象棋的經驗,有些軟件有一種功能叫做背景運算,他可以在玩家思考的時候預先開始計算,而非等到玩家落子之後才開始。這樣的算法可以省去很多時間。

  • @Jack-dx7qb
    @Jack-dx7qb 2 года назад

    何等令人興奮的技術!

  • @shyboy523
    @shyboy523 3 года назад

    老师您讲的太精彩了,最近不是出了个Muzero,看着也非常吃力。不过看了您的视频后,比之前理解又深刻了一点。不知道您是否有兴趣讲一讲Muzero呢,谢谢!

  • @archibaldchain1204
    @archibaldchain1204 2 года назад

    我感觉设计return的时候能不能把最终的胜负当作大的reward,把吃子当作小的reward?

  • @littlestarsmile4411
    @littlestarsmile4411 3 года назад

    真透彻

  • @shihuaxing
    @shihuaxing 3 года назад

    讲得真好

  • @mian8825
    @mian8825 10 месяцев назад

    打个岔,感觉1.25 快进语速才是正常原始语速…🤔

  • @LingfengRen
    @LingfengRen 3 месяца назад

    excellent

  • @wcyht234wang4
    @wcyht234wang4 3 года назад

    讲得挺清晰,如果多一些举例则效果更好了。

  • @conlinkang1
    @conlinkang1 2 года назад

    想請問,alpha go 是如何避免下到被提子的位置?

  • @阿瑞日记
    @阿瑞日记 3 года назад

    感谢分享!

  • @Evelyn-kd4xe
    @Evelyn-kd4xe 3 года назад

    请问一下老师,在AlphaGo Zero中,用MCTS的方法来计算n,然后计算cross entropy。但是在MCTS中,n的计算有赖于evaluation state V的计算(evaluation step)。但是因为在train policy network的时候,value network还没有ready。那么在用MCTS计算n的evaluation步骤中,v(s_t+1)就不看了吗,只看r_T的结果吗?

    • @ShusenWang
      @ShusenWang  3 года назад

      不是的,AlphaGo Zero同时训练policy和value。我在这里讲得更具体一些:github.com/wangshusen/DRL/blob/master/Notes_CN/chp18.pdf

    • @Evelyn-kd4xe
      @Evelyn-kd4xe 3 года назад

      @@ShusenWang 您给的link中,第235页讲的很清楚了~~非常感谢王老师!我感觉在RL系统的设计中,除了对state,action的定义以外,reward function的设计其实最难因为这是agent是否收敛的关键所在。。很多时候简单的+1,-1并不能work。。不知道有没有相关这方面的课程~~

    • @ShusenWang
      @ShusenWang  3 года назад +3

      @@Evelyn-kd4xe 我觉得应该没有这方面的书和课程。这属于经验性的东西,而不是方法论,需要自己的积累。

  • @stephentauo996
    @stephentauo996 Год назад

    看完

  • @duocheng1479
    @duocheng1479 3 года назад

    对于这个alphago算法有一个疑问:对于19*19*17的状态建模,意思是就算当前的布局相同,如果前8步不同,状态也就不同?我有这个疑问是因为,只要给定了当前棋盘的布局,那么这个布局是通过什么顺序下出来的,我觉得应该不影响我这一步应该怎么下。

    • @ShusenWang
      @ShusenWang  3 года назад +1

      我也是这么想的。我猜deepmind是做实验试出来的,发现用前7步的格局是有用的。

    • @duocheng1479
      @duocheng1479 3 года назад

      @@ShusenWang 感谢回复!不过这样子state space就大大增加了

    • @thomasliu3043
      @thomasliu3043 2 года назад

      我想,以人類的經驗而言,學圍棋往往是學一個連貫的思路。如果今天突然給你一盤棋,你可能不知道要怎麼下,但如果讓你知道雙方前幾步在幹嘛,你就有頭緒了

    • @thomasliu3043
      @thomasliu3043 2 года назад

      對於策略函數P而言,輸入19*19*17狀態可能有以下好處(個人猜想而已)
      1.訓練時,由其在學習人類棋譜時,AI可以學習到一整個連貫的行棋策略,而非單純的"看圖猜點"。
      2.對弈時能夠將對方的行棋習慣、風格納入考量(比方,你能夠得知對方前幾部都在某個區域落子,那很大概率表示接下來他還會在該區域落子)

    • @NingLu2011
      @NingLu2011 2 года назад

      我觉得,对手之前对你所下步骤的连续应对方式,是影响你之后的下法的。例如,你目前下的一手棋,他的位置很可能是之前几手有关系的。也就是说,很多时候,围棋每一棋子的落子次序是相关的。policy 函数要学习你和对手的落子次序排列的方法,可以令policy更好预测对手之后最可能的应对次序,从而使结果更好。

  • @dzrzhou9437
    @dzrzhou9437 4 года назад

    请问老师,这里训练value network为什么要用v而不用q呢, 以及为什么loss 是减去ut,直接把ut能当期望吗?

    • @ShusenWang
      @ShusenWang  4 года назад +6

      1. 用value network评价的是状态S的好坏,而不是动作A的好坏,所以是v函数。
      2. 类比一下,训练回归模型预测房价,训练数据的标签是交易的房价,而不是房子真实价值。价格只是价值的一个样本,价格围绕价值波动。训练V网络的时候,ut就像是房价,而期望是真实价值。你不知道价值,只观测到价格,所以拿价格作为标签。

    • @dzrzhou9437
      @dzrzhou9437 4 года назад

      Shusen Wang 明白了。谢谢老师!

  • @henryICV
    @henryICV 3 года назад

    太赞了

  • @portiseremacunix
    @portiseremacunix 4 года назад

    讲的太好了,用pytorch 还是 tf2 来实现呢……

  • @a69e87
    @a69e87 4 года назад

    非常感谢王老师的课,受益良多!我有一个困扰了我很久的问题,还望老师能指点指点:作为普通人没有这么多高质量的棋谱,也没有算力这么强的电脑,那么是否还能应用深度强化学习来做出一个比较厉害的比如麻将AI?就是我想知道应用这些最前沿的算法有没有一些必须达标的条件。非常希望能事先知道这一点,因为这将会决定我接下来的学习路径和方向,谢谢!

    • @ShusenWang
      @ShusenWang  4 года назад

      可以没有棋谱,但必须有很多GPU。强化学习对算力的要求很高。即使玩Atari这种简单的游戏,也起码有一两个GPU。

    • @a69e87
      @a69e87 4 года назад

      @@ShusenWang 谢谢回复!明白了,所以就算没有棋谱也只是意味着在起步阶段要多花一点时间进行学习,而这种花销其实是可以接受的,相比而言更重要的是算力。那我想知道用深度强化学习来训练麻将AI大概要花费几个GPU?

    • @ShusenWang
      @ShusenWang  4 года назад

      @@a69e87 首先,麻将比围棋要难。围棋是完全信息的,观测就是状态。麻将是不完全信息,你看不到对手的牌。 其次,这不是几个GPU能搞定的。用几个GPU训练一轮可能要花几天。但是RL的超参数巨多,每设置一个参数就要重新跑一次。只有几个GPU的话几年时间恐怕也不够。

    • @a69e87
      @a69e87 4 года назад

      Shusen Wang 那怎么办?难道还没入门就要放弃?😂我知道日麻的规则相当复杂,会进一步加大难度。但是如果只考虑国内一些普通的麻将打法的话,实现的可行性会不会好一些?如果真的这么难,我是不是不该搞麻将AI?望老师指条明路...

    • @ShusenWang
      @ShusenWang  4 года назад +1

      @@a69e87 我几年前就听说中国有人做了麻将AI。你搜一下,应该已经有了。

  • @hanxianghe4446
    @hanxianghe4446 4 года назад +2

    除了我爱你,我脑子里蹦不出其他词儿

  • @fzzying
    @fzzying 4 года назад

    43:52 selection写成section了

    • @ShusenWang
      @ShusenWang  4 года назад +1

      笔误……多谢提醒哈~~

  • @lanliu9263
    @lanliu9263 3 года назад

    hi,你好,请问你知道哪里能下载alphago 的源代码么?

    • @ShusenWang
      @ShusenWang  3 года назад

      没有deepmind的alphago源代码,但是有其他人的实现。你搜alphago code就能找到

    • @lanliu9263
      @lanliu9263 3 года назад

      @@ShusenWang 好的,谢谢,视频38分钟的时候有个说法,在mcts 的expansion时,会用之前训练好的policy network 随机抽样动作作为 opponent的动作,这个不是特别明白?这个随机抽样具体怎么样做呢,怎么缩小抽样的范围呢?

  • @jiang846
    @jiang846 4 года назад

    请问一下 基于alphago论文的中国象棋可行吗

    • @ShusenWang
      @ShusenWang  4 года назад

      可以的。但是中国象棋是比较简单的问题,应该早就有AI打败人类了。

    • @jiang846
      @jiang846 4 года назад

      @@ShusenWang 对的 但是有基于alphago 论文的AI吗 我想做一个这个

    • @ShusenWang
      @ShusenWang  4 года назад

      @@jiang846 我没听说过,或许有人做过吧。一个人做恐怕不太可能,至少也得几十块GPU训练模型。

    • @jiang846
      @jiang846 4 года назад

      @@ShusenWang 我想做这个的项目 我大学生 已经学了pytorch 还没入手 最近在看alphago的象棋实现代码 感觉蒙特卡洛树搜索那里挺复杂 您有 蒙特卡洛树相关的代码吗

    • @ShusenWang
      @ShusenWang  4 года назад

      @@jiang846 AlphaGo的代码网上有,搜一下就能找到,比如这个:web.stanford.edu/~surag/posts/alphazero.html

  • @qingqing4859
    @qingqing4859 3 года назад +2

    除了我爱你,脑子里蹦不出其他词儿.

  • @haoyang7981
    @haoyang7981 3 года назад

    除了我爱你,我脑子里蹦不出其他词儿