Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
先不管AI怎樣,你的解説是真的好啊,請繼續下去!已關注
表面上是測試AI實際上是考驗測試者定義獎懲的功力
也代表家長、學校、社會對小孩的獎勵會帶來什麼結果
以后教室要考察AI训练等级
這是教育者模擬器啊……
沒錯,疊代式AI 最重要的就是參數怎麼定義
天啊 好哲學
這獎懲很像目前的錢,比如升官加給500,桃槽通常多5000,轉職科技業多100000,然後財富自由需要到達某個數值,比如說5000萬,算上年紀等數值後,很多人直接判定無法達成,所以很多人就想直接躺平,就像一開始在轉圈圈一樣,其實政府的作用就在這裡,如果一個國家越是M化代表獎懲機制有很大的問題,基本最後出現無法破關的結局,只是人類如果要修改所謂的社會制度,通常都是需要流血的,而不是單純改改數據而已
但現代社會有個很大的問題 政府是擁有法理跟軍隊的 社會一定是被權貴跟機制運作的政府把控
政府的機制就是確保自己一直在社會頂端,其他人是死是活沒扣分也沒加分沒差
我們所在的社會就是那些有權有錢的人建立起來的規則,他們會優先確保自己可以永遠站在金字塔的頂端
遊戲就是用數值定義模擬世界啊
當你以為過不了月見山時,其實是AI發現世界是虛擬的沒必要繼續前進了。
終於懂設計師為什麼設計到五代才穩定母體了
真的很希望繼續訓練啊!!!然後你的解說真的很好 讓人有一種一直想聽下去的感覺 已訂閱
我覺得更厲害的是你的解讀功力,像在看一篇精彩的故事一樣,作為觀眾很享受
以一個時長三個月以 AI 為專題的學生來說影片中遇到的問題算基礎問題1.學習率太高 導致模型一下就 overfiting一次扣分就不嘗試 不會這麼極端 也跟該工程師以多少 round 為訓練基準為主EX: 5分鐘為基準 模型碰到一次負分 極度敏感(因為5分鐘內可能就只出現該動作 反饋 -1 分) 24小時為基準 模型碰到一次負分 稍稍察覺(因為24小時 通常還會有其他有的沒的操作 可能反饋 -3 -2 -1 +0 +1 +2 +3)2.以什麼為預測結果 是整個訓練中最重要的問題不過考慮到訓練費用 確實沒辦法做得太多除非是在學校 設備免費就無所謂
趕快畢業吧,老兄
@@Xuan-r1h 老兄 早就開始工作囉
@@AAA1649 好想學阿不過自學很難有系統的學習(我目前使用TF-JS
@@Xuan-r1hㄏㄏ
我感覺是野心太大,不該用一個單純的獎勵公式去嘗試定義所有任務。分模型去執行比較好,只是會難在怎麼讓AI創造出為了戰鬥多買幾瓶水這種跨足時間很長的事。LSTM也只是有那份記憶,要怎麼讓記憶穿梭於不同模型之間會是個難點。
AI會停下來是人給的獎勵太不均勻道館過關這類主線任務應該要遠大於升等比如過道館或找到過地圖關鍵道具都給1000分或更多高到打怪升等沒辦法追過的程度
這個訓練應該是經濟學概念的最優解但是人類有所謂的「行為經濟學」導向所以經濟學是理想但行為經濟學是現實。例如明明近在眼前的救火的東西不買跑去遠在天邊打八折的品項購買就是很好的例子
这个算法和思路反正是蛮考验编程小哥的水平的
因為設定錯誤導致怕了進入寶可夢中心那一部份, 道出了很多人常說ai毀滅人類的可能性, 可怕的不是ai本身, 是人類會錯誤設置參數啊.....那怕只是訓練的起始一個不起眼的code,可能最終在超級ai發展成功的最後階段,就引發不可收拾的局面....
先搞清楚什麼是AI 別看電影看上腦
個人認為其實應該要把不同階段的操作系統分給不同的AI模組甚至是用多模態下去做當然,這是AGI技術還沒到達科幻小說所以使用的屈就方法水槍克制岩石系這事搞那麼久,代表至少戰鬥系統和移動系統要分開。為甚麼會這麼說呢,因為人類可以感受到畫面、可以讀取文字,既然這樣AI也要可以做到等價的行為才行。比如招式屬性,最好的應該是用ocr或是別的AI去記憶,像我們背99乘法表一樣。可能把屬性剋制表做成一個2D input丟進去CNN去訓練,CNN filter 的kernel size可能就訂死在屬性表的大小。當然,戰鬥時要能明確告訴AI自身的屬性和對方的屬性,所以這個2D input可能要兩個以上的channel,一個是招式對對手屬性,另一個是自己屬性與對手屬性,可能還要再一個channel表示對手曾經使出過的招式屬性。又比如寶可夢中心和道館的慘案,代表「進入地區」這件事應該也要拆出來,人類可以聽到音樂不同,那至少要讓AI得到一個標籤,甚至最好是每出現一段新的音樂(場景),這樣的話有兩種思路。一是這部分的輸出每當出現新的bgm就能多設置一個神經元,MLP在程式設計上要這樣操作很難,不過可以考慮用SOM結構,只要確定SOM輸出層的大小大於BGM的量就能做到,SOM的BMU的特性可以讓輸出層可以不用顧慮到必須與對應的數量相等的問題;二是可以先作弊設置好和bgm同等數的MLP輸出神經元等分類。可能也有直接讓其介入loss function的做法,但是由於bgm不應該具備位階而是單純的種類不同,我想不到能比較好把one hot encode給灌進loss function的方式。我會這樣考慮是因為這種AI學習的方式和我小時候玩日文遊戲很像,啥都看不懂瞎按。但是人類能很快就學到招數剋制、打怪升級這些。我想到這是因為寶可夢的屬性剋制大部分都是從生活常識來的,像最基本的水剋火、火剋草,但AI沒法讀取這些知識,所以應該要由人這邊先提供給它,相當於是讓AI有攻略可以查。另外,打怪時的思維模式和走迷宮的思維模式應該是不同但彼此間有接續的,用多個功能型AI去組合會比用單一一個AI去跑強化更符合這個行為。
大哥这样娓娓道来的聊A I分析真的好好听🎉
比较想看AI学习宝可梦对战,就纯对战单打三对三或者双打四对四,这样去掉探索地图应该会简单一点,而且也可以为赛事提供参考,就跟围棋比赛对比人类下法跟AI下法一样,感觉观赏性很强!
限制過多會影響發展這也是其中一項與人類相符的問題,基本上設置加減分這點就是一種限制。若是要拚通關速度,應該要告訴ai通關的最低要求,(如打完8個道館.4天王...等)當他有辦法通關之後,後續的學習就是尋找比前一次通關更低時間的遊玩方式另外就是學習的方式,看起來ai是選擇排錯.擇優2種都有,排錯的錯誤定義是錯的,則出現像影片中:明明是存入電腦這項動作是扣分,結果由於訓練的ai有一大部分在進入寶可夢中心後都會出現負分所以導致ai得出進入寶可夢中心就是不好的。人類其實也是一樣,例如從新聞上得到一些負面的訊息,如進入某些場所的人做了什麼不好的事重複得到相同的訊息多次之後,會先入為主的認為進入該場所的人都是不良分子。而擇優的問題也在影片中出現了,就是一但有解就不考慮新的解法,這點是訓練ai時也要考量到的,像圍棋ai就是透過競爭來去找尋更優解影片中的學習方式也可以拿圍棋ai來舉例,目前最強的圍棋ai在設定上只有告訴他基本規則跟最後獲勝的判定方式若是用吃子做加分,將會看到2個ai做劫互提子洗分數
聽君一席話如聽一席話,如果能夠訓練讓他通關的話早就通關了==
以後能用量子運算的AI,就不一樣了。量子運算背後的邏輯的是機率分佈,有助於解決寶可夢這類的問題。如果不懂的可以去看中研院發佈的演講影片,約一小時多的hardcore 內容
講解不錯,一開始遇到戰鬥就逃跑😂😂😂,很人性沒利益就避開😂😂😂
可能初始設定就有錯誤 寶可夢是以蒐集圖鑑 挑戰道館 四天王為核心 這不寫進去獎勵制度自然一直打轉再來是要讓AI發現屬性相剋招式增加分數或扣分讓AI去學習屬性問題中間會遇到火箭隊 由於AI很難理解劇情 所以到了第六道館部分可能又會卡住
蒐集圖鑑當獎勵機制?
AI對圖形的認知不行阿 她要怎麼學到屬性相剋
我也覺得能給戰鬥中能否打出效果絕佳或不好給出評分也是可行的,也能給每湊出一個圖鑑加分,還有通關道館或擊敗勁敵應該都要給到1000分給予誘因去前進。
@@2cosXcos-1 用CNN去背相剋表,或是甚至乾脆直接讓屬性表成為loss function的一部分。
AI 可以用CNN之類的模型取出圖像的特徵
其實沒走出月見山只是不想再燒錢 隨著錢包逐漸消瘦 該主播的大腦已經把訓練AI這件事情扣分到底了 最後自己也化身成AI 如果觀眾或是贊助者給的錢多一點 我想AI訓練節目還能繼續
看到一堆ai在那邊走莫名可愛
我記得以前有圖奇直播讓聊天室控制寶可夢走向那時候超好笑在一個不起眼的角落可以卡了好幾天聊天室都在鬧
從遊戲角度要先完全了解遊戲 才能讓AI不斷運行並成功 要提前設置的基礎分數與扣分與加分的需求數據很多 設置時間扣分就需要2到4種扣分評斷 多次重複路段扣分 擊敗怪物等級與時間長短進行加分 AI不點擊戰敗畫面是少了時間概念 他浪費時間上的分數不去討取更高的分數 也代表加分設置的並不完全 它的目的是取得當前的最高分數 而不是在最短時間達提前設置高分或是以最高分數達成目標 所以面對逞罰會完全採取迴避 以每走一格子路+10分 重複路段20扣分 每秒-5分 換張從未去過的地圖+100(X2+(1)機制可以讓AI完全用跑的並以最快速度找到換圖的最短路線 嘗試更多沒走過的路徑並省略無用路段 換取能獲得高分機會 刷怪練級跟換寵物 部分需要更完善 1~99級難度和效率不一樣 地圖怪等級也不相同1~99級升級以5X的分數去加可以增加 練級意願 地圖怪等級過低效率降低則需要 時間逞罰去規範 完善後AI會在趕路時才取練怪同時迴避過於低級無效區域 戰鬥時的回血是必要性 戰鬥時勝利回HP的量2X 與戰鬥時間扣除-1X 再以對方等級與我方等級為%篩選 會使AI認為回血是必要性並且不會進行濫用如何進行AI跟小孩不一樣 這不是一種對比 AI實行方式是完全照著你的規格來 他不動了不是她突然有個性是因為這是漏洞 AI不會去深究 原因 目的 或是其中原理 永遠才取最符合規格的最佳方式運行 受到考驗的永遠不是AI 是建立規則的人
換一個角度去看, 當年會有小孩只是為了繼續玩下去, 無關獎勵心態, 人的好奇心或持續一些沒意義的行為, 搞不好才是人類通關的理由。
西元1996我要成為神奇寶貝訓練大師西元2024我要成為神奇寶貝訓練大師訓練大師
比起ai,比較像是腳本,只是這個腳本可以無限自己觸發,沒辦法很直觀的判斷畫面跟語言指令,導致容易陷入死循環,我們需要不斷去修改指令的bug,你沒辦法很簡單跟他說"通過遊戲",或是想辦法打過最終頭目,就像影片說的第一次玩大概三小時就通關第一道館,而這腳本卻花了大概300多天的時間,對人來說遊戲的獎勵是,遊戲的過程跟通關的成就感,可是腳本沒辦法體驗這些,所以只能訂一些所謂的分數去要求他,對腳本來說高分才是他的遊戲,遊戲反而只是取得高分的道具,沒辦法理解圖片內容,沒辦法理解語言目的,只能用分數來判斷是否完成任務,人遇到困難會想盡一切辦法解決,目前的ai比較類似腳本,只會條件觸發觸發失敗就卡死,不會為了目的去嘗試解決問題,也可能就像我說的他沒辦法理解目的我相信任何人拿到寶可夢,你不用要求他也不用告訴他太多,一段時間以後他都知道這遊戲的目的跟內容,就是收集然後變強,你可以選擇不做,或是選擇不玩,可是一定能理解這遊戲,可是ai卻做不到,所以我覺得目前的ai基本上都是非常複雜的腳本
你根本完全沒理解AI阿,真心建議去補一下,會以腳本做例,代表你對計算機的認識停在很古早之前,AI真正厲害的是自我迭代的部分
@@Quick-Bull01 我是不知道你有沒有嘗試使用或是看完影片,明顯目前所謂的人工智能有很嚴重的缺陷就是無法完全理解人類指令,所謂的疊代更像是試錯,以影片來說ai沒辦法理解所謂的通關,所以人類只能用特殊的方法給他訂製一個高分去替代所謂的通關,導致不斷的卡bug,且不會自我修正,以不會用泡沫光線跟不會去醫療,明顯就是腳本的行為,所謂的智能可以理解圖片理解文字,所謂的智能會利用手上的資源讓事情變得輕鬆,例如人類會用火會用工具去打獵,你並不用跟人類說你想辦法不要去餓死或是跟他說怕她不理解所謂的餓死,訂製所謂的打獵目標我認為的ai他應該要能理解所謂的"通關遊戲",且能理解遊戲內一切內容,例如能理解一個寶可夢有四個技能,每個寶可夢每個技能有不同效果,他會主動去嘗試不同的寶可夢跟四個技能,然後得到最佳解答,就像你說的他會迭代可是以影片內容來說不管怎迭代他都不會做到我說的,甚至不斷卡死如果你有使用過ChatGPT類似的東西就知道,他回的常常是錯誤百出答非所問,你問他一個問題 他會統整資料給你,可是他卻不會判斷資料的正確性,導致資料內容有大量錯誤,他會依照一個規範去精簡統整內容給你,可是不會閱讀所以不知道正確性你要他畫畫或是創作,他沒辦法正確判斷比跟內容例導致有很明顯的違和感,感覺就很像非常大型會迭代的腳本,遇a執行b,遇b執行c,遇c執行d,他會不斷執行迭代所以可能自己執行到z去,可是他沒辦法理解a~z的內容
@@wushr6024 当AI会自行理解内容的时候,就是人类大祸临头的时候了.
在智慧型手機控制人們的時候,我們就是那個困在月見山的小智
特別的想法
那不是小智
AI : 傻瓜才練等打怪!,我就是想躺平!..躺在大草原上吹拂著自然風欣賞大自然風景..多美好多寫意啊!😊
因为奖励机制设定的太过单一,想通关宝可梦需要的不仅仅是提升等级与探索新地图,诸如迷宫解谜、属性克制、学习技能、挑选“强力”的宝可梦培养等等,这些机制都没有写进去。就像人无法做到认知范围外的事,AI也一样,没有学习到上面的那些概念,AI自然无法顺利的继续推进
原來小剛也能虐殺人,而不是被巴大蝴秒掉😂
本身就是一個有趣的實驗,但是只是看結果看數據,其實就很無聊但是你用非常生動且具備思考意義的方式進行解說,真的很厲害!
当年玩日文版,刚开始没有攻略,根本不知能去中心回复,一直靠药打到小刚。但是技能数补不上😂。一直卡着,后来过了一年多终于有攻略书,才学会去精灵中心回复
有趣的實驗 更有趣的是你的解說和觀點
AI 終究還是人類思維阿 畢竟是人類搞出來的
想起了朱紫的博士AI😢
選龜龜是正解,第一代小火龍是地獄開局,第一個道館就是岩石,之後又有水但是看完讓我最恐懼的就是,人類(其他動物也是)其實好像跟AI真的沒有太大區別
可是人类不同在于,我们有自己的审美(大概?)我的话我知道选小火龙是地狱开局,不过我还是会选小火龙
看著小哥為了引導ai定下了不同的規則,不同的獎勵,但是ai不時會因為這些規則而錯過正確選擇。就像我們教導小孩一樣,訂了規則定了獎勵,原意可能是好的,但規則不可能考慮到所有情況,一旦有特殊情況發生,反而成為了最大的束縛,就像那個死掉就不繼續的,還有不進去寶可夢中心的例子,你的小孩也可能不敢做某些事,童年陰影之類的。
那沒辦法的,AI可以有無限的機會去試,人生只有1次😊
看AI就好像看一个什么都不懂的婴儿成长的故事,而人类所能遇到的各种人性的弱点,再AI上也能体验出来。非常有意思的一次AI训练
其實別看AI玩這麼久還在卡關,人類即便是小孩接觸到新遊戲,沒十歲也是好幾歲已經活在這個世界上的人類,比起AI能閱讀懂一些文字而不是瞎按,也懂得一些人際關係,知道NPC或許藏有有利道具,還有社會法則,打敗強者可以讓自己地位提高,不過不得不說AI還是很強,在既有規則內玩到不錯的程度,然後突破不了就開始停損,實際上跟大多進入老年的人類一模一樣
AI根本就人類吧 哪邊好賺去哪邊 不好賺我直接躺平
这不是新的类神经网络AI,只是个旧的软体AI
可以給多點說明嗎
@@ytchiu1664就是有存檔功能,可以自行加入條件的解碼器。
强化学习怎么就不是神经网络了
@@AC-yv8on 今年的General AI会主动去解决问题。但以上的几个问题出现之后,作者都要主动改代码,这是在写程式,不是由AI主动去解决。我引用以下1234532001的话。@12345320014个月前表面上是測試AI實際上是考驗測試者定義獎懲的功力
@@turbomeavel 说的完全不对 概念都错了。我就是硅谷程序员 真是大无语。
紅綠版前期沒半隻水系抓,讓皮皮學TM12水槍當水系用,鯉魚王不會攻擊直接放生
初始的感覺非常好 訓練AI 操控AI... 希望未來不要反過來
雖然AI學習能開分身和加速很讓人羨慕,但看到AI的學習過程,就會意識到人類真的很聰明,很多事情沒特別去學就會了
這AI很聰明,有錢就幹活,沒錢就躺平
突然怀念起真新镇可还行,难道不是向上迭代检查是否还有没有遗漏的区域。就跟玩家打败最终对手以后一样,会继续把地图全走好多遍,防止出现自己没有发现的地方。然后玩家就在没有任何提示的情况下找到超梦。
這就是我認為現在的AI不據有真正智慧的點,AI都是透過大量樣本訓練花幾萬的小時記下過程與結果才能通關,而人類的智慧會預判可能結果來處理眼前難題,只需要幾十個或上百個小時就可以通關。
強化學習的算法在這六年改變很多 如果重新訓練也許會不一樣
挺有耐心教AI的,如果人類像這種情況,明明有能力思考證辯,但一直活在本能什至是躺平,屢教不改善。我必然會讓這種人自生自滅,簡單說我是讓這種人自然淘汰他自己。任何人事物都有良品率,當良品標準設定舒適又簡單,表現仍還是保持水平反而劣化了,那世界資源就白養他了。
首見直接扔球可以100%抓取我還是第一次聽說@@
好奇如果把首见宝可梦用金手指换别的,是不是也能100%捉到。例如梦幻
證明獎罰機制的條件設定才是決定人類行為的最重要因素
初代要讓鯉魚王進化成暴鯉龍,需要每場把牠放到第一隻,然後再換成別隻暴寶可夢來打倒對手,以此來共享經驗值,這會讓自己失去先手優勢,只要進化出暴鯉龍就能成為強力的打手,但是這種先苦後樂的玩法,AI應該沒機會領悟吧?(因為專注於小目標的達標)
理論上可以,從RNN到LSTM就是為了要做這種事情,甚至是把整個遊玩過程當作LLM的輸入,那就有機會,但這要GPT那種等級的算力才能做到。
您解說的太好了😂
要教ai 要去第四關百貨頂樓買汽水再去第六關 應該幾麻煩😂
打完第三道館要用斬樹已經會卡
月見山地圖改成尋找洞口像素區塊加分,試試
其實就一個目標,探索新地圖。要探索新地圖,必須要打敗玩家,要打敗玩家,必須要捕捉精靈強起來
有沒有辦法,直接抽取打王者當下的紀錄,然後讓程式兩邊運行,節省試錯成本?
我记得我大概2年级玩红版刚出的时候,光卡在月见山山洞就得3次,基本是前后重复玩到第四遍才过掉山洞来到水系道馆。
事實證明 AI只想好好生活 不要逼迫他他不想做的事情
這些AI也太可愛了吧 xD
別小看20年前的小遊戲當時我能破關代表我真的很厲害那時我還國小2年級😂😂😂😂
這讓我回想起兩件事情...小時候我跟我姊一人有一台掌上遊戲機,並且擁有寶可夢藍版和紅版各一個1.我拿紅版不知道怎麼從真新鎮離開(有個人擋住去路),因此我與我的小火龍在那邊打2~4等怪物打到他進化為噴火龍...當我想要抓寶可夢時才發現這遊戲有任務...但因為是日文的所以又過了很久的時間才送給大木博士...打第一道館時我帶著我的72等噴火龍輕鬆過關 之後卡在不知道怎麼學衝浪的地方而沒有繼續遊玩2.我姊拿藍版...她倒是很快就知道怎麼離開真新鎮了,但是她只要進了山洞就會迷路...在月見山迷路到水箭龜100等都沒有走出月見山...而且也不會拿放在電腦裡多餘的寶可夢...身上帶著拉達 比雕 水箭龜 巴大蝴 大針鋒 暴里龍(都100等) ,之後也沒有再玩了
問題就是ai參數太少 要把所有寶可夢參數輸入 招式 破壞力 之類的全部輸入
自己幫拉達取名,再第一個派上場想想真的超像人類
好有趣的解說!
也許,ai一開始就呆在左下方的河邊耍廢,才是人生最優解...
AI要是也這樣 就跟人類沒兩樣了😂
用負獎勵機制的話呢? 開始先-99999999 每做一件就+一些分數給甜頭 不知道照樣是否可以消除他的恐懼讓他更有勇氣。
所以說機器人三定律就是充滿bug的第一代規則🤣
感覺不像是AI,比較像是try and error的邏輯程式?
人類只有一次ai有無數次這是最可怕的
我也是在那座山上放棄的,一堆怪物又不知道怎麼走
最後AI受不了直接修改了後台程序直接破關
小時候玩到第三道館 看到卡比獸過不去 解果一職在第三道館附近尋找過去的死胡同 皮卡丘都練到有打雷了 比比鳥也從16等練到53等比雕也不知道要回去第二道館尋找前進的路 那時候的邏輯就是第三道館接下來就應該是第四道館的死邏輯 而不知道路竟然是在第二道館XDD
岩山隧道沒閃光走好久才出去,20等皮皮學了TM12水槍過一堆山男小拳石,火恐龍皮卡丘比比鳥跟本打不動岩石系
@@打怪過關 火恐龍有TM28的話打岩石就還行 四色版威力有100跟地震一樣 :))
@@s901245678小時候第一次玩只知道水克岩
通常來說,我們可以將ai視作一個絕對理性的人類(畢竟他也沒有感情),所以,與其説是看到了“人性弱點”,不如說是哪怕絕對理性,在智障的規則下也只能執行智障的行為
地球這50億年是不是某一次迭代😮
AI是通過大量運算會出現靈魂,放在國防上很猛,AI是為了國防出現的,希望可以做一集
這部太神了 結論 算力不足
好怪 這篇影片我看是AI玩寶可夢 卻有獅白玩艾爾登法環的留言...
用運算更強的也沒怎樣,強化學習,你最終還是要定義環境,獎勵,懲罰,所以卡關後不改機制,永遠都卡在那
第一次因講解ai 初步認識到ai怎形成怎學習的 感謝
其實政府也只是有賞罰功能,而人們就是不停探索的AI, 當機制不好時只手能擺爛躺平。
有一說一 這不能說是AI 他只是寫出一堆 if else 來去遊玩這遊戲和幾十年前用窮舉法舉出棋類下棋解法一樣
這根本不是AI自行學習啊 這只是一直不斷調整條件去把結果往自己想要的方向引導過去
加油啊AI 組出你最強隊伍 登上冠軍
把AI想像成原始人那就很合理了,就什麼都不會開始
1:44 平行世界 到了某個時間點就大整合, 出現曼德拉效應, 然後又平行世界. ...
ai反映出了人性的缺點 換句話說 訓練的根本不是ai 而是在虛擬代碼裡的「人」或是靈魂
其實小火龍有可以直接用鋼爪硬破岩石系道館
AI更喜歡當躺平族 、薪水小偷🤣
遊戲要繼續推進,打贏訓練家分數要十分才對。
ai就是奇异博士,40个平行世界尝试出唯一的最优解
精彩,意犹未尽,谢谢
以這款遊戲來說,正確的道路是,能通關這款遊戲,但以人生來說,什麼才是正確的道路呢,我們又迭代了多少次,才能走出比上一次還進步的路線
作者也在疊代Kpi的優化😂😂😂
AI说的好听,其实就是靠算力试错
如果用蒙特卡羅搜尋樹加上transformer模型的DRL應該能突破
我小時候月見山抓的皮皮一直練他也不進化,但招式不錯用
😂用奖励机制是不是有点问题?看上去“走遍全部地图”这种方式好像一开始就是有问题的。只是假如,假如用设定条件的方式,对,奖励机制也属于设定条件的一种,但我这里说的是用正确或类正确的方式/方法。举个例子,前段时间有个AI就是用来断定一个历史文物上的文字。那么,AI是如何断定一个文物上的文字的呢?当然是要给AI一个初始的,已经被证实过是正确的数据,让AI在正确的数据上学习,然后再扩展AI的文字库,而不是让一个小白,或者说从未接触过一样东西的人从零开始,连上下左右代表什么都不理解。当然,这样的设定要做很多前期工作,比如说要让AI知道哪里能遇到怪,升级的目的等诸多内容
其实我想说能设立的条件不应该是奖励机制,而类似于正确与否。这么说吧,比如说可以自己打通关一次游戏,让AI学习,然后让AI用自己的方式多打通几次,从而得到“效率”的结果。对,这么说要实现的条件太多,先不说时间要花多少。那么,作者迭代的方式/方法就相当于在AI有困难时期,或者说不知如何操作之后才进行的改变,在我看来还不如教AI最基本的操作,或者人的思考模式之后,比较能够进行下去。就比如,不需要走过每一寸土地,不需要遇到每一个怪,以及训练家很多时候是对打一次之后就没办法重复对打,再比如,有些区域是可以遇到怪的,有些则不行。再者视频的最后不就卡在了一个地方过不去的情况么?那是AI走了那么多路线也不知道路线和路线之间的分别是什么。总之,我想说的是“训练”一个AI,是要有基本的操作的,这也是为什么现在大部分的AI在发布前,或者说应用前是要给AI设定条件,或者说对正确事物的理解,才发布,否则从零开始学习的东西,用多少代在我看来是一种浪费时间,比增加条件还要复杂,就变成了一种概率的问题。而现在大部分的AI已经不是停留在概率上了,更多的是“认知”范围。
我怎麼覺得到頭來被訓練的是工程師而不是AI呢?
謝謝您的解說!
什么杰尼龟天生防御好,是因为杰尼龟模型大像素点多
這ai不是ai啊,說穿了,無法自行學習,還是要靠人類的修正,終究還是一個人類給序規則,所以電腦照著規則跑的程式而已。
好玩的遊戲,謝謝小月的介紹!!
可是女生对这没什么兴趣
@@jake9854 不會 女生很喜歡
先不管AI怎樣,你的解説是真的好啊,請繼續下去!已關注
表面上是測試AI
實際上是考驗測試者
定義獎懲的功力
也代表家長、學校、社會對小孩的獎勵會帶來什麼結果
以后教室要考察AI训练等级
這是教育者模擬器啊……
沒錯,疊代式AI 最重要的就是參數怎麼定義
天啊 好哲學
這獎懲很像目前的錢,比如升官加給500,桃槽通常多5000,轉職科技業多100000,然後財富自由需要到達某個數值,比如說5000萬,算上年紀等數值後,很多人直接判定無法達成,所以很多人就想直接躺平,就像一開始在轉圈圈一樣,其實政府的作用就在這裡,如果一個國家越是M化代表獎懲機制有很大的問題,基本最後出現無法破關的結局,只是人類如果要修改所謂的社會制度,通常都是需要流血的,而不是單純改改數據而已
但現代社會有個很大的問題 政府是擁有法理跟軍隊的 社會一定是被權貴跟機制運作的政府把控
政府的機制就是確保自己一直在社會頂端,其他人是死是活沒扣分也沒加分沒差
我們所在的社會就是那些有權有錢的人建立起來的規則,他們會優先確保自己可以永遠站在金字塔的頂端
遊戲就是用數值定義模擬世界啊
當你以為過不了月見山時,其實是AI發現世界是虛擬的沒必要繼續前進了。
終於懂設計師為什麼設計到五代才穩定母體了
真的很希望繼續訓練啊!!!
然後你的解說真的很好 讓人有一種一直想聽下去的感覺 已訂閱
我覺得更厲害的是你的解讀功力,像在看一篇精彩的故事一樣,作為觀眾很享受
以一個時長三個月以 AI 為專題的學生來說
影片中遇到的問題算基礎問題
1.學習率太高 導致模型一下就 overfiting
一次扣分就不嘗試 不會這麼極端 也跟該工程師以多少 round 為訓練基準為主
EX:
5分鐘為基準 模型碰到一次負分 極度敏感(因為5分鐘內可能就只出現該動作 反饋 -1 分)
24小時為基準 模型碰到一次負分 稍稍察覺(因為24小時 通常還會有其他有的沒的操作 可能反饋 -3 -2 -1 +0 +1 +2 +3)
2.以什麼為預測結果 是整個訓練中最重要的問題
不過考慮到訓練費用 確實沒辦法做得太多
除非是在學校 設備免費就無所謂
趕快畢業吧,老兄
@@Xuan-r1h 老兄 早就開始工作囉
@@AAA1649 好想學阿不過自學很難有系統的學習(我目前使用TF-JS
@@Xuan-r1hㄏㄏ
我感覺是野心太大,不該用一個單純的獎勵公式去嘗試定義所有任務。
分模型去執行比較好,只是會難在怎麼讓AI創造出為了戰鬥多買幾瓶水這種跨足時間很長的事。
LSTM也只是有那份記憶,要怎麼讓記憶穿梭於不同模型之間會是個難點。
AI會停下來是人給的獎勵太不均勻
道館過關這類主線任務應該要遠大於升等
比如過道館或找到過地圖關鍵道具都給1000分或更多
高到打怪升等沒辦法追過的程度
這個訓練應該是經濟學概念的最優解
但是人類有所謂的「行為經濟學」導向
所以經濟學是理想
但行為經濟學是現實。
例如明明近在眼前的救火的東西不買
跑去遠在天邊打八折的品項購買就是很好的例子
这个算法和思路反正是蛮考验编程小哥的水平的
因為設定錯誤導致怕了進入寶可夢中心那一部份, 道出了很多人常說ai毀滅人類的可能性, 可怕的不是ai本身, 是人類會錯誤設置參數啊.....那怕只是訓練的起始一個不起眼的code,可能最終在超級ai發展成功的最後階段,就引發不可收拾的局面....
先搞清楚什麼是AI 別看電影看上腦
個人認為其實應該要把不同階段的操作系統分給不同的AI模組甚至是用多模態下去做
當然,這是AGI技術還沒到達科幻小說所以使用的屈就方法
水槍克制岩石系這事搞那麼久,代表至少戰鬥系統和移動系統要分開。
為甚麼會這麼說呢,因為人類可以感受到畫面、可以讀取文字,既然這樣AI也要可以做到等價的行為才行。
比如招式屬性,最好的應該是用ocr或是別的AI去記憶,像我們背99乘法表一樣。可能把屬性剋制表做成一個2D input丟進去CNN去訓練,CNN filter 的kernel size可能就訂死在屬性表的大小。當然,戰鬥時要能明確告訴AI自身的屬性和對方的屬性,所以這個2D input可能要兩個以上的channel,一個是招式對對手屬性,另一個是自己屬性與對手屬性,可能還要再一個channel表示對手曾經使出過的招式屬性。
又比如寶可夢中心和道館的慘案,代表「進入地區」這件事應該也要拆出來,人類可以聽到音樂不同,那至少要讓AI得到一個標籤,甚至最好是每出現一段新的音樂(場景),這樣的話有兩種思路。一是這部分的輸出每當出現新的bgm就能多設置一個神經元,MLP在程式設計上要這樣操作很難,不過可以考慮用SOM結構,只要確定SOM輸出層的大小大於BGM的量就能做到,SOM的BMU的特性可以讓輸出層可以不用顧慮到必須與對應的數量相等的問題;二是可以先作弊設置好和bgm同等數的MLP輸出神經元等分類。可能也有直接讓其介入loss function的做法,但是由於bgm不應該具備位階而是單純的種類不同,我想不到能比較好把one hot encode給灌進loss function的方式。
我會這樣考慮是因為這種AI學習的方式和我小時候玩日文遊戲很像,啥都看不懂瞎按。但是人類能很快就學到招數剋制、打怪升級這些。
我想到這是因為寶可夢的屬性剋制大部分都是從生活常識來的,像最基本的水剋火、火剋草,但AI沒法讀取這些知識,所以應該要由人這邊先提供給它,相當於是讓AI有攻略可以查。
另外,打怪時的思維模式和走迷宮的思維模式應該是不同但彼此間有接續的,用多個功能型AI去組合會比用單一一個AI去跑強化更符合這個行為。
大哥这样娓娓道来的聊A I分析真的好好听🎉
比较想看AI学习宝可梦对战,就纯对战单打三对三或者双打四对四,这样去掉探索地图应该会简单一点,而且也可以为赛事提供参考,就跟围棋比赛对比人类下法跟AI下法一样,感觉观赏性很强!
限制過多會影響發展這也是其中一項與人類相符的問題,
基本上設置加減分這點就是一種限制。
若是要拚通關速度,應該要告訴ai通關的最低要求,(如打完8個道館.4天王...等)
當他有辦法通關之後,後續的學習就是尋找比前一次通關更低時間的遊玩方式
另外就是學習的方式,看起來ai是選擇排錯.擇優2種都有,
排錯的錯誤定義是錯的,則出現像影片中:
明明是存入電腦這項動作是扣分,結果由於訓練的ai有一大部分在進入寶可夢中心後都會出現負分
所以導致ai得出進入寶可夢中心就是不好的。
人類其實也是一樣,例如從新聞上得到一些負面的訊息,如進入某些場所的人做了什麼不好的事
重複得到相同的訊息多次之後,會先入為主的認為進入該場所的人都是不良分子。
而擇優的問題也在影片中出現了,就是一但有解就不考慮新的解法,這點是訓練ai時也要考量到的,像圍棋ai就是透過競爭來去找尋更優解
影片中的學習方式也可以拿圍棋ai來舉例,目前最強的圍棋ai在設定上只有告訴他基本規則跟最後獲勝的判定方式
若是用吃子做加分,將會看到2個ai做劫互提子洗分數
聽君一席話如聽一席話,如果能夠訓練讓他通關的話早就通關了==
以後能用量子運算的AI,就不一樣了。量子運算背後的邏輯的是機率分佈,有助於解決寶可夢這類的問題。如果不懂的可以去看中研院發佈的演講影片,約一小時多的hardcore 內容
講解不錯,一開始遇到戰鬥就逃跑😂😂😂,很人性沒利益就避開😂😂😂
可能初始設定就有錯誤 寶可夢是以蒐集圖鑑 挑戰道館 四天王為核心 這不寫進去獎勵制度自然一直打轉
再來是要讓AI發現屬性相剋招式增加分數或扣分讓AI去學習屬性問題
中間會遇到火箭隊 由於AI很難理解劇情 所以到了第六道館部分可能又會卡住
蒐集圖鑑當獎勵機制?
AI對圖形的認知不行阿 她要怎麼學到屬性相剋
我也覺得能給戰鬥中能否打出效果絕佳或不好給出評分也是可行的,也能給每湊出一個圖鑑加分,還有通關道館或擊敗勁敵應該都要給到1000分給予誘因去前進。
@@2cosXcos-1 用CNN去背相剋表,或是甚至乾脆直接讓屬性表成為loss function的一部分。
AI 可以用CNN之類的模型取出圖像的特徵
其實沒走出月見山只是不想再燒錢 隨著錢包逐漸消瘦 該主播的大腦已經把訓練AI這件事情扣分到底了 最後自己也化身成AI 如果觀眾或是贊助者給的錢多一點 我想AI訓練節目還能繼續
看到一堆ai在那邊走莫名可愛
我記得以前有圖奇直播讓聊天室控制寶可夢走向
那時候超好笑在一個不起眼的角落可以卡了好幾天聊天室都在鬧
從遊戲角度要先完全了解遊戲 才能讓AI不斷運行並成功 要提前設置的基礎分數與扣分與加分的需求數據很多 設置時間扣分就需要2到4種扣分評斷 多次重複路段扣分 擊敗怪物等級與時間長短進行加分 AI不點擊戰敗畫面是少了時間概念 他浪費時間上的分數不去討取更高的分數 也代表加分設置的並不完全 它的目的是取得當前的最高分數 而不是在最短時間達提前設置高分或是以最高分數達成目標 所以面對逞罰會完全採取迴避 以每走一格子路+10分 重複路段20扣分 每秒-5分 換張從未去過的地圖+100(X2+(1)機制可以讓AI完全用跑的並以最快速度找到換圖的最短路線 嘗試更多沒走過的路徑並省略無用路段 換取能獲得高分機會 刷怪練級跟換寵物 部分需要更完善 1~99級難度和效率不一樣 地圖怪等級也不相同
1~99級升級以5X的分數去加可以增加 練級意願 地圖怪等級過低效率降低則需要 時間逞罰去規範 完善後AI會在趕路時才取練怪同時迴避過於低級無效區域
戰鬥時的回血是必要性 戰鬥時勝利回HP的量2X 與戰鬥時間扣除-1X 再以對方等級與我方等級為%篩選 會使AI認為回血是必要性並且不會進行濫用如何進行
AI跟小孩不一樣 這不是一種對比 AI實行方式是完全照著你的規格來 他不動了不是她突然有個性是因為這是漏洞 AI不會去深究 原因 目的 或是其中原理 永遠才取最符合規格的最佳方式運行 受到考驗的永遠不是AI 是建立規則的人
換一個角度去看, 當年會有小孩只是為了繼續玩下去, 無關獎勵心態, 人的好奇心或持續一些沒意義的行為, 搞不好才是人類通關的理由。
西元1996
我要成為神奇寶貝訓練大師
西元2024
我要成為神奇寶貝訓練大師訓練大師
比起ai,比較像是腳本,只是這個腳本可以無限自己觸發,沒辦法很直觀的判斷畫面跟語言指令,導致容易陷入死循環,我們需要不斷去修改指令的bug,你沒辦法很簡單跟他說"通過遊戲",或是想辦法打過最終頭目,就像影片說的第一次玩大概三小時就通關第一道館,而這腳本卻花了大概300多天的時間,對人來說遊戲的獎勵是,遊戲的過程跟通關的成就感,可是腳本沒辦法體驗這些,所以只能訂一些所謂的分數去要求他,對腳本來說高分才是他的遊戲,遊戲反而只是取得高分的道具,沒辦法理解圖片內容,沒辦法理解語言目的,只能用分數來判斷是否完成任務,人遇到困難會想盡一切辦法解決,目前的ai比較類似腳本,只會條件觸發觸發失敗就卡死,不會為了目的去嘗試解決問題,也可能就像我說的他沒辦法理解目的
我相信任何人拿到寶可夢,你不用要求他也不用告訴他太多,一段時間以後他都知道這遊戲的目的跟內容,就是收集然後變強,你可以選擇不做,或是選擇不玩,可是一定能理解這遊戲,可是ai卻做不到,所以我覺得目前的ai基本上都是非常複雜的腳本
你根本完全沒理解AI阿,真心建議去補一下,會以腳本做例,代表你對計算機的認識停在很古早之前,AI真正厲害的是自我迭代的部分
@@Quick-Bull01 我是不知道你有沒有嘗試使用或是看完影片,明顯目前所謂的人工智能有很嚴重的缺陷就是無法完全理解人類指令,所謂的疊代更像是試錯,以影片來說ai沒辦法理解所謂的通關,所以人類只能用特殊的方法給他訂製一個高分去替代所謂的通關,導致不斷的卡bug,且不會自我修正,以不會用泡沫光線跟不會去醫療,明顯就是腳本的行為,所謂的智能可以理解圖片理解文字,所謂的智能會利用手上的資源讓事情變得輕鬆,例如人類會用火會用工具去打獵,你並不用跟人類說你想辦法不要去餓死或是跟他說怕她不理解所謂的餓死,訂製所謂的打獵目標
我認為的ai他應該要能理解所謂的"通關遊戲",且能理解遊戲內一切內容,例如能理解一個寶可夢有四個技能,每個寶可夢每個技能有不同效果,他會主動去嘗試不同的寶可夢跟四個技能,然後得到最佳解答,就像你說的他會迭代可是以影片內容來說不管怎迭代他都不會做到我說的,甚至不斷卡死
如果你有使用過ChatGPT類似的東西就知道,他回的常常是錯誤百出答非所問,你問他一個問題 他會統整資料給你,可是他卻不會判斷資料的正確性,導致資料內容有大量錯誤,他會依照一個規範去精簡統整內容給你,可是不會閱讀所以不知道正確性
你要他畫畫或是創作,他沒辦法正確判斷比跟內容例導致有很明顯的違和感,感覺就很像非常大型會迭代的腳本,遇a執行b,遇b執行c,遇c執行d,他會不斷執行迭代所以可能自己執行到z去,可是他沒辦法理解a~z的內容
@@wushr6024 当AI会自行理解内容的时候,就是人类大祸临头的时候了.
在智慧型手機控制人們的時候,我們就是那個困在月見山的小智
特別的想法
那不是小智
AI : 傻瓜才練等打怪!,我就是想躺平!..躺在大草原上吹拂著自然風欣賞大自然風景..多美好多寫意啊!😊
因为奖励机制设定的太过单一,想通关宝可梦需要的不仅仅是提升等级与探索新地图,诸如迷宫解谜、属性克制、学习技能、挑选“强力”的宝可梦培养等等,这些机制都没有写进去。就像人无法做到认知范围外的事,AI也一样,没有学习到上面的那些概念,AI自然无法顺利的继续推进
原來小剛也能虐殺人,而不是被巴大蝴秒掉😂
本身就是一個有趣的實驗,但是只是看結果看數據,其實就很無聊
但是你用非常生動且具備思考意義的方式進行解說,真的很厲害!
当年玩日文版,刚开始没有攻略,根本不知能去中心回复,一直靠药打到小刚。但是技能数补不上😂。一直卡着,后来过了一年多终于有攻略书,才学会去精灵中心回复
有趣的實驗 更有趣的是你的解說和觀點
AI 終究還是人類思維阿 畢竟是人類搞出來的
想起了朱紫的博士AI😢
選龜龜是正解,第一代小火龍是地獄開局,第一個道館就是岩石,之後又有水
但是看完讓我最恐懼的就是,人類(其他動物也是)其實好像跟AI真的沒有太大區別
可是人类不同在于,我们有自己的审美(大概?)我的话我知道选小火龙是地狱开局,不过我还是会选小火龙
看著小哥為了引導ai定下了不同的規則,不同的獎勵,但是ai不時會因為這些規則而錯過正確選擇。就像我們教導小孩一樣,訂了規則定了獎勵,原意可能是好的,但規則不可能考慮到所有情況,一旦有特殊情況發生,反而成為了最大的束縛,就像那個死掉就不繼續的,還有不進去寶可夢中心的例子,你的小孩也可能不敢做某些事,童年陰影之類的。
那沒辦法的,AI可以有無限的機會去試,人生只有1次😊
看AI就好像看一个什么都不懂的婴儿成长的故事,而人类所能遇到的各种人性的弱点,再AI上也能体验出来。非常有意思的一次AI训练
其實別看AI玩這麼久還在卡關,人類即便是小孩接觸到新遊戲,沒十歲也是好幾歲已經活在這個世界上的人類,比起AI能閱讀懂一些文字而不是瞎按,也懂得一些人際關係,知道NPC或許藏有有利道具,還有社會法則,打敗強者可以讓自己地位提高,不過不得不說AI還是很強,在既有規則內玩到不錯的程度,然後突破不了就開始停損,實際上跟大多進入老年的人類一模一樣
AI根本就人類吧 哪邊好賺去哪邊 不好賺我直接躺平
这不是新的类神经网络AI,只是个旧的软体AI
可以給多點說明嗎
@@ytchiu1664就是有存檔功能,可以自行加入條件的解碼器。
强化学习怎么就不是神经网络了
@@AC-yv8on 今年的General AI会主动去解决问题。
但以上的几个问题出现之后,作者都要主动改代码,这是在写程式,不是由AI主动去解决。我引用以下1234532001的话。
@1234532001
4个月前
表面上是測試AI
實際上是考驗測試者
定義獎懲的功力
@@turbomeavel 说的完全不对 概念都错了。我就是硅谷程序员 真是大无语。
紅綠版前期沒半隻水系抓,讓皮皮學TM12水槍當水系用,鯉魚王不會攻擊直接放生
初始的感覺非常好 訓練AI 操控AI... 希望未來不要反過來
雖然AI學習能開分身和加速很讓人羨慕,但看到AI的學習過程,就會意識到人類真的很聰明,很多事情沒特別去學就會了
這AI很聰明,有錢就幹活,沒錢就躺平
突然怀念起真新镇可还行,难道不是向上迭代检查是否还有没有遗漏的区域。就跟玩家打败最终对手以后一样,会继续把地图全走好多遍,防止出现自己没有发现的地方。然后玩家就在没有任何提示的情况下找到超梦。
這就是我認為現在的AI不據有真正智慧的點,AI都是透過大量樣本訓練花幾萬的小時記下過程與結果才能通關,
而人類的智慧會預判可能結果來處理眼前難題,只需要幾十個或上百個小時就可以通關。
強化學習的算法在這六年改變很多 如果重新訓練也許會不一樣
挺有耐心教AI的,如果人類像這種情況,明明有能力思考證辯,但一直活在本能什至是躺平,屢教不改善。
我必然會讓這種人自生自滅,簡單說我是讓這種人自然淘汰他自己。
任何人事物都有良品率,當良品標準設定舒適又簡單,表現仍還是保持水平反而劣化了,那世界資源就白養他了。
首見直接扔球可以100%抓取我還是第一次聽說@@
好奇如果把首见宝可梦用金手指换别的,是不是也能100%捉到。例如梦幻
證明獎罰機制的條件設定才是決定人類行為的最重要因素
初代要讓鯉魚王進化成暴鯉龍,需要每場把牠放到第一隻,然後再換成別隻暴寶可夢來打倒對手,以此來共享經驗值,這會讓自己失去先手優勢,只要進化出暴鯉龍就能成為強力的打手,但是這種先苦後樂的玩法,AI應該沒機會領悟吧?(因為專注於小目標的達標)
理論上可以,從RNN到LSTM就是為了要做這種事情,甚至是把整個遊玩過程當作LLM的輸入,那就有機會,但這要GPT那種等級的算力才能做到。
您解說的太好了😂
要教ai 要去第四關百貨頂樓買汽水再去第六關 應該幾麻煩😂
打完第三道館要用斬樹已經會卡
月見山地圖改成尋找洞口像素區塊加分,試試
其實就一個目標,探索新地圖。要探索新地圖,必須要打敗玩家,要打敗玩家,必須要捕捉精靈強起來
有沒有辦法,直接抽取打王者當下的紀錄,然後讓程式兩邊運行,節省試錯成本?
我记得我大概2年级玩红版刚出的时候,光卡在月见山山洞就得3次,基本是前后重复玩到第四遍才过掉山洞来到水系道馆。
事實證明 AI只想好好生活 不要逼迫他他不想做的事情
這些AI也太可愛了吧 xD
別小看20年前的小遊戲
當時我能破關代表我真的很厲害
那時我還國小2年級😂😂😂😂
這讓我回想起兩件事情...小時候我跟我姊一人有一台掌上遊戲機,並且擁有寶可夢藍版和紅版各一個
1.我拿紅版不知道怎麼從真新鎮離開(有個人擋住去路),因此我與我的小火龍在那邊打2~4等怪物打到他進化為噴火龍...當我想要抓寶可夢時才發現這遊戲有任務...但因為是日文的所以又過了很久的時間才送給大木博士...打第一道館時我帶著我的72等噴火龍輕鬆過關 之後卡在不知道怎麼學衝浪的地方而沒有繼續遊玩
2.我姊拿藍版...她倒是很快就知道怎麼離開真新鎮了,但是她只要進了山洞就會迷路...在月見山迷路到水箭龜100等都沒有走出月見山...而且也不會拿放在電腦裡多餘的寶可夢...
身上帶著拉達 比雕 水箭龜 巴大蝴 大針鋒 暴里龍(都100等) ,之後也沒有再玩了
問題就是ai參數太少 要把所有寶可夢參數輸入 招式 破壞力 之類的全部輸入
自己幫拉達取名,再第一個派上場
想想真的超像人類
好有趣的解說!
也許,
ai一開始就呆在左下方的河邊耍廢,
才是人生最優解...
AI要是也這樣 就跟人類沒兩樣了😂
用負獎勵機制的話呢? 開始先-99999999 每做一件就+一些分數給甜頭 不知道照樣是否可以消除他的恐懼讓他更有勇氣。
所以說機器人三定律就是充滿bug的第一代規則🤣
感覺不像是AI,比較像是try and error的邏輯程式?
人類只有一次ai有無數次這是最可怕的
我也是在那座山上放棄的,一堆怪物又不知道怎麼走
最後AI受不了直接修改了後台程序直接破關
小時候玩到第三道館 看到卡比獸過不去 解果一職在第三道館附近尋找過去的死胡同 皮卡丘都練到有打雷了 比比鳥也從16等練到53等比雕也不知道要回去第二道館尋找前進的路 那時候的邏輯就是第三道館接下來就應該是第四道館的死邏輯 而不知道路竟然是在第二道館XDD
岩山隧道沒閃光走好久才出去,20等皮皮學了TM12水槍過一堆山男小拳石,火恐龍皮卡丘比比鳥跟本打不動岩石系
@@打怪過關 火恐龍有TM28的話打岩石就還行 四色版威力有100跟地震一樣 :))
@@s901245678小時候第一次玩只知道水克岩
通常來說,我們可以將ai視作一個絕對理性的人類(畢竟他也沒有感情),所以,與其説是看到了“人性弱點”,不如說是哪怕絕對理性,在智障的規則下也只能執行智障的行為
地球這50億年是不是某一次迭代😮
AI是通過大量運算會出現靈魂,放在國防上很猛,AI是為了國防出現的,希望可以做一集
這部太神了 結論 算力不足
好怪 這篇影片我看是AI玩寶可夢 卻有獅白玩艾爾登法環的留言...
用運算更強的也沒怎樣,強化學習,你最終還是要定義環境,獎勵,懲罰,所以卡關後不改機制,永遠都卡在那
第一次因講解ai 初步認識到ai怎形成怎學習的 感謝
其實政府也只是有賞罰功能,而人們就是不停探索的AI, 當機制不好時只手能擺爛躺平。
有一說一 這不能說是AI 他只是寫出一堆 if else 來去遊玩這遊戲
和幾十年前用窮舉法舉出棋類下棋解法一樣
這根本不是AI自行學習啊
這只是一直不斷調整條件去把結果往自己想要的方向引導過去
加油啊AI 組出你最強隊伍 登上冠軍
把AI想像成原始人那就很合理了,就什麼都不會開始
1:44 平行世界 到了某個時間點就大整合, 出現曼德拉效應, 然後又平行世界. ...
ai反映出了人性的缺點 換句話說 訓練的根本不是ai 而是在虛擬代碼裡的「人」或是靈魂
其實小火龍有可以直接用鋼爪硬破岩石系道館
AI更喜歡當躺平族 、薪水小偷🤣
遊戲要繼續推進,打贏訓練家分數要十分才對。
ai就是奇异博士,40个平行世界尝试出唯一的最优解
精彩,意犹未尽,谢谢
以這款遊戲來說,正確的道路是,能通關這款遊戲,但以人生來說,什麼才是正確的道路呢,我們又迭代了多少次,才能走出比上一次還進步的路線
作者也在疊代Kpi的優化😂😂😂
AI说的好听,其实就是靠算力试错
如果用蒙特卡羅搜尋樹加上transformer模型的DRL應該能突破
我小時候月見山抓的皮皮一直練他也不進化,但招式不錯用
😂用奖励机制是不是有点问题?看上去“走遍全部地图”这种方式好像一开始就是有问题的。只是假如,假如用设定条件的方式,对,奖励机制也属于设定条件的一种,但我这里说的是用正确或类正确的方式/方法。举个例子,前段时间有个AI就是用来断定一个历史文物上的文字。那么,AI是如何断定一个文物上的文字的呢?当然是要给AI一个初始的,已经被证实过是正确的数据,让AI在正确的数据上学习,然后再扩展AI的文字库,而不是让一个小白,或者说从未接触过一样东西的人从零开始,连上下左右代表什么都不理解。当然,这样的设定要做很多前期工作,比如说要让AI知道哪里能遇到怪,升级的目的等诸多内容
其实我想说能设立的条件不应该是奖励机制,而类似于正确与否。这么说吧,比如说可以自己打通关一次游戏,让AI学习,然后让AI用自己的方式多打通几次,从而得到“效率”的结果。对,这么说要实现的条件太多,先不说时间要花多少。那么,作者迭代的方式/方法就相当于在AI有困难时期,或者说不知如何操作之后才进行的改变,在我看来还不如教AI最基本的操作,或者人的思考模式之后,比较能够进行下去。就比如,不需要走过每一寸土地,不需要遇到每一个怪,以及训练家很多时候是对打一次之后就没办法重复对打,再比如,有些区域是可以遇到怪的,有些则不行。再者视频的最后不就卡在了一个地方过不去的情况么?那是AI走了那么多路线也不知道路线和路线之间的分别是什么。总之,我想说的是“训练”一个AI,是要有基本的操作的,这也是为什么现在大部分的AI在发布前,或者说应用前是要给AI设定条件,或者说对正确事物的理解,才发布,否则从零开始学习的东西,用多少代在我看来是一种浪费时间,比增加条件还要复杂,就变成了一种概率的问题。而现在大部分的AI已经不是停留在概率上了,更多的是“认知”范围。
我怎麼覺得到頭來被訓練的是工程師而不是AI呢?
謝謝您的解說!
什么杰尼龟天生防御好,是因为杰尼龟模型大像素点多
這ai不是ai啊,說穿了,無法自行學習,還是要靠人類的修正,終究還是一個人類給序規則,所以電腦照著規則跑的程式而已。
好玩的遊戲,謝謝小月的介紹!!
可是女生对这没什么兴趣
@@jake9854 不會 女生很喜歡