【生成式AI】大模型 + 大資料 = 神奇結果?(1/3):大模型的頓悟時刻
HTML-код
- Опубликовано: 14 янв 2025
- 影片字幕由台灣大學化工所的張育誠同學提供
投影片: drive.google.c...
Emergent Abilities of Large Language Models: arxiv.org/abs/...
Language Models (Mostly) Know What They Know: arxiv.org/abs/...
Inverse scaling can become U-shaped:
arxiv.org/abs/...
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
www.jmlr.org/p...
影片字幕由台灣大學化工所的張育誠同學提供
哈哈哈,安琪拉小分隊的梗大家聽不懂。
安琪拉小分隊:安陵容、祺貴人、烏拉那拉氏 / 不孕不育三人組
公式對了,代錯數了:是指她們三人告發甄嬛與人私通一事。私通屬實,但是她們把私通對象搞錯成了溫太醫(實際上是果郡王),因此最後偷鷄不成蝕把米。
Thank you for your explanation!
身為一個科技部計畫做人類頓悟學習的同事,只能推了!
Emergency/涌现是复杂系统引出的概念。
Part 1):
任何一條神經網路也是一個多變數廻歸分析,也是統計學迴歸分析的一環。我在40年前攻讀數理統計就涉及這些人工智能及多變量(含時間變量)的廻歸分析(向量/ 矩陣/ 線性代數/ 機率/ 取様….), 以便對一些事件做出精准智能的預測。
所謂自我學習或機器學習也只是用後面收集或模擬出的更新的資料去修正原先迥歸分析的杈重或係數參數而已。
而深度學習也只是處理巨量變數時,為了避免僅用單層機器學習進行巨量變數而需要解大矩陣導致對巨量平行計算的需求,進而變換設計成每層適量變數,建立多層次的機器學習修正。
40 年前人工智慧就是數理統計的一大課題。馬斯克說得一點都沒錯-目前的人工智慧全部建立在數理統計的基礎上。從那時開始就不斷有各行各業的數據分析專業人士來我們數理統計這參與並學習迥歸分析。他們回去後就不斷建立了屬於他們行業內的多條神經網絡(行業內的迥歸模型)。
在那時從事這類研究工作的數理統計的博士生全部被限制在晚上12 時過後才能使用國家級的超級計算機,否則我們兩三𠆤人一上線全部就大當機。我們那時也發展出一套類似挖礦機的方式,利用所有大量閒置的𠆤人電腦來提供其微小的算力,進而整合這些龐大的所謂分散型算力,但受限那時網路的不發達,很難把規模擴大。
近幾十年隨計算機能力不斷提升,目前市面AI 所謂大模型,主要是著力於面對”服務大衆需要”的所謂生成式/ 語言等等的智能協作服務。就是把百行百業各個領域等等數以千萬千億計資料進行迥歸模型的建立及修正(所謂自我深度學習)而形成龐大的神經網絡。
因此也不用太誇大眼下的AI , 這些早在40 年以前都已建構了理論基礎,而智能恊作早在各專業領域都已發展的非常完善,只是因過去算力不足只能在各自專業領域進行中小規模(變量數較少)的神經網絡建構。例如氣象預報就是早期最明顯的利用氣象專用超高速大電腦發展為成熟預測能力(AI)的例子,股票買賣決策也是智能恊作(AI/CIC)的典型。
”把簡單數學上使用即存的規模資料或電腦模擬資料進行所謂的㢠歸分析/模型建構並藉此模型做可行的智能預判或恊作,包裝成醫學上複雜尚未完全掌握的神經網路的機制及作用原理”,不但瓢竊了數理統計在AI 發展的絕對地位,實在也是在誤導整𠆤AI 的發展。也會造成眼下一般人的過度期待和焦慮。應將AI 改稱作” CIC:Computer Intelligent Collaboration , 電腦智能恊作, 更為恰當。
何謂知識? 由經驗總結後( 抽象具體化) ,就形成知識(用數字分析的表達方式就是去建構知識模型)。 形成知識後就可複製/ 傳承/ 預測/ 擴展。因此目前的AI 發展,就是在循人類文明發展至為重要的其中的一𠆤過程-只是採用了數位化的方式,將經驗知識化了。
目前的AI 只是以數理統計為手段及方法論,以資訊及計算機工程為工具,進行數位型的經驗知識化的過程。
人類有許多其他不同型態非常複雜的智慧,這種僅止於知識數位化的智慧, 其實離人類多型態的智慧還有非常巨大的距離。
另外, 眼下AI 服務於大衆的大模型的各種數學理論及所謂的機器學習(參數修正)及深度學習(參數及變數的多層次增加及修正)。 早在40 年前相應的數學理論都已完備(但落實到實際應用上,如何解1 億 by 1 億的聯立方程組( 行列式計算), 這需要極其龐大的平行計算能力,在那時期是完全不可能的) 。
其實AI 最重要最關鍵的是各行各業各領域的專家組,而不是這些AI 編程的公司( 他們只是依需求用已完善的數學統計理論加以電腦編程後,利用巨大算力去幫忙找出合適的模型並不斷予以完善)。
只有各行各業各領域的專家組才知道在茫茫大海中的資料及訊息中,那些因素才是其所涉領域的関鍵變數,那些變數資料才是可做為他們收集分析建立模型的。例如氣象學/經濟學/股票買賣智能決策/ 醫學/ 藥學/ 農業生產/ 基因工程/ 化學工程/自動駕駛/飛彈防空系統/圖像識別及處理/ 建築結構力學/小樣品模擬模型(核爆/飛機失事)………..等等。
此外服務大衆的語言學也是極度複雜的一門學課,其可能的變量變因會高達幾千萬𠆤, 再加上多層級過濾學習修正的模式,因此其涉及的變數算力就以億計, 所以才稱做大模型。 要取那些因素進行那一層分析,主要都是語言學家在主導。
而這些眼下的AI 應用的公司, 只是利用已發展完備的數學統計理論在不同領域專家組的指導下,去有效的進行數拈收集整理分析並進而建立一個特定領域的模型,作為該特定領域的電腦智能恊作工具。
大怪獸下面的小人物的腿有點短 身材比例很像林克 薩爾達傳說裡的短腿林克
所謂的「大力出奇跡」!😂
据说gpt3.5和之后的gpt系列都不是纯原始的transformer llm,因为有人根据api接口速度反推模型推理速度远超现在的硬件水平
看起来很有可能是老师最后提到的这个switch transformer啊
視頻中提到的問題一直都存在,明明我的模型結果就是遠超其他人,但別人卻只用是否錯誤來評分,而不管究竟錯了什麼!這幾年的比賽大部分都是如此,對了是矇的都比錯了但只錯了一小部分的強。因為錯了就是錯了,對了就是對了,哈哈哈。說穿了,沒有錢,是玩不起這種競賽的
老師會有機會講到GPT-4嗎?🥳🥳🥳
念心理學的我看到10^22那一點所有模型都產生質變,簡直老淚縱橫
在心理學領域這是追尋很久的目標阿...
请问为什么说这是心理学追寻很久的目标啊?
同问
在探討人類心智的本質議題上,一直有個說法,就是人其實沒有特別的,只是神經元的連結數量夠多,量變就會產生質變。其他動物只是連結數量不夠所以沒法作到人類能做的事情。但這也只是一個說法,實際上我們沒法做實驗來討論到底要有多少連結才能產生意識或什麼神奇的功能。
所以看到資料科學可以在此方面得到這麼一致的結論其實非常激動阿
Michael I Jordan一开始好像就是学心理学和脑科学的,AI大有可为啊
感覺小模型是可以吧?但語言理解閉環?數據精準?
考試用猜的可能還考更好原來就是這個意思🤣
x轴是对数坐标,好奇是怎么分析出有突然提升的
#要讓對方看得出計謀,他才會掉入計中計
这里的模型变大是怎么个大法?同样的结构参数变多了还是模型结构变深了?
这个对科研人员要经费的能力要求很高很高啊 😅
请问 如何添加更多的参数
我靠,各种迹象表明,大模型开始产生意识了。。
講更白一點,沒來個一億美金別想玩哈哈
对数式发展
老师怎么看待GPT4出来后对NLP工业界和学术界的影响呢
跌破眼鏡的結果 😅
2+2=5 😢
正當大家還在研究AI的時候,原來都已經慢慢進入了 AGI 的世紀 ,OPENAI 真能領導這個行業 ruclips.net/video/LmC5-MgxlyU/видео.htmlsi=Xw1Qyd2oeO2GtOu4
甄嬛传的梗都出来了
頭香?