【生成式AI科普3】ChatGPT原理揭密！背后的黑科技Transformer | Demystify Transformer Behind ChatGPT

Lin Lili

Просмотров 19 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 19 ноя 2024

Комментарии •

@davidchen4753 7 месяцев назад ⁺²
谢谢！开始有点明白ChatGPT的工作原理了。
@0921sheeps Год назад ⁺⁵
真的是硬乾貨，做影片辛苦了
@linliliya Год назад ⁺³
比心！🫶
@hefuwei 2 месяца назад
謝謝妳啊
剛剛才看完李宏毅教授的機器學習課程，在看到妳的影片
觀念整理更清楚了😁
@iamchan93 9 месяцев назад ⁺²
發現了一個質量不錯的Channel👍🏻
@gizwizz 4 месяца назад ⁺²
小小的一个错误：4:05分，词向量+位置向量=位置向量，应该等于输入序列。
@emeNYSE 3 месяца назад ⁺¹
讲的很清楚,,声音好好听~哈哈哈哈哈哈
@ccbill2852 8 месяцев назад ⁺²
thanks a lot, the best explanation and easy to understand!
@billingchang23 8 месяцев назад ⁺²
太精彩了！只能按一個讚，不夠啊～我想要多按幾個讚！
@Blablabla-rq3to 9 месяцев назад ⁺¹
好棒！！！总算搞清楚了chatgpt 😂😂
@davidc8293 11 месяцев назад ⁺³
讲的真好！
@frankzhang9517 9 месяцев назад ⁺¹
内容质量好高！
@sciab3674 8 месяцев назад ⁺¹
谢谢🎉
@ShMi0373 8 месяцев назад ⁺¹
多谢！两个问题，1.多个编码器或解码器是并行结构还是串行结构？看图好像是串行，感觉不太合理？2.GPT4 是decoder only 还是encoder+decoder 架构？
@janchangchou777 8 месяцев назад ⁺¹
任何一條神經網路也是一個多變數廻歸分析，也是統計學迴歸分析的一環。我在40年前攻讀數理統計就涉及這些人工智能及多變量（含時間變量）的廻歸分析（向量/ 矩陣/ 線性代數/ 機率/ 取様….）。以便對一些事件做出精准智能的預測。所謂自我學習也只是用後面收集或模擬出的更新的資料去修正原先迥歸分析的參數而已。40 年前人工智慧就是數理統計的一大課題。馬斯克說得一點都沒錯-目前的人工智慧全部建立在數理統計的基礎上。從那時開始就不斷有各行各業的數據分析專業人士來我們數理統計這參與並學習迥歸分析。他們回去後就不斷建立了屬於他們行業內的多條神經網絡（行業內的迥歸模型）。在那時從事這類研究工作的數理統計的博士生全部被限制在晚上12 時過後才能使用國家級的超級計算機，否則我們兩三𠆤人一上線全部就大當機。我們那時也發展出一套類似挖礦機的方式，利用所有大量閒置的𠆤人電腦來提供其微小的算力，進而整合這些龐大的所謂分散型算力，但受限那時網路的不發達，很難把規模擴大。
近幾十年隨計算機能力不斷提升，目前市面AI 所謂大模型，主要是著力於面對”服務大衆需要”的所謂生成式/ 語言等等的智能協作服務。就是把百行百業各個領域等等數以千萬千億計資料進行迥歸模型的建立及修正（所謂自我深度學習）而形成龐大的神經網絡。因此也不用太誇大眼下的AI , 這些理論早在40 年以前都已建構了理論基礎，而智能恊作早在各專業領域都已發展的非常完善，只是因過去算力不足只能在各自專業領域進行中小規模（變量數較少）的神經網絡建構。例如氣象預報就是早期最明顯的利用氣象專用超高速大電腦發展為成熟預測能力（AI)的例子，股票買賣決策也是智能恊作(AI/CIC)的典型。”把簡單數學上使用即存的規模資料或電腦模擬資料進行所謂的㢠歸分析/模型建構並藉此模型做可行的智能預判或恊作，包裝成醫學上複雜尚未完全掌握的神經網路的機制及作用原理”，不但瓢竊了數理統計在AI 發展的絕對地位，實在也是在誤導整𠆤AI 的發展。也會造成眼下一般人的過度期待和焦慮。應將AI 改稱作” CIC:Computer Intelligent Collaboration , 電腦智能恊作，更為恰當。
何謂知識？由經驗總結後（抽象具體化），就形成知識（用數字分析的表達方式就是去建構知識模型）。形成知識後就可複製/ 傳承/ 預測/ 擴展。因此目前的AI 發展，就是在循人類文明發展至為重要的其中的一𠆤過程-只是採用了數位化的方式，將經驗知識化了。
目前的AI 只是以數理統計為手段及方法論，以資訊及計算計工程為工具，進行數位型的經驗知識化的過程。人類有許多其他不同型態非常複雜的知慧，這種僅止於知識數位化的智慧，其實離人類多型態的智慧還有非常巨大的距離。
另外，眼下AI 服務非專業大衆的大模型的各種數學理論及所謂的機器學習（參數修正）及深度學習（參數及變數的多層次增加及修正）。早在40 年前相應的數學理論都已完備（但落實到實際應用上，如何解1 億 by 1 億的聯立方程組( 行列式計算），這需要極其龐大的平行計算能力，在那時期是完全不可能的）。
其實AI 最重要最關鍵的是各行各業各領域的專家組，而不是這些AI 搞編程的公司（他們只是依需求用已完善的數學統計理論加以電腦編程後，利用巨大算力去幫忙找出合適的模型並不斷予以完善）。
只有各行各業各領域的專家組才知道在茫茫大海中的資料及訊息中，那些因素才是其所涉領域的関鍵變數，那些變數資料才是可做為他們收集分析建立模型的。例如氣象學/經濟學/股票買賣智能決策/ 醫學/ 藥學/ 農業生產/ 基因工程/ 化學工程/自動駕駛/飛彈防空系統/圖像識別及處理/ 建築結構力學/小樣品模擬模型（核爆/飛機失事）………..等等。
此外服務大衆的語言學也是極度複雜的一門學課，其可能的變量變因會高達幾千萬𠆤，再加上多層級過濾學習修正的模式，因此其涉及的變數算力就以億計，所以才稱做大模型。要取那些因素進行那一層分析，主要都是語言學家在主導。
而這些眼下的AI 應用的公司，只是利用已發展完備的數學統計理論在不同領域專家組的指導下，去有效的進行數拈收集整理分析並進而建立一個特定領域的模型，作為該特定領域的電腦智能恊作工具。
另外面對服務大衆的生成式服務，也是要面對大衆各種不同的需求，因此其所需處理消化的資料也是天文數字的龐大，也要各行各業領域專家介入協助指導進而形成並建立大模型。
其實生成式AI 可以理解成升級版的超級搜索引擎，傳統的搜索引擎，用関鍵字/詞，從數據庫內匹配/找出並羅列出可能所需資訊，現在進步升級到如果你給出更具體規範的需求，系統就能從數據庫內拼湊出並提供更完整的接近最終需求的服務內容。這只是把過往已存在的數據庫（已長年經各行業領域專家組維護並梳理過的）更完善的整理優化後予以呈現。而這𠆤更完善的過程使用了大量多層次的統計數字分析的手段，把這個完善化的過程誇大的比擬成人類的思考及智慧（其誇大的目的-圈錢），將造成極大的誤導。
其實生成式大模型，就是用即存服務於大衆的大型搜索的資料庫，如google ， Bing 等等，以數理統計為核心，結合資訊工程及硬體工程為工具，而進行更貼切於使用者需求的優化過程和結果。所以生成式大模型最終會回到過往提供搜索服務的大型公司的對決。
因此CIC 或是AI 是以特定領域專家組為主導，數理統計為核心，資訊工程及硬體工程都是配合的工具而已。這樣的發展才會健康/ 不浪費/ 高效率/ 高精確度。
但目前的發展方式，以資訊工程及硬體工程來主導開發服務大衆的大模型，只是因為這方面天文級別的龐大算力需大資本投入，這是一𠆤比較理想的快速盈利回報的營運方式，但這種情況就會造成眼下嚴重的誤導及錯誤的認知，沒有效率及喪失精準度，甚至如當下出現諸多以提供算力及編程服務的所謂AI 公司出面圈錢的亂象。
其實眼下的蓬勃發展是假象。不管怎麽發展，從事這𠆤領域研究工作的人不能不具備相關數理統計的知識，也不能缺少專家組對資料的專業的選定/收集/整理。而資訊程序員和電腦只是工具。特別在早期各專業領域內的中小模型的智能發展和恊作，編程只是工具。但當算力上來後，服務大眾的類搜索引擎的生成式及語言大模型，就變得可行了，但不管怎樣可行，仍是以數理統計為核心，更龐大的專家組仍是關鍵。只是這種大模型下算力變成稀缺的主要投資成本，使得這些編程及硬體人員不得不高舉這𠆤旗幟來圈錢，如果這些編程及硬體人員拿不出這些算力（如果由國家直接投資），他們在整個AI(CIC) 的發展上，根本算不上什麼角色。但這一輪由算力提供方來主導的AI 發展，將會走得很偏，而且會很快撞牆。
未來可能的發展模式：
1）資訊及硬體工程提供集中算力設備及模型編程的開放平台，供各領域的專家組使用。
有點像當下晶片產業，各應用領域產業由專家組組成公司後，進行各領域的智能開發和應用（如晶片應用的design house，聯發科，海思等 ) , 而算力的提供及收費則由資訊及硬體工程提供（這需要密集资本投入，甚至國家力量投入，如台積電）。
2）由於網路的高度發展，另外一種提供龐大算力的方式，是由巨量萬家萬戶閒置PC 𠆤人電腦參與分散型算力的提供，並予以整合，這也是需由資訊及硬體工程來實現的。
@janchangchou777 8 месяцев назад ⁺¹
任何一條神經網路也是一個多變數廻歸分析，也是統計學迴歸分析的一環。我在40年前攻讀數理統計就涉及這些人工智能及多變量（含時間變量）的廻歸分析（向量/ 矩陣/ 線性代數/ 機率/ 取様….）。以便對一些事件做出精准智能的預測。所謂自我學習也只是用後面收集或模擬出的更新的資料去修正原先迥歸分析的參數而已。40 年前人工智慧就是數理統計的一大課題。馬斯克說得一點都沒錯-目前的人工智慧全部建立在數理統計的基礎上。從那時開始就不斷有各行各業的數據分析專業人士來我們數理統計這參與並學習迥歸分析。他們回去後就不斷建立了屬於他們行業內的多條神經網絡（行業內的迥歸模型）。在那時從事這類研究工作的數理統計的博士生全部被限制在晚上12 時過後才能使用國家級的超級計算機，否則我們兩三𠆤人一上線全部就大當機。我們那時也發展出一套類似挖礦機的方式，利用所有大量閒置的𠆤人電腦來提供其微小的算力，進而整合這些龐大的所謂分散型算力，但受限那時網路的不發達，很難把規模擴大。
近幾十年隨計算機能力不斷提升，目前市面AI 所謂大模型，主要是著力於面對”服務大衆需要”的所謂生成式/ 語言等等的智能協作服務。就是把百行百業各個領域等等數以千萬千億計資料進行迥歸模型的建立及修正（所謂自我深度學習）而形成龐大的神經網絡。因此也不用太誇大眼下的AI , 這些理論早在40 年以前都已建構了理論基礎，而智能恊作早在各專業領域都已發展的非常完善，只是因過去算力不足只能在各自專業領域進行中小規模（變量數較少）的神經網絡建構。例如氣象預報就是早期最明顯的利用氣象專用超高速大電腦發展為成熟預測能力（AI)的例子，股票買賣決策也是智能恊作(AI/CIC)的典型。”把簡單數學上使用即存的規模資料或電腦模擬資料進行所謂的㢠歸分析/模型建構並藉此模型做可行的智能預判或恊作，包裝成醫學上複雜尚未完全掌握的神經網路的機制及作用原理”，不但瓢竊了數理統計在AI 發展的絕對地位，實在也是在誤導整𠆤AI 的發展。也會造成眼下一般人的過度期待和焦慮。應將AI 改稱作” CIC:Computer Intelligent Collaboration , 電腦智能恊作，更為恰當。
何謂知識？由經驗總結後（抽象具體化），就形成知識（用數字分析的表達方式就是去建構知識模型）。形成知識後就可複製/ 傳承/ 預測/ 擴展。因此目前的AI 發展，就是在循人類文明發展至為重要的其中的一𠆤過程-只是採用了數位化的方式，將經驗知識化了。
目前的AI 只是以數理統計為手段及方法論，以資訊及計算計工程為工具，進行數位型的經驗知識化的過程。人類有許多其他不同型態非常複雜的知慧，這種僅止於知識數位化的智慧，其實離人類多型態的智慧還有非常巨大的距離。
另外，眼下AI 服務非專業大衆的大模型的各種數學理論及所謂的機器學習（參數修正）及深度學習（參數及變數的多層次增加及修正）。早在40 年前相應的數學理論都已完備（但落實到實際應用上，如何解1 億 by 1 億的聯立方程組( 行列式計算），這需要極其龐大的平行計算能力，在那時期是完全不可能的）。
其實AI 最重要最關鍵的是各行各業各領域的專家組，而不是這些AI 搞編程的公司（他們只是依需求用已完善的數學統計理論加以電腦編程後，利用巨大算力去幫忙找出合適的模型並不斷予以完善）。
只有各行各業各領域的專家組才知道在茫茫大海中的資料及訊息中，那些因素才是其所涉領域的関鍵變數，那些變數資料才是可做為他們收集分析建立模型的。例如氣象學/經濟學/股票買賣智能決策/ 醫學/ 藥學/ 農業生產/ 基因工程/ 化學工程/自動駕駛/飛彈防空系統/圖像識別及處理/ 建築結構力學/小樣品模擬模型（核爆/飛機失事）………..等等。
此外服務大衆的語言學也是極度複雜的一門學課，其可能的變量變因會高達幾千萬𠆤，再加上多層級過濾學習修正的模式，因此其涉及的變數算力就以億計，所以才稱做大模型。要取那些因素進行那一層分析，主要都是語言學家在主導。
而這些眼下的AI 應用的公司，只是利用已發展完備的數學統計理論在不同領域專家組的指導下，去有效的進行數拈收集整理分析並進而建立一個特定領域的模型，作為該特定領域的電腦智能恊作工具。
另外面對服務大衆的生成式服務，也是要面對大衆各種不同的需求，因此其所需處理消化的資料也是天文數字的龐大，也要各行各業領域專家介入協助指導進而形成並建立大模型。
其實生成式AI 可以理解成升級版的超級搜索引擎，傳統的搜索引擎，用関鍵字/詞，從數據庫內匹配/找出並羅列出可能所需資訊，現在進步升級到如果你給出更具體規範的需求，系統就能從數據庫內拼湊出並提供更完整的接近最終需求的服務內容。這只是把過往已存在的數據庫（已長年經各行業領域專家組維護並梳理過的）更完善的整理優化後予以呈現。而這𠆤更完善的過程使用了大量多層次的統計數字分析的手段，把這個完善化的過程誇大的比擬成人類的思考及智慧（其誇大的目的-圈錢），將造成極大的誤導。
其實生成式大模型，就是用即存服務於大衆的大型搜索的資料庫，如google ， Bing 等等，以數理統計為核心，結合資訊工程及硬體工程為工具，而進行更貼切於使用者需求的優化過程和結果。所以生成式大模型最終會回到過往提供搜索服務的大型公司的對決。
因此CIC 或是AI 是以特定領域專家組為主導，數理統計為核心，資訊工程及硬體工程都是配合的工具而已。這樣的發展才會健康/ 不浪費/ 高效率/ 高精確度。
但目前的發展方式，以資訊工程及硬體工程來主導開發服務大衆的大模型，只是因為這方面天文級別的龐大算力需大資本投入，這是一𠆤比較理想的快速盈利回報的營運方式，但這種情況就會造成眼下嚴重的誤導及錯誤的認知，沒有效率及喪失精準度，甚至如當下出現諸多以提供算力及編程服務的所謂AI 公司出面圈錢的亂象。
其實眼下的蓬勃發展是假象。不管怎麽發展，從事這𠆤領域研究工作的人不能不具備相關數理統計的知識，也不能缺少專家組對資料的專業的選定/收集/整理。而資訊程序員和電腦只是工具。特別在早期各專業領域內的中小模型的智能發展和恊作，編程只是工具。但當算力上來後，服務大眾的類搜索引擎的生成式及語言大模型，就變得可行了，但不管怎樣可行，仍是以數理統計為核心，更龐大的專家組仍是關鍵。只是這種大模型下算力變成稀缺的主要投資成本，使得這些編程及硬體人員不得不高舉這𠆤旗幟來圈錢，如果這些編程及硬體人員拿不出這些算力（如果由國家直接投資），他們在整個AI(CIC) 的發展上，根本算不上什麼角色。但這一輪由算力提供方來主導的AI 發展，將會走得很偏，而且會很快撞牆。
未來可能的發展模式：
1）資訊及硬體工程提供集中算力設備及模型編程的開放平台，供各領域的專家組使用。
有點像當下晶片產業，各應用領域產業由專家組組成公司後，進行各領域的智能開發和應用（如晶片應用的design house，聯發科，海思等 ) , 而算力的提供及收費則由資訊及硬體工程提供（這需要密集资本投入，甚至國家力量投入，如台積電）。
2）由於網路的高度發展，另外一種提供龐大算力的方式，是由巨量萬家萬戶閒置PC 𠆤人電腦參與分散型算力的提供，並予以整合，這也是需由資訊及硬體工程來實現的。
@guangxing9010 4 месяца назад ⁺¹
小姐姐好棒哦
@wilsoncheng1722 5 месяцев назад
Transformer 果然厲害！
@dengsu 8 месяцев назад
通俗易懂
@jkye_314 Год назад ⁺¹
爱了
@tommycotton940 5 месяцев назад
所以依靠這套運作原理，機器真的理解它在說什麼，理解這個世界？
@lianyang8277 4 месяца назад
好像是我们武汉口音，好亲切
@nuanshuyumilu Год назад ⁺⁴
B站20多万粉丝 youtube只有7000 感觉youtube上用中文讲CS太小众了没啥人看讲中文的上youtube主要是看政治频道还有搞黄色的频道🤣🤣🤣
@linliliya Год назад ⁺²
哈哈哈这俩我都讲不了
@nuanshuyumilu Год назад
@@linliliya 所以B站粉丝比youtube多😅
@Kaiyan0420 Год назад ⁺¹
少但是还是有的继续加油
@nuanshuyumilu Год назад
@@Kaiyan0420 包括我哈哈哈哈
@YagiYangstudio 9 месяцев назад
油管反而更娱乐化一些，粒粒是我新女神@@linliliya
@thekidlaori6434 Год назад ⁺¹
没听懂

Следующие

Автовоспроизведение

【生成式AI科普4】如何3步炼成一个ChatGPT？| How was ChatGPT Created