Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
神经网络结构那部分讲的太精彩了。从简单的线性回归开始,到用几个简单线性函数去逼近一个分段线性函数,然后提出用sigmooid和线性逼近曲线,然后自然而然引出神经网络的基本结构。输入特征,参数,激活函数..等等概念自然而然都出来了
以前在念資工的時候還沒有deep learning,現在就業十年多了回來上課,有Internet可以學習的現代人真幸福,願意分享知識貢獻全人類,都有福報
真的是大神,希望以後有機會可以現場聽老師的課,也感謝老師願意把這門課變成公開課。
老師真的太厲害了,居然可以講得那麼精煉
遇到一个好教授真的是很幸运的事情。
很多書都無法簡單的講清出sigmoid,今天看一遍就懂了,讚初等的數學擬合曲線,沒記錯的話都是提高X的次數,f(x)=c(x-a)(x-b)(x-d).... [ 提高次數事情就變得複雜]電子學或工程數學則是用U(t)={1 as t>a ; 0 as t
老师,我是你的铁粉!你的所有的录影我都至少看过了两遍,也把你的频道推给了我所有学习人工智慧的同学和同事!非常期待课程新的内容!
厲害了老鐵
一年就看完老師以前的機器學習課程影片現在在看一次新的影片雞皮疙瘩都起來了....沒想到神經元能用這種方式理解太神啦~~~~
淺顯易懂,上課風趣,沒有故弄玄虛,真的是太了不起了
老师讲得十分生动!我之前看书学习时,真的是对DL的概念和流程都很困惑,看了这两个视频,突然感觉清晰起来了。真是听君一席话,胜读十年书啊。
優質課程,我決定當每周新番來追了
看老師的課程真的清楚很多,對於ML初學者最困惑的地方就是很多地方都解釋得不清不楚,包括一些名詞還有一些數學公式等. 但這課程確實讓我受益良多
虽然仅仅是introduction但已经解决了两个困扰我很久的问题!老师太厉害了
老師講話言之有物,言簡意賅、用字精確又淺顯易懂,這部課程後半段又講得十分有趣、最後又埋下觀看下一集的伏筆,真的超級讚的學習影片!
Dr. Lee 课程讲得非常棒!深入浅出,还利用RUclips观看数作为例子,方便理解。良心课程!
🎯 Key points for quick navigation:00:00 *📉 線性模型的限制*- 線性模型只能表示直線關係,無法模擬複雜非線性模式。- 修改權重 \( w \) 和偏置 \( b \) 只會改變直線的斜率和截距。- 現實中數據的關係常為非線性,例如在某些範圍內變化正相關,超過範圍後反相關。01:35 *🧠 模型偏差與解決方案*- 線性模型的限制被稱為模型偏差 (Model Bias),與偏置參數 \( b \) 不同。- 必須設計更複雜且具彈性的函數來描述真實數據。- 紅色曲線可以視為常數項加上多個特定函數的組合,形成非線性模式。02:39 *🔵 藍色函數與分段線性曲線*- 藍色函數描述分段線性曲線的局部行為,包括水平、斜坡及拐點。- 紅色曲線可以用多個藍色函數組合模擬。- 增加藍色函數數量可以更精確地逼近複雜分段線性曲線。07:19 *✨ 曲線逼近與模型靈活性*- 分段線性曲線可逼近任意連續曲線。- 任意複雜的非線性關係可用足夠的藍色函數與常數項逼近。- 核心問題轉為如何具體構建這些函數。08:49 *🪄 Sigmoid 函數的應用*- Sigmoid 函數可逼近藍色函數,表現為平滑的 S 型曲線。- 其數學表達式為 \( y = \frac{c}{1 + e^{-(b + wx)}} \),其中 \( c \) 為調整參數。- Sigmoid 能將極大值與極小值控制在可預期範圍內,模擬非線性特性。12:49 *🧮 函數的組成與疊加*- 討論如何利用基礎函數組成更複雜的函數,- 使用藍色函數的參數 \(w, b, c\) 來生成紅色曲線,- 藉由加總多個不同藍色函數的方式來實現不同的 Piecewise Linear Curves。15:20 *🛠️ 增強模型彈性*- 原線性模型的限制及如何透過引入未知參數擴展模型的表現力,- 使用不同的 \(w_i, b_i, c_i\) 組成更彈性的函數以逼近各種連續函數,- 介紹多變數特徵(Features)如何進一步提升模型適應性。17:19 *🌟 多特徵函數的實現*- 分解多特徵函數的計算過程,- 藍色函數與 Sigmoid 函數的關係及其對多特徵的影響,- 簡化計算過程,展示如何用矩陣運算表達多重特徵的加權輸入。21:15 *📊 矩陣與向量表示*- 將多特徵函數的計算轉化為線性代數的矩陣形式,- 以矩陣 \(W\)、向量 \(x\) 和偏置 \(b\) 表達模型運算的核心流程,- 簡化表示方式提升公式的直觀性與可讀性。22:16 *🔄 Sigmoid 函數應用*- 計算 \(r\) 經過 Sigmoid 函數後得到輸出 \(a\),- 使用 Sigmoid 函數轉化輸入值的標準流程,- 提出簡潔的符號表示法以加速 Sigmoid 運算的理解。25:10 *📐 表達方式的統一與參數定義*- 圖示化與線性代數方式表達同一函數,幫助理解。 - 引入未知參數(如 \(w, b, c\))並重新定義符號與功能。 - 所有參數整合成長向量 \(\theta\) 表達,統一表示未知參數。27:57 *🛠️ 優化問題與方法限制*- 解釋爆收法僅適用於少量參數,且不需進階優化技巧。 - 當參數數量增多時,需使用梯度下降法(Gradient Descent)進行優化。 - 使用 Sigmoid 數量決定函數複雜度,並引入超參數控制。30:47 *🔍 定義損失函數與參數更新*- 利用 \(\theta\) 表示所有參數,簡化損失函數 \(L(\theta)\) 的表示法。 - 計算每個參數對損失函數的梯度,並集合為梯度向量 \(g\)。 - 根據梯度向量,使用學習率更新所有參數,進行迭代優化。37:45 *📊 Batch、Loss 與參數更新概念*- 使用 Batch 計算 Loss,並用該 Gradient 更新參數。- 定義 Epoch 與 Update 的區別:所有 Batch 完成一次更新稱為 Epoch,每次更新參數稱為 Update。- 示例解釋 Batch 與 Epoch 的關係(如大 N = 10000,Batch Size = 10 時,Epoch 涵蓋 1000 次 Update)。41:20 *⚙️ Activation Function 的選擇與應用*- Hard Sigmoid 可以視為兩個 ReLU 的加總,並探討 ReLU 的特性與公式。- 提及 Activation Function 的重要性,對比 Sigmoid 與 ReLU,並指出 ReLU 常見於實驗應用中。44:16 *🔄 模型結構改變與 ReLU 數量的影響*- 使用不同數量的 ReLU,實驗對 Loss 的影響(如 10 個、100 個、1000 個 ReLU 的差異)。- 結合線性模型與 ReLU,顯示更多 ReLU 有助於降低 Loss,但過多 ReLU 對測試資料效果有限。46:45 *🧪 多層 ReLU 的實驗效果*- 探討多層 ReLU 的效果,從一次到三次運算的 Loss 降低(如從 0.28k 至 0.14k)。- 在未見過的資料上,預測效果有所提升,特別是在低點的數據預測上表現較準確。47:49 *🔍 預測結果分析與特例討論*- 分析預測數據的準確性,如機器成功抓住週期性低點。- 探討預測誤差的原因,特別是某些明顯低谷未被準確預測的問題。50:06 *🤔 人工智慧的誤解與類神經網路的歷史*- 80、90 年代,類神經網路曾被過度吹捧,導致名聲受損,甚至在學術界被視為禁忌詞。- 新名稱「深度學習 (Deep Learning)」的誕生,源於技術改良後的重新定位。- 從多層隱藏層的結構發展到 AlexNet 等模型,影像辨識錯誤率持續降低。52:13 *🧠 深度學習結構與迷思*- 深度學習的核心在於多層結構,但引起爭議的是:為何要增加深度而非寬度。- 名稱上的心理效應讓 Deep Neural Network 顯得更具吸引力,Fat Neural Network 則因語感而被貶低。- 深度學習是否真的有實質效益,成為後續探討的話題。54:17 *⚠️ Overfitting 的問題與影響*- 模型在訓練數據上表現優異,但在未見過的數據上效果不佳,稱為 Overfitting。- 3 層與 4 層模型的比較,揭示了深度模型在測試數據上的不一致表現。- 預測未知資料時,應選擇在測試數據上表現較好的模型。56:24 *📊 模型預測與現實應用*- 以 3 層模型預測 RUclips 頻道觀看人次,假設 2 月 25 號的結果為基準,推算 2 月 26 號的數據。- 模型依據週五的觀看特性,預測觀看人次較低,與現實情況合理吻合。- 講解的實際目的是吸引更多觀眾互動,促進實驗數據的驗證。58:29 *🎓 課程總結與後續學習資源*- 深度學習訓練中的 Backpropagation 提供高效計算梯度的方法。- 提供其他課程影片連結,進一步了解深度學習的基礎知識與應用。- 課程結束,鼓勵觀眾回看影片,為實驗結果提供更多數據支持。Made with HARPA AI
老師太厲害了,講得超級讓人能懂,以前對深度學習結構霧煞煞終於搞懂了😆感謝老師優質的講解,受益良多🙏🙏
我看了 MIT 和 Stanford 的 ML 課、一直是霧煞煞、只有看到李老師的說明、才豁然大解👍!
有一位台灣軟體上市公司的老闆說,他自學看了很多課程,一直到看到了李老師的課程才通了,然後回公司招集工程師開幹 AI project ~~
到底誰除夕還在看機器學習
李老师讲得太好了!!!听了这多个版本的教程,李老师这个听得最醍醐灌顶
感谢李宏毅老师的精彩讲解,很有效率,真的一遍就能搞懂!
老師深入淺出的教學方法跟引導,實在是太精彩也太棒了! 非常感謝老師帶領入門!
太厲害了!搞統計的第一個反應會用多項式迴歸去fit,現在看來,搞統計的人會在這裡 "中毒"。還有20年前學了一種叫如找線性分割點的方式,它不就淹沒在窮舉裡了,相較之下sigmoid更厲害了!
刚看了两节,目前认为是机器学习最好的中文课程
看老师的课和看番一样开心!🥰
看过3b1b的 neuron network 系列,他是上来就弄了个 network,sigmoid 出现的比较生硬,李老师 compose sigmoid来逼近的做法是更好理解的,当然人家3b1b也不赖,但我还是支持咱李老师😄
老师讲的很生动,很有趣,尤其是对深度学习有一些了解但不精通的时候听完课有一种豁然开朗的感觉
老師講特真的是太好了,這真的就是聽君一席話勝讀十年書吧!!
自學中,真的是很幸運能看到!謝謝老師太優質了!
学完老师的线性代数,又过来看机器学习了。老师讲得好本质,继续认真学下去!机器学习这边就手动切片视频了哈哈哈~
学校里老师讲解的时候没听懂,在这里终于听懂了!
老师的课讲的太好了,深入浅出,看2020版的没看完,又追来这里了,强烈支持!
讲的太棒了,神仙课程,感谢老师
感谢老师,三年后重看,依然受益匪浅!
太神了!!!看过的最好的ai课程!
终于联系上为什么NN可以逼近各种复杂模型。感谢大师级讲解!
太喜欢您的课程啦,深入浅出,期待周五更新的课程ps: 我觉得观看量可能会超出预测值
太神啦~~ 豁然開朗!
每次听都有一次收获,对初学者太友好了
感觉讲得比andrew还透彻很多 没想到华语也有这么优秀的内容
老师您讲的真的太好了!!!好后悔没有早点看您的视频55555!希望it's never too late too learn TAT
老師教得很好,謝謝分享,喜歡從數學切入的講法
我太喜欢老师耐心的解答问题
感謝老師循序漸進的教學!
好喜欢老师的讲课方式。知其然 知其所以然。发现问题 解决问题。我第一次知道全连接神经网络还可以这样解释。
感謝老師上傳影片,本來一知半解的概念忽然都懂了,piecewise linear curve解答了我上課聽不懂deep有什麼好處的疑問
sigmoid那里真的是醍醐灌顶,感谢老师
真的讲的很通俗易懂 对于小白非常友好~~~~ 感谢老师
老師講得淺顯易懂 太讚了
後悔大三的時候沒被YT推薦李老師的課,希望碩班能變成正統AI仔
这引入深度学习概念的方式,真实拍案叫绝!“一个织席贩履的改个名叫中山靖王之后--论外号的重要性”,真实好笑。
受益匪浅,非常利于理解,老师大才
原來我之前一直誤會,我真的以為參數 bias 跟 Model Bias 是有關連的東西,其實是不同的東西。還有這是我第一次聽到 Activation Function 有這樣的解釋方式,難怪 ReLU 更好用,之前聽過的說法都是「仿生物函數」、「把數值映射至0、1區間」
老师是不是说下周讲ReLU为啥好,这周只是展示了用ReLU模型的结果更好?我又回头看了一遍也没找着
這個 model bias 聽起來蠻像 inductive bias 的欸?
@@jeffkevin3 這裡的 model bias 就是指 inductive bias
@@xinxinwang3700 之後會講到為什麼今日相較於 Sigmoid 大家比較喜歡用 ReLU
老师讲的真的很好啊,醍醐灌顶
老師您講的好精彩 淺顯易懂 真是太厲害了 ,期待新系列的每堂課
哈哈,织席贩履之徒看乐了,感谢Lee的讲解!
讲得实在是太好了!点赞!
Instead of Sigmoid, can you use sine and cosine functions, i.e., in Fourier Transform...any curve is the aggregation of sine/cosine functions at different frequencies and amplitudes.
淺顯易懂,深入淺出。太猛了! XD
best lecture ever!!! Thank you so much for open sourcing this!
16:29 這裡一時間沒有領略到意圖,已經組好 Sigma 的 sigmoid 了,形狀上已經可以無限接近 curve 了,為什麼還要把裡面的 b+wx 擴充? 回到前面想了一下,恍然大悟,哦 對~ 如果要把時間,往前幾天考慮進來的話。自然是要增加一個 維度,投影片以 j 表示。所以 i 維度是要用到多少個 sigmoid, j 維度則是考慮要橫跨多少資料點(例如這裡是表示向前多少時間點)而實際上 j 維度這個部分應該是 feature 的數量,而在這邊我們覺得 往前一定天數的 data 都是有貢獻的,所以往前天數的 data ,在這裡就成為 feature。
一個是增加該Xi變數的解釋力(讓該xi可以在不同位置更符合model,也就是Loss變小)一個是增加變數的個數 ( j維度 )你的回答也助我更釐清此一細節,謝謝
一個Sigmoid有三個參數可以調整,不太明白為什麼擴展到多個變數之後,只剩w可以額外調整。其他b、c一樣是一個變數的。
53:02 这个地方讲的真好
太精彩了。。。。意犹未尽
终于形象化地了解了sigmoid function是怎么应用到DL的,piecewise linear curve之前学的都没有提到过
老师对DL的理解高屋建瓴, 才能把复杂的东西描述的这么清晰. 感谢李老师
講得太好了,還有字幕,太用心了
重新理解了激活函数的作用,精彩
老師,元宵節快樂!!
派大好 😊
sigmoid function解释的好棒!之前看其他神经网络课程都没有这么形象的解释过!
「準確」是重點 🌎
Wow...isn't this Fourier Transform to see what the wave function is comprised of what frequencies ?
A linear model doesn't have to be a straight line. The limitations of it are the assumptions of regression, not "too simple".
It's like Fourier Transform. Given a random curve, what are the frequency components of this curve.
超级棒的讲解
老师讲的太清楚了
太精采了,32:55 的 cc 字幕有錯字哦 θ start → star
在46:11中,好像没有说清楚为什么需要多层 , 并以 a 代替下一个迭代的输入。老师能解释吗?谢谢。
教授教的太精彩了 真幽默 呵呵
这里有一个地方不是很明白。再把一系列sigmoid函数相加的时候,为什么没有提到函数区间问题?比如影片13:24的时候,我们可以看到对于第一个sigmoid我们要用了上升的部分,而第二个sigmoid我们会用下降的部分, 第三个sigmoid又用的是上升的部分。在没有定义定义域的前提下,所有直线的部分去哪里了呢?
red curve每段的高度就是由1, 2, 3號sigmoid的直線,以及0號直線相加形成的
所以0, 1, 2, 3號函式全部相加(含直線部分)本來就會形成red curve啊
非常感謝老師的講解,不過有個好奇的點。如果對x1來說可以用y=b+Σ_i ci*sigmoid(bi+wi*x1)來逼近,那對另一個輸入x2也是用同樣的方法逼近y=b+Σ_i ci*sigmoid(bi+wi*x2),這樣一來最直覺不就是把兩者相加嗎?變成double summation,如y=b+Σ_j { Σ_i cij*sigmoid(bij+wij*xj) },好奇這樣結果會如何
謝謝老師無私的分享
听了这么多机器学习的课程,现在才知道sigmoid函数是怎么来的
我覺得會遠大於0.38k,這學期修課人數是之前的數倍,這是機器所不知道的,所以模型很也可能不準
我的看法倒是,可能因為我比較皮我可以刻意揪大家刷觀看量,讓預測失準XD
33:27 是不是說錯了,是L對每個參數的微分
真正的大师
老师有趣,有用,有才,有爱
best machine learning course on youtube!
老師你太棒了!學生覺得收穫良多>
老师,挺你,比我本科老师教授的机器学习课程好太多
謝謝老師,真的聼懂了!
本來在想那個sigmoid function是用步階函數寫出來的哈哈
我用1.5倍观看速非常适应。。
讲的真挺好
与林轩田老师的课结合起来,就是深入浅出
47:12 47:33 為什麼老師在講的時候會指著layer說ReLU,前面不是有說每次都加 100 個 ReLU為1Layer 這是口誤嗎
每個layer都用100個ReLU去近似連續函式,簡化起見就說通過一次ReLU,那3層layer就會通過三次ReLU
您好,想請教一個問題,在影片中,您提到1個epoch 裡面會有與batch 數量相等的update,我想請教如果我改變batch大小,也相對變動epoch 數字,使其update 數一樣,那兩個model 會有什麼優缺點呢?
請問j 是不是feature x的序列個數?若j代表 no. of features 則意思是有好多不同的feature variable?
李老师太帅了,讲的真不错
02:59 好像是 threshold >
3:41好像語誤,應該是跟「y軸」的焦點在哪裡
神经网络结构那部分讲的太精彩了。从简单的线性回归开始,到用几个简单线性函数去逼近一个分段线性函数,然后提出用sigmooid和线性逼近曲线,然后自然而然引出神经网络的基本结构。输入特征,参数,激活函数..等等概念自然而然都出来了
以前在念資工的時候還沒有deep learning,現在就業十年多了回來上課,有Internet可以學習的現代人真幸福,願意分享知識貢獻全人類,都有福報
真的是大神,希望以後有機會可以現場聽老師的課,也感謝老師願意把這門課變成公開課。
老師真的太厲害了,居然可以講得那麼精煉
遇到一个好教授真的是很幸运的事情。
很多書都無法簡單的講清出sigmoid,今天看一遍就懂了,讚
初等的數學擬合曲線,沒記錯的話都是提高X的次數,f(x)=c(x-a)(x-b)(x-d).... [ 提高次數事情就變得複雜]
電子學或工程數學則是用U(t)={1 as t>a ; 0 as t
老师,我是你的铁粉!你的所有的录影我都至少看过了两遍,也把你的频道推给了我所有学习人工智慧的同学和同事!非常期待课程新的内容!
厲害了老鐵
一年就看完老師以前的機器學習課程影片
現在在看一次新的影片
雞皮疙瘩都起來了....
沒想到神經元能用這種方式理解
太神啦~~~~
淺顯易懂,上課風趣,沒有故弄玄虛,真的是太了不起了
老师讲得十分生动!我之前看书学习时,真的是对DL的概念和流程都很困惑,看了这两个视频,突然感觉清晰起来了。真是听君一席话,胜读十年书啊。
優質課程,我決定當每周新番來追了
看老師的課程真的清楚很多,對於ML初學者最困惑的地方就是很多地方都解釋得不清不楚,包括一些名詞還有一些數學公式等. 但這課程確實讓我受益良多
虽然仅仅是introduction但已经解决了两个困扰我很久的问题!老师太厉害了
老師講話言之有物,言簡意賅、用字精確又淺顯易懂,這部課程後半段又講得十分有趣、最後又埋下觀看下一集的伏筆,真的超級讚的學習影片!
Dr. Lee 课程讲得非常棒!深入浅出,还利用RUclips观看数作为例子,方便理解。良心课程!
🎯 Key points for quick navigation:
00:00 *📉 線性模型的限制*
- 線性模型只能表示直線關係,無法模擬複雜非線性模式。
- 修改權重 \( w \) 和偏置 \( b \) 只會改變直線的斜率和截距。
- 現實中數據的關係常為非線性,例如在某些範圍內變化正相關,超過範圍後反相關。
01:35 *🧠 模型偏差與解決方案*
- 線性模型的限制被稱為模型偏差 (Model Bias),與偏置參數 \( b \) 不同。
- 必須設計更複雜且具彈性的函數來描述真實數據。
- 紅色曲線可以視為常數項加上多個特定函數的組合,形成非線性模式。
02:39 *🔵 藍色函數與分段線性曲線*
- 藍色函數描述分段線性曲線的局部行為,包括水平、斜坡及拐點。
- 紅色曲線可以用多個藍色函數組合模擬。
- 增加藍色函數數量可以更精確地逼近複雜分段線性曲線。
07:19 *✨ 曲線逼近與模型靈活性*
- 分段線性曲線可逼近任意連續曲線。
- 任意複雜的非線性關係可用足夠的藍色函數與常數項逼近。
- 核心問題轉為如何具體構建這些函數。
08:49 *🪄 Sigmoid 函數的應用*
- Sigmoid 函數可逼近藍色函數,表現為平滑的 S 型曲線。
- 其數學表達式為 \( y = \frac{c}{1 + e^{-(b + wx)}} \),其中 \( c \) 為調整參數。
- Sigmoid 能將極大值與極小值控制在可預期範圍內,模擬非線性特性。
12:49 *🧮 函數的組成與疊加*
- 討論如何利用基礎函數組成更複雜的函數,
- 使用藍色函數的參數 \(w, b, c\) 來生成紅色曲線,
- 藉由加總多個不同藍色函數的方式來實現不同的 Piecewise Linear Curves。
15:20 *🛠️ 增強模型彈性*
- 原線性模型的限制及如何透過引入未知參數擴展模型的表現力,
- 使用不同的 \(w_i, b_i, c_i\) 組成更彈性的函數以逼近各種連續函數,
- 介紹多變數特徵(Features)如何進一步提升模型適應性。
17:19 *🌟 多特徵函數的實現*
- 分解多特徵函數的計算過程,
- 藍色函數與 Sigmoid 函數的關係及其對多特徵的影響,
- 簡化計算過程,展示如何用矩陣運算表達多重特徵的加權輸入。
21:15 *📊 矩陣與向量表示*
- 將多特徵函數的計算轉化為線性代數的矩陣形式,
- 以矩陣 \(W\)、向量 \(x\) 和偏置 \(b\) 表達模型運算的核心流程,
- 簡化表示方式提升公式的直觀性與可讀性。
22:16 *🔄 Sigmoid 函數應用*
- 計算 \(r\) 經過 Sigmoid 函數後得到輸出 \(a\),
- 使用 Sigmoid 函數轉化輸入值的標準流程,
- 提出簡潔的符號表示法以加速 Sigmoid 運算的理解。
25:10 *📐 表達方式的統一與參數定義*
- 圖示化與線性代數方式表達同一函數,幫助理解。
- 引入未知參數(如 \(w, b, c\))並重新定義符號與功能。
- 所有參數整合成長向量 \(\theta\) 表達,統一表示未知參數。
27:57 *🛠️ 優化問題與方法限制*
- 解釋爆收法僅適用於少量參數,且不需進階優化技巧。
- 當參數數量增多時,需使用梯度下降法(Gradient Descent)進行優化。
- 使用 Sigmoid 數量決定函數複雜度,並引入超參數控制。
30:47 *🔍 定義損失函數與參數更新*
- 利用 \(\theta\) 表示所有參數,簡化損失函數 \(L(\theta)\) 的表示法。
- 計算每個參數對損失函數的梯度,並集合為梯度向量 \(g\)。
- 根據梯度向量,使用學習率更新所有參數,進行迭代優化。
37:45 *📊 Batch、Loss 與參數更新概念*
- 使用 Batch 計算 Loss,並用該 Gradient 更新參數。
- 定義 Epoch 與 Update 的區別:所有 Batch 完成一次更新稱為 Epoch,每次更新參數稱為 Update。
- 示例解釋 Batch 與 Epoch 的關係(如大 N = 10000,Batch Size = 10 時,Epoch 涵蓋 1000 次 Update)。
41:20 *⚙️ Activation Function 的選擇與應用*
- Hard Sigmoid 可以視為兩個 ReLU 的加總,並探討 ReLU 的特性與公式。
- 提及 Activation Function 的重要性,對比 Sigmoid 與 ReLU,並指出 ReLU 常見於實驗應用中。
44:16 *🔄 模型結構改變與 ReLU 數量的影響*
- 使用不同數量的 ReLU,實驗對 Loss 的影響(如 10 個、100 個、1000 個 ReLU 的差異)。
- 結合線性模型與 ReLU,顯示更多 ReLU 有助於降低 Loss,但過多 ReLU 對測試資料效果有限。
46:45 *🧪 多層 ReLU 的實驗效果*
- 探討多層 ReLU 的效果,從一次到三次運算的 Loss 降低(如從 0.28k 至 0.14k)。
- 在未見過的資料上,預測效果有所提升,特別是在低點的數據預測上表現較準確。
47:49 *🔍 預測結果分析與特例討論*
- 分析預測數據的準確性,如機器成功抓住週期性低點。
- 探討預測誤差的原因,特別是某些明顯低谷未被準確預測的問題。
50:06 *🤔 人工智慧的誤解與類神經網路的歷史*
- 80、90 年代,類神經網路曾被過度吹捧,導致名聲受損,甚至在學術界被視為禁忌詞。
- 新名稱「深度學習 (Deep Learning)」的誕生,源於技術改良後的重新定位。
- 從多層隱藏層的結構發展到 AlexNet 等模型,影像辨識錯誤率持續降低。
52:13 *🧠 深度學習結構與迷思*
- 深度學習的核心在於多層結構,但引起爭議的是:為何要增加深度而非寬度。
- 名稱上的心理效應讓 Deep Neural Network 顯得更具吸引力,Fat Neural Network 則因語感而被貶低。
- 深度學習是否真的有實質效益,成為後續探討的話題。
54:17 *⚠️ Overfitting 的問題與影響*
- 模型在訓練數據上表現優異,但在未見過的數據上效果不佳,稱為 Overfitting。
- 3 層與 4 層模型的比較,揭示了深度模型在測試數據上的不一致表現。
- 預測未知資料時,應選擇在測試數據上表現較好的模型。
56:24 *📊 模型預測與現實應用*
- 以 3 層模型預測 RUclips 頻道觀看人次,假設 2 月 25 號的結果為基準,推算 2 月 26 號的數據。
- 模型依據週五的觀看特性,預測觀看人次較低,與現實情況合理吻合。
- 講解的實際目的是吸引更多觀眾互動,促進實驗數據的驗證。
58:29 *🎓 課程總結與後續學習資源*
- 深度學習訓練中的 Backpropagation 提供高效計算梯度的方法。
- 提供其他課程影片連結,進一步了解深度學習的基礎知識與應用。
- 課程結束,鼓勵觀眾回看影片,為實驗結果提供更多數據支持。
Made with HARPA AI
老師太厲害了,講得超級讓人能懂,以前對深度學習結構霧煞煞終於搞懂了😆
感謝老師優質的講解,受益良多🙏🙏
我看了 MIT 和 Stanford 的 ML 課、一直是霧煞煞、只有看到李老師的說明、才豁然大解👍!
有一位台灣軟體上市公司的老闆說,他自學看了很多課程,一直到看到了李老師的課程才通了,然後回公司招集工程師開幹 AI project ~~
到底誰除夕還在看機器學習
李老师讲得太好了!!!听了这多个版本的教程,李老师这个听得最醍醐灌顶
感谢李宏毅老师的精彩讲解,很有效率,真的一遍就能搞懂!
老師深入淺出的教學方法跟引導,實在是太精彩也太棒了! 非常感謝老師帶領入門!
太厲害了!搞統計的第一個反應會用多項式迴歸去fit,現在看來,搞統計的人會在這裡 "中毒"。還有20年前學了一種叫如找線性分割點的方式,它不就淹沒在窮舉裡了,相較之下sigmoid更厲害了!
刚看了两节,目前认为是机器学习最好的中文课程
看老师的课和看番一样开心!🥰
看过3b1b的 neuron network 系列,他是上来就弄了个 network,sigmoid 出现的比较生硬,李老师 compose sigmoid来逼近的做法是更好理解的,当然人家3b1b也不赖,但我还是支持咱李老师😄
老师讲的很生动,很有趣,尤其是对深度学习有一些了解但不精通的时候听完课有一种豁然开朗的感觉
老師講特真的是太好了,這真的就是聽君一席話勝讀十年書吧!!
自學中,真的是很幸運能看到!謝謝老師太優質了!
学完老师的线性代数,又过来看机器学习了。老师讲得好本质,继续认真学下去!机器学习这边就手动切片视频了哈哈哈~
学校里老师讲解的时候没听懂,在这里终于听懂了!
老师的课讲的太好了,深入浅出,看2020版的没看完,又追来这里了,强烈支持!
讲的太棒了,神仙课程,感谢老师
感谢老师,三年后重看,依然受益匪浅!
太神了!!!看过的最好的ai课程!
终于联系上为什么NN可以逼近各种复杂模型。感谢大师级讲解!
太喜欢您的课程啦,深入浅出,期待周五更新的课程
ps: 我觉得观看量可能会超出预测值
太神啦~~ 豁然開朗!
每次听都有一次收获,对初学者太友好了
感觉讲得比andrew还透彻很多 没想到华语也有这么优秀的内容
老师您讲的真的太好了!!!好后悔没有早点看您的视频55555!希望it's never too late too learn TAT
老師教得很好,謝謝分享,喜歡從數學切入的講法
我太喜欢老师耐心的解答问题
感謝老師循序漸進的教學!
好喜欢老师的讲课方式。知其然 知其所以然。发现问题 解决问题。我第一次知道全连接神经网络还可以这样解释。
感謝老師上傳影片,本來一知半解的概念忽然都懂了,piecewise linear curve解答了我上課聽不懂deep有什麼好處的疑問
sigmoid那里真的是醍醐灌顶,感谢老师
真的讲的很通俗易懂 对于小白非常友好~~~~ 感谢老师
老師講得淺顯易懂 太讚了
後悔大三的時候沒被YT推薦李老師的課,希望碩班能變成正統AI仔
这引入深度学习概念的方式,真实拍案叫绝!“一个织席贩履的改个名叫中山靖王之后--论外号的重要性”,真实好笑。
受益匪浅,非常利于理解,老师大才
原來我之前一直誤會,我真的以為參數 bias 跟 Model Bias 是有關連的東西,其實是不同的東西。還有這是我第一次聽到 Activation Function 有這樣的解釋方式,難怪 ReLU 更好用,之前聽過的說法都是「仿生物函數」、「把數值映射至0、1區間」
老师是不是说下周讲ReLU为啥好,这周只是展示了用ReLU模型的结果更好?我又回头看了一遍也没找着
這個 model bias 聽起來蠻像 inductive bias 的欸?
@@jeffkevin3 這裡的 model bias 就是指 inductive bias
@@xinxinwang3700 之後會講到為什麼今日相較於 Sigmoid 大家比較喜歡用 ReLU
老师讲的真的很好啊,醍醐灌顶
老師您講的好精彩 淺顯易懂 真是太厲害了 ,期待新系列的每堂課
哈哈,织席贩履之徒看乐了,感谢Lee的讲解!
讲得实在是太好了!点赞!
Instead of Sigmoid, can you use sine and cosine functions, i.e., in Fourier Transform...any curve is the aggregation of sine/cosine functions at different frequencies and amplitudes.
淺顯易懂,深入淺出。
太猛了! XD
best lecture ever!!! Thank you so much for open sourcing this!
16:29 這裡一時間沒有領略到意圖,已經組好 Sigma 的 sigmoid 了,形狀上已經可以無限接近 curve 了,為什麼還要把裡面的 b+wx 擴充? 回到前面想了一下,恍然大悟,哦 對~ 如果要把時間,往前幾天考慮進來的話。自然是要增加一個 維度,投影片以 j 表示。
所以 i 維度是要用到多少個 sigmoid, j 維度則是考慮要橫跨多少資料點(例如這裡是表示向前多少時間點)
而實際上 j 維度這個部分應該是 feature 的數量,而在這邊我們覺得 往前一定天數的 data 都是有貢獻的,所以往前天數的 data ,在這裡就成為 feature。
一個是增加該Xi變數的解釋力(讓該xi可以在不同位置更符合model,也就是Loss變小)
一個是增加變數的個數 ( j維度 )
你的回答也助我更釐清此一細節,謝謝
一個Sigmoid有三個參數可以調整,不太明白為什麼擴展到多個變數之後,只剩w可以額外調整。
其他b、c一樣是一個變數的。
53:02 这个地方讲的真好
太精彩了。。。。意犹未尽
终于形象化地了解了sigmoid function是怎么应用到DL的,piecewise linear curve之前学的都没有提到过
老师对DL的理解高屋建瓴, 才能把复杂的东西描述的这么清晰. 感谢李老师
講得太好了,還有字幕,太用心了
重新理解了激活函数的作用,精彩
老師,元宵節快樂!!
派大好 😊
sigmoid function解释的好棒!之前看其他神经网络课程都没有这么形象的解释过!
「準確」是重點 🌎
Wow...isn't this Fourier Transform to see what the wave function is comprised of what frequencies ?
A linear model doesn't have to be a straight line. The limitations of it are the assumptions of regression, not "too simple".
It's like Fourier Transform. Given a random curve, what are the frequency components of this curve.
超级棒的讲解
老师讲的太清楚了
太精采了,32:55 的 cc 字幕有錯字哦 θ start → star
在46:11中,好像没有说清楚为什么需要多层 , 并以 a 代替下一个迭代的输入。老师能解释吗?谢谢。
教授教的太精彩了 真幽默 呵呵
这里有一个地方不是很明白。再把一系列sigmoid函数相加的时候,为什么没有提到函数区间问题?比如影片13:24的时候,我们可以看到对于第一个sigmoid我们要用了上升的部分,而第二个sigmoid我们会用下降的部分, 第三个sigmoid又用的是上升的部分。在没有定义定义域的前提下,所有直线的部分去哪里了呢?
red curve每段的高度就是由1, 2, 3號sigmoid的直線,以及0號直線相加形成的
所以0, 1, 2, 3號函式全部相加(含直線部分)本來就會形成red curve啊
非常感謝老師的講解,不過有個好奇的點。如果對x1來說可以用y=b+Σ_i ci*sigmoid(bi+wi*x1)來逼近,那對另一個輸入x2也是用同樣的方法逼近y=b+Σ_i ci*sigmoid(bi+wi*x2),這樣一來最直覺不就是把兩者相加嗎?變成double summation,如y=b+Σ_j { Σ_i cij*sigmoid(bij+wij*xj) },好奇這樣結果會如何
謝謝老師無私的分享
听了这么多机器学习的课程,现在才知道sigmoid函数是怎么来的
我覺得會遠大於0.38k,這學期修課人數是之前的數倍,這是機器所不知道的,所以模型很也可能不準
我的看法倒是,可能因為我比較皮
我可以刻意揪大家刷觀看量,讓預測失準XD
33:27 是不是說錯了,是L對每個參數的微分
真正的大师
老师有趣,有用,有才,有爱
best machine learning course on youtube!
老師你太棒了!學生覺得收穫良多>
老师,挺你,比我本科老师教授的机器学习课程好太多
謝謝老師,真的聼懂了!
本來在想那個sigmoid function是用步階函數寫出來的哈哈
我用1.5倍观看速非常适应。。
讲的真挺好
与林轩田老师的课结合起来,就是深入浅出
47:12 47:33 為什麼老師在講的時候會指著layer說ReLU,前面不是有說每次都加 100 個 ReLU為1Layer 這是口誤嗎
每個layer都用100個ReLU去近似連續函式,簡化起見就說通過一次ReLU,那3層layer就會通過三次ReLU
您好,想請教一個問題,在影片中,您提到1個epoch 裡面會有與batch 數量相等的update,我想請教如果我改變batch大小,也相對變動epoch 數字,使其update 數一樣,那兩個model 會有什麼優缺點呢?
請問j 是不是feature x的序列個數?若j代表 no. of features 則意思是有好多不同的feature variable?
李老师太帅了,讲的真不错
02:59 好像是 threshold >
3:41好像語誤,應該是跟「y軸」的焦點在哪裡