Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
0:12 - 0:13梯度 下降法 就是 快速 找到 最低點的一個方法0:13思路很簡單,山上有一個球,經過幾次運動後,就會來到谷底附近思路 雖然簡單,但是要 實現這個過程 必須回到三個問題1.往哪個方向滾? (0:24)2.每一次 滾多遠?(0:32)3.滾到哪裡算結束(0:41)雖然一開始說 滾到谷底附近,但是 這個 附近 是 多大?1:01簡單的例子1:11一元函數 只有兩個運動方向一個朝左 , 一個朝右越走越高的方向 叫做 梯度方向越走越低的方向 叫做 梯度方向的反方向1:32如果要走到最低處,就要往梯度的反方向走1:38走了 一次之後,我們又會 對方向 進行判斷同樣 這個點也有梯度方向 和 梯度方向的反方向1:51就這樣 持續 重複這樣的邏輯不斷朝 梯度的反方向移動 運氣好,我們就能走到最低點附近2:03為什麼要說 "運氣好"?就是因為 如果要達到目的,我們還要考慮 每一次走多遠這個 要從計算中 反應,所以這裡給出一些 具體數值2:14假設f=x^2梯度 就 = 2x這個 梯度 就是 gradient of fgradient vector的定義 一定要記住=〉 〈fx(x,y) , fy(x,y)〉 忘記的話 可以在 這裡複習9-4 ruclips.net/video/BTExmI3bPao/видео.html9-5 ruclips.net/video/X2I3iMevFwo/видео.html2:25實際 帶入 數字計算 , 以方便理解3:13需要一個 參數 來控制 移動的距離,這個參數 被稱為學習率3:25如果將學習率調過大,可能會讓結果 離我們的目標 越來越遠3:41如果學習率 太小,可能會讓每次學習進度 太小,這樣要達到目標 就需要很長的時間學習4:09要完成梯度下降,需要選擇合適的學習率4:15來看終止條件 ,首先 計算出每次跌代後的梯度值在學習率=0.2時,每次跌代後,梯度 的 絕對值 都在不斷下降(再講一次 梯度 就是 gradient of fgradient vector的定義 一定要記住=〉 〈fx(x,y) , fy(x,y)〉 )4:18梯度方向的意義 是 如果往這個方向走,z的值的增長會最大那麼梯度方向的絕對值 就是指 說 往梯度方向走 z的值增長的量詳細定義 可以看 下面這支影片ruclips.net/video/Dhou27Ergkk/видео.html4:19可以看到 在學習率 為0.2時,每次迭代後,梯度的絕對值都在不斷下降表示 z的值增長的量 持續下降這也是將這個方法命名為 梯度下降法的原因4:39梯度為0的位置 , 就是最低點的位置因此 通常會選擇較小的 梯度值作為終止條件比如希望最後的梯度值 小於等於0.015:03理論支撐5:13最後看個例子
为什么梯度要选用导数?随便用一个x变量不行吗?
一元函数的梯度就是导数
會有複數個 「低谷」,我們要找到「最低谷」,對損失函數而言,我們要找到最「最低谷」,損失值才會極小 ❤梯度值為 0,不一定是「最低谷」,如果它不是最低谷,稱為local minimum,不是我們據以建構模型的「地點」😅
什么叫梯度阿?
斜率
0:12 - 0:13
梯度 下降法 就是 快速 找到 最低點的一個方法
0:13
思路很簡單,山上有一個球,經過幾次運動後,就會來到谷底附近
思路 雖然簡單,但是要 實現這個過程 必須回到三個問題
1.往哪個方向滾? (0:24)
2.每一次 滾多遠?(0:32)
3.滾到哪裡算結束(0:41)
雖然一開始說 滾到谷底附近,但是 這個 附近 是 多大?
1:01
簡單的例子
1:11
一元函數 只有兩個運動方向
一個朝左 , 一個朝右
越走越高的方向 叫做 梯度方向
越走越低的方向 叫做 梯度方向的反方向
1:32
如果要走到最低處,就要往梯度的反方向走
1:38
走了 一次之後,我們又會 對方向 進行判斷
同樣 這個點也有
梯度方向 和 梯度方向的反方向
1:51
就這樣 持續 重複這樣的邏輯
不斷朝 梯度的反方向移動
運氣好,我們就能走到最低點附近
2:03
為什麼要說 "運氣好"?
就是因為 如果要達到目的,我們還要考慮 每一次走多遠
這個 要從計算中 反應,所以這裡給出一些 具體數值
2:14
假設
f=x^2
梯度 就 = 2x
這個 梯度 就是 gradient of f
gradient vector的定義 一定要記住
=〉 〈fx(x,y) , fy(x,y)〉
忘記的話 可以在 這裡複習
9-4 ruclips.net/video/BTExmI3bPao/видео.html
9-5 ruclips.net/video/X2I3iMevFwo/видео.html
2:25
實際 帶入 數字計算 , 以方便理解
3:13
需要一個 參數 來控制 移動的距離,這個參數 被稱為學習率
3:25
如果將學習率調過大,可能會讓結果 離我們的目標 越來越遠
3:41
如果學習率 太小,可能會讓每次學習進度 太小,這樣要達到目標 就需要很長的時間學習
4:09
要完成梯度下降,需要選擇合適的學習率
4:15
來看終止條件 ,首先 計算出每次跌代後的梯度值
在學習率=0.2時,每次跌代後,梯度 的 絕對值 都在不斷下降
(再講一次 梯度 就是 gradient of f
gradient vector的定義 一定要記住
=〉 〈fx(x,y) , fy(x,y)〉
)
4:18
梯度方向的意義 是 如果往這個方向走,z的值的增長會最大
那麼梯度方向的絕對值 就是指 說 往梯度方向走 z的值增長的量
詳細定義 可以看 下面這支影片
ruclips.net/video/Dhou27Ergkk/видео.html
4:19
可以看到 在學習率 為0.2時,每次迭代後,梯度的絕對值都在不斷下降
表示 z的值增長的量 持續下降
這也是將這個方法命名為 梯度下降法的原因
4:39
梯度為0的位置 , 就是最低點的位置
因此 通常會選擇較小的 梯度值作為終止條件
比如希望最後的梯度值 小於等於0.01
5:03
理論支撐
5:13
最後看個例子
为什么梯度要选用导数?随便用一个x变量不行吗?
一元函数的梯度就是导数
會有複數個 「低谷」,我們要找到「最低谷」,
對損失函數而言,我們要找到最「最低谷」,損失值才會極小 ❤
梯度值為 0,
不一定是「最低谷」,如果它不是最低谷,稱為
local minimum
,不是我們據以建構模型的
「地點」😅
什么叫梯度阿?
斜率