Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
最近刚接触cv,老师让读一读ResNet,李沐老师就发了这样一个很有帮助的视频,对我很有帮助,非常感谢。
Resent优点是gradient能更快回馈到前面几层,均匀分配learning resource到各层。否则前面层饿死 后面层撑死。
好棒,谢谢沐神老师!!!
太喜欢这个博主了
讲的太好了,🐮,感谢老师
謝謝老師講解 非常清楚 很受用
感谢大佬深入浅出,太精彩了
喜欢听老师讲课
22:48 你说的64, 28 通道,通道 = filter?
25:30 老师说训练精度比测试精度高?这个说反了吧?纵轴是% error, thin line is training error whereas bold line is testing error.
我也觉得说反了
是反了,或者想説error結果説的是精度,但是意思是對的,解釋了爲什麽testing error比training error 低
+1
如果resnet 的启发是始终要保持gradient够大,那么为啥优化过程中要把learning rate 1/10呢?这不是在一个平坦区域gradient大大变小了吗?不是更走不出去了吗?
依照論文的意思,F(x)是整個網路多餘層的輸出應該要訓練出一個很小的值,比起訓練一個identity mapping,訓練一個weights接近0的layer應該比較簡單。但有一點想不通的是,依照論文所提出的架構,在Resnet淺層的時候,便有shortcut connections的使用,這樣不會導致網路在淺層的時候每一層都只訓練出一個接近0的值,再加上原本的輸出x後,過完一個Resnet的block後出來的output還是很接近x(輸入)嗎,如果依照resnet的精神,不是應該只在深層網路的後面幾個layer加入shortcut connections才好嗎?希望能在這邊解惑,謝謝各位。
老师在最后讲f(g(x))的那个例子或许可以回顾一下?
在此情况下,网络浪费了算力(后面残差计算都白费了),但情况并没有变糟。此情况能一直传播到网络末端输出。再加上网络越深越好的基本概念(特征浓缩),残差还是很必要-你保留了使用同一个网络结构处理不同数据分布的通用性。
谢谢沐神
非常感謝
堆叠起来的层的可训练性应该是一个要认真研究的事情,不记得见过这个方向的任何说法。
is any paper talk about different optimizer? In my work I found using Adam I could train the network(mostly transformer and lstm), but SGD explode after few steps.
thanks for sharing!!!
我的神!
3.1, 3.2, 3.3好像没有。
沐神用爱发电,yyds
高屋建瓴!
最近刚接触cv,老师让读一读ResNet,李沐老师就发了这样一个很有帮助的视频,对我很有帮助,非常感谢。
Resent优点是gradient能更快回馈到前面几层,均匀分配learning resource到各层。否则前面层饿死 后面层撑死。
好棒,谢谢沐神老师!!!
太喜欢这个博主了
讲的太好了,🐮,感谢老师
謝謝老師講解 非常清楚 很受用
感谢大佬深入浅出,太精彩了
喜欢听老师讲课
22:48 你说的64, 28 通道,通道 = filter?
25:30 老师说训练精度比测试精度高?这个说反了吧?纵轴是% error, thin line is training error whereas bold line is testing error.
我也觉得说反了
是反了,或者想説error結果説的是精度,但是意思是對的,解釋了爲什麽testing error比training error 低
+1
如果resnet 的启发是始终要保持gradient够大,那么为啥优化过程中要把learning rate 1/10呢?这不是在一个平坦区域gradient大大变小了吗?不是更走不出去了吗?
依照論文的意思,F(x)是整個網路多餘層的輸出應該要訓練出一個很小的值,比起訓練一個identity mapping,訓練一個weights接近0的layer應該比較簡單。但有一點想不通的是,依照論文所提出的架構,在Resnet淺層的時候,便有shortcut connections的使用,這樣不會導致網路在淺層的時候每一層都只訓練出一個接近0的值,再加上原本的輸出x後,過完一個Resnet的block後出來的output還是很接近x(輸入)嗎,如果依照resnet的精神,不是應該只在深層網路的後面幾個layer加入shortcut connections才好嗎?希望能在這邊解惑,謝謝各位。
老师在最后讲f(g(x))的那个例子或许可以回顾一下?
在此情况下,网络浪费了算力(后面残差计算都白费了),但情况并没有变糟。此情况能一直传播到网络末端输出。再加上网络越深越好的基本概念(特征浓缩),残差还是很必要-你保留了使用同一个网络结构处理不同数据分布的通用性。
谢谢沐神
非常感謝
堆叠起来的层的可训练性应该是一个要认真研究的事情,不记得见过这个方向的任何说法。
is any paper talk about different optimizer? In my work I found using Adam I could train the network(mostly transformer and lstm), but SGD explode after few steps.
thanks for sharing!!!
我的神!
3.1, 3.2, 3.3好像没有。
沐神用爱发电,yyds
高屋建瓴!