ResNet论文逐段精读

Поделиться
HTML-код
  • Опубликовано: 11 янв 2025

Комментарии • 27

  • @haofeng7922
    @haofeng7922 3 года назад +9

    最近刚接触cv,老师让读一读ResNet,李沐老师就发了这样一个很有帮助的视频,对我很有帮助,非常感谢。

  • @zealing8775
    @zealing8775 Год назад +4

    Resent优点是gradient能更快回馈到前面几层,均匀分配learning resource到各层。否则前面层饿死 后面层撑死。

  • @sophiez7952
    @sophiez7952 3 года назад +6

    好棒,谢谢沐神老师!!!

  • @Lee-sr9el
    @Lee-sr9el 10 месяцев назад

    太喜欢这个博主了

  • @testtest9492
    @testtest9492 5 дней назад

    讲的太好了,🐮,感谢老师

  • @chrischen6
    @chrischen6 Год назад

    謝謝老師講解 非常清楚 很受用

  • @tianwenchu1663
    @tianwenchu1663 Год назад

    感谢大佬深入浅出,太精彩了

  • @thankyouthankyou1172
    @thankyouthankyou1172 Год назад +1

    喜欢听老师讲课

  • @DED_Search
    @DED_Search 3 года назад +2

    25:30 老师说训练精度比测试精度高?这个说反了吧?纵轴是% error, thin line is training error whereas bold line is testing error.

    • @jizong234
      @jizong234 2 года назад

      我也觉得说反了

    • @graceq.899
      @graceq.899 Год назад +1

      是反了,或者想説error結果説的是精度,但是意思是對的,解釋了爲什麽testing error比training error 低

    • @linxiaohuang4629
      @linxiaohuang4629 Год назад

      +1

  • @JohnSmith-xf5od
    @JohnSmith-xf5od 7 месяцев назад

    如果resnet 的启发是始终要保持gradient够大,那么为啥优化过程中要把learning rate 1/10呢?这不是在一个平坦区域gradient大大变小了吗?不是更走不出去了吗?

  • @TSUNG-YULIN
    @TSUNG-YULIN 2 года назад +4

    依照論文的意思,F(x)是整個網路多餘層的輸出應該要訓練出一個很小的值,比起訓練一個identity mapping,訓練一個weights接近0的layer應該比較簡單。但有一點想不通的是,依照論文所提出的架構,在Resnet淺層的時候,便有shortcut connections的使用,這樣不會導致網路在淺層的時候每一層都只訓練出一個接近0的值,再加上原本的輸出x後,過完一個Resnet的block後出來的output還是很接近x(輸入)嗎,如果依照resnet的精神,不是應該只在深層網路的後面幾個layer加入shortcut connections才好嗎?希望能在這邊解惑,謝謝各位。

    • @andreawong2935
      @andreawong2935 Год назад

      老师在最后讲f(g(x))的那个例子或许可以回顾一下?

    • @tildarusso
      @tildarusso Год назад

      在此情况下,网络浪费了算力(后面残差计算都白费了),但情况并没有变糟。此情况能一直传播到网络末端输出。再加上网络越深越好的基本概念(特征浓缩),残差还是很必要-你保留了使用同一个网络结构处理不同数据分布的通用性。

  • @TheGongjie437
    @TheGongjie437 6 месяцев назад

    谢谢沐神

  • @rot3315
    @rot3315 5 месяцев назад

    非常感謝

  • @hanyanglee9018
    @hanyanglee9018 Год назад

    堆叠起来的层的可训练性应该是一个要认真研究的事情,不记得见过这个方向的任何说法。

  • @jeffw1082
    @jeffw1082 2 года назад

    is any paper talk about different optimizer? In my work I found using Adam I could train the network(mostly transformer and lstm), but SGD explode after few steps.

  • @chaozhang4751
    @chaozhang4751 3 года назад

    thanks for sharing!!!

  • @rubyjiang8836
    @rubyjiang8836 Год назад

    我的神!

  • @turinglifechu9419
    @turinglifechu9419 3 месяца назад

    3.1, 3.2, 3.3好像没有。

  • @linquanma6145
    @linquanma6145 3 года назад +5

    沐神用爱发电,yyds

  • @alphaprofold5707
    @alphaprofold5707 3 года назад

    高屋建瓴!