Размер видео: 1280 X 720853 X 480640 X 360
Показать панель управления
Автовоспроизведение
Автоповтор
初コメです☺️ゼミでこの分野ちょっと触れたことがあって,「F(x)+x にすれば0にならなくて便利らしい...」くらいのふわふわした理解でしたが,この動画を見て,なぜそうするのかっていうのが「恒等写像」の説明で,すごく理解できました✨
わーい!のんのさんのお役に立てて光栄です!😍🎉🎉いつも丁寧に見て理解していただいて私もうれしいです(^^)
「恒等写像を基準に調整」で、びよーんの矢印の意味が、ばっちしスパーンと理解出来ました!
それは良かったです!(^o^)たくさんご視聴いただきありがとうございます😊✌️
画像認識系の研究室にいるので、わかりやすくとても参考になりました!Faster-r-cnnやmask-r-cnn等についてもぜひ聞いてみたいです!
R-CNN ですね!YOLO とかそこらへんもやりたいと思っています!このシリーズは、一旦 NLP にいく予定なので、すこし先になってしまいますが、のんびりお待ち下さい😊
最近CNNをかじり始めてちょっと詰まりかけてたので、分かりやすいしありがたすぎて泣いちゃいました😭
ご視聴コメントありがとうございます!🎉🎉それはよかったです!真面目に勉強されている方のお役に立てて私も光栄です😊
『分析モデル入門』から戻ってきました。動画の補足コンテンツがあるのってとても助かります。
おかえりなさい!🎉両メディアを活用いただいてとっても嬉しいです🤩🎉🎉🎉ぜひ色々吸収していってくださーい😋
いつも超わかりやすい解説ありがとうございます!Resnetについては発表当時から知ってはいましたが、スキップコネクション使うという事実だけ知っていてその深い理由とかは知らなかったのでめっちゃ勉強になりました!少しわからなかったことがあったので質問です。18layerと34layerの比較のところで34layerのほうが劣っているのは単に学習効率の問題で、34layerでも時間をめっっっっちゃかければ18layerを凌駕しうるという解釈でよろしいのでしょうか?また34layer = 18layer + 16layer(恒等写像)というのは(もし完全にこのようなlayer構造になったとして)1. 特徴量の抽出は18layerでだいたい十分2. 16layer(恒等写像)の部分は恒等写像が正解に近くなるように微調整しているといった解釈になるのでしょうか?
お役に立ててよかったです!(^o^)めちゃ学習に時間をかければ 34-layer の方が 18-layer より強くなるかは、、、わかりません、、、。机上で結論が付く問題ではないので、実際に試してみるしかないと思い。34-layer = 18-layre + 16-layer というのは、そういう構造が正解であるという話をしていたのではなく、仮にこうすることができれば少なくとも性能が悪化することはないはず、、、という仮の議論でした。なので、実際の学習や調整の話はよくわかりません、、!
ありがとうございます!DL界隈は側から見るととりあえずやってみたらうまくいった、みたいに見えますけど、きちんと原論文読んだら理論がしっかり書いてあるもんですね。最近だと細かい技術が沢山あってついていくのが大変です笑
その側面もあると思いますよ!やったらうまくいったがかなり先行してるので、理論もやらねばという揺り戻しが来ている時代のような気がしています😊
Thank you!!
Welcome!
흥미롭게 잘 들었습니다. 감사합니다.
다시 한번 시청해 주시고 댓글을 남겨주셔서 감사합니다!얻은 이해를 잘 활용하세요!🎉This is translation by ChatGPT. The original is:Thank you for your watching and your comment again here!Please utilize your understanding!
恒等写像が必要になる場合はshortcutコネクションが有効に働くのは分かったのですが、恒等写像ではなく通常の特徴抽出が必要でshortcutコネクションによる情報が全く必要ない場合は、邪魔になって学習がうまく進まなさそう(shortcutコネクションの足し合わせを打ち消すために層への入力を全て最終層まで保持するとかも難しそう?)に思えるのですが、どうしてうまく学習できるのでしょうか?🤔
よい質問ですね!!!よい質問過ぎてわかりません!/(^o^)\この辺りは、理論で攻めるより、実践でどっちがよいかを確かめる領域な気がします。skip connection があろうとなかろうと普遍近似定理は成り立つので、最終的にはどっちでも精度が出るとおもいます。ただ、動画でも話した通り、degradation への対処には恒等写像の学習の容易性が重要なので、結局 ResNet 優位は変わらないと思います。また、 skip conn. には、勾配消失の抑制の効果もあるので、それも加味すると skip conn. がある方が優勢だと考えていいと思います👀
@@AIcia_Solid まずdegradationを防ぐためにskipconnectionが考えられて(理論上普遍性定理も成り立つので)、実際に実験してみたら精度が出たので、内部的な動きは詳しくは分からないけど通常の特徴抽出も上手く機能してる(っぽい)ということでしょうか?🤔足し合わせではなくてconcatだったら学習しやすそう(出力に余分な0が付いてしまう?)ですが、少し不思議だなとおもいました。勾配消失対策になるのも大きいんですね👀
大体そんな感じだと思います👀勾配消失の抑制は極めて本質的です!これのお陰で実務的に深いネットワークが実現されるようになったので!
@@AIcia_Solid 層が多くても、勾配消失抑制と恒等写像によって総合的に高い精度が出ているんですね👀ありがとうございます!🍀
こちらこそ、興味深い質問をいただきましてありがとうございました!わたしも勉強になりました!🎉
こんばんは!歴史含めて学べるので楽しめて見れています!良かったらtransformerについて知りたいです(bertも)自力で調べてもなかなか難しい...orz
おまかせあれ!Transformer や BERT は年内くらいに登場予定です😋
どうもありがとうございました。やっとResNetの仕組みが理解できました。ついでにお願いしても宜しいですか?異常検知の界隈でEfficientNetが話題ですが、それについても解説していただけますでしょうか。
ご視聴コメントありがとうございます😍活用いただけて良かったです!(^o^)EfficientNet 話題ですよねー!いつか扱いたいのですが、いつになるかは未定です🙇♀️🙇♀️🙇♀️
12:55 skipとshortcutって別物なんですか?
大体一緒だと思います。動画では shortcut で統一するために言い直しました😋
DenseNetの動画もあげてほしいです🙇♂️
DenseNet は ResNet に毛が生えた程度のものなので、 ResNet をしっかり理解したあと、ネットで調べてみていただければある程度つかめるのではないかと思います!いつか扱いたいですが、 Transformer や GAN や RL など紹介したいものがたくさんあるので、かなり先になってしまう気がします😇
@@AIcia_Solid 分かりました!頑張って調べます!主さんも動画投稿頑張ってください!
原著論文読んでみました。comprehensive researchって感じでHeさんのファンになりました(*'▽')うまくいってない原因の切り分け(過学習/勾配消失/収束が遅い)を議論するところが熱いですね。質問なのですが、学習のグラフ(Fig.4)でガクンとerror rateが落ちているところがありますが、これはなぜなんでしょうか?学習のパラメータの何かをいじってるのかなと思いましたが、学習率についてはp.776の右の段落の1パラ目に、「iteration 32k目と48k目で1/10変えた」とあり、学習率を変えたことが原因ではなさそうなのかなと考えました。
おおー!いいですね!😍🎉🎉原著論文熱いからホント色んな人に読んでほしいですよね!😍質問の部分です。これは、たぶん学習率の調整だと思います。学習サチって来たら学習率落とすのはよくあることなので!p776 右は CIFAR-10 のときの話ですので、たぶん別のタイミングでやったのだと思います。
@@AIcia_Solid ありがとうございます!もう一度読み返してみます💦
どの動画も楽しく拝見しております。層が長いほうが性能が悪いという結果から、恒等写像の学習は難しいと考えられ、「試しに」0写像を学習するようにしてみたら「結果的に」うまくいった、という認識なのですがあっていますでしょうか?(0写像のほうが学習しやすいというのがよくわからなかったです…理論的にわかっているのでしょうか?)
大体そんな解釈で良いと思います😊ゼロ写像は、パラメタ全部0にしたら実現できるので、学習は比較的容易なのではないかと思います!
恒等写像の学習が難しいって不思議よな。来たのそのまま返すだけって簡単そうだけど、、活性化関数とかのせいで情報が勝手にガタガタにされてくとかなのかな。
0写像の方が学習しやすいのは、個々の重みを調整する際、前の層や同じ層の他の重みに影響されることなく、それぞれが0の方向に近づければ良いことが明確だから偏微分と相性が良いってことじゃないかな。
活性化関数にシグモイドとかうにょーんってしたやつを使うと恒等写像を有限個のパラメタで表現することは不可能です。また、活性化関数の値域が有限だと、やはり有限個のパラメタでは、NNの値粋も有限になるので、大きな値での近似は厳しくなります。ReLUを使う場合、 ReLU(x) - ReLU(-x) = x なので、これで恒等写像になっていそうですが、1変数の恒等写像を表現するのにReLUを2個使っているので、中間層の個数が入出力の個数の倍必要になります。(通常そんなネットワークは作りません)なので、恒等写像の学習は難しいのです。一方、ゼロ写像はパラメーターぜんぶ0にしたらなるので、すごく簡単なのです👀
@@AIcia_Solid なるほど、活性化関数が入力値と同じ出力値を表現することが困難な点に恒等写像が難しい理由があったということですか。たしかに言われてみれば当たり前ですね。
Heさんすごい...
でしょ😎ほんとすごいですよね🤩
論文で、しかも本論文じゃなくて引用の方でしか知らなかったから、ずっと”レスネット”だと思ってた....。
あ、、、たしかに、、、、、(笑)レジデュアルの Res なので、レズが正しいと思います、、、たぶん!
Google先生によるとだいたいレズネットと出てきますね
A friend sended me this are you a vtuber who does computer science content :D? I do wish something like this exist in english...
Thank you for your watching and a comment!🎉Now, this is your turn to start some DS VTuber 😋 I think 😋
原文はチラ見これがMicrosoft Research北京つーのが悲しいですね科研費どうなってンスか?
良い研究ですよね!(何が悲しいかは私にはよくわかりませんが、、)
今回も動画乙。ResNetって、残差学習で勾配消失って、ぼんやり覚えていたけど、スキップコネクションのところでサイズを同じにする必要があるのか・・・。元論文は読んでなかったから、勉強になった
驚くべきことに、原論文には勾配消失のことは一切描いていません😇その効果も大きいのでしょうが、 degradation 対策として作られたもののようです(^^)
初コメです☺️
ゼミでこの分野ちょっと触れたことがあって,
「F(x)+x にすれば0にならなくて便利らしい...」くらいのふわふわした理解でしたが,
この動画を見て,なぜそうするのかっていうのが「恒等写像」の説明で,すごく理解できました✨
わーい!
のんのさんのお役に立てて光栄です!😍🎉🎉
いつも丁寧に見て理解していただいて私もうれしいです(^^)
「恒等写像を基準に調整」で、びよーんの矢印の意味が、ばっちしスパーンと理解出来ました!
それは良かったです!(^o^)
たくさんご視聴いただきありがとうございます😊✌️
画像認識系の研究室にいるので、わかりやすくとても参考になりました!
Faster-r-cnnやmask-r-cnn等についてもぜひ聞いてみたいです!
R-CNN ですね!
YOLO とかそこらへんもやりたいと思っています!
このシリーズは、一旦 NLP にいく予定なので、すこし先になってしまいますが、のんびりお待ち下さい😊
最近CNNをかじり始めてちょっと詰まりかけてたので、分かりやすいしありがたすぎて泣いちゃいました😭
ご視聴コメントありがとうございます!🎉🎉
それはよかったです!
真面目に勉強されている方のお役に立てて私も光栄です😊
『分析モデル入門』から戻ってきました。動画の補足コンテンツがあるのってとても助かります。
おかえりなさい!🎉
両メディアを活用いただいてとっても嬉しいです🤩🎉🎉🎉
ぜひ色々吸収していってくださーい😋
いつも超わかりやすい解説ありがとうございます!
Resnetについては発表当時から知ってはいましたが、スキップコネクション使うという事実だけ知っていてその深い理由とかは知らなかったのでめっちゃ勉強になりました!
少しわからなかったことがあったので質問です。
18layerと34layerの比較のところで34layerのほうが劣っているのは単に学習効率の問題で、34layerでも時間をめっっっっちゃかければ18layerを凌駕しうるという解釈でよろしいのでしょうか?
また34layer = 18layer + 16layer(恒等写像)というのは(もし完全にこのようなlayer構造になったとして)
1. 特徴量の抽出は18layerでだいたい十分
2. 16layer(恒等写像)の部分は恒等写像が正解に近くなるように微調整している
といった解釈になるのでしょうか?
お役に立ててよかったです!(^o^)
めちゃ学習に時間をかければ 34-layer の方が 18-layer より強くなるかは、、、わかりません、、、。
机上で結論が付く問題ではないので、実際に試してみるしかないと思い。
34-layer = 18-layre + 16-layer というのは、
そういう構造が正解であるという話をしていたのではなく、
仮にこうすることができれば少なくとも性能が悪化することはないはず、、、
という仮の議論でした。
なので、実際の学習や調整の話はよくわかりません、、!
ありがとうございます!
DL界隈は側から見るととりあえずやってみたらうまくいった、みたいに見えますけど、きちんと原論文読んだら理論がしっかり書いてあるもんですね。
最近だと細かい技術が沢山あってついていくのが大変です笑
その側面もあると思いますよ!
やったらうまくいったがかなり先行してるので、理論もやらねばという揺り戻しが来ている時代のような気がしています😊
Thank you!!
Welcome!
흥미롭게 잘 들었습니다. 감사합니다.
다시 한번 시청해 주시고 댓글을 남겨주셔서 감사합니다!
얻은 이해를 잘 활용하세요!🎉
This is translation by ChatGPT. The original is:
Thank you for your watching and your comment again here!
Please utilize your understanding!
恒等写像が必要になる場合はshortcutコネクションが有効に働くのは分かったのですが、恒等写像ではなく通常の特徴抽出が必要でshortcutコネクションによる情報が全く必要ない場合は、邪魔になって学習がうまく進まなさそう(shortcutコネクションの足し合わせを打ち消すために層への入力を全て最終層まで保持するとかも難しそう?)に思えるのですが、どうしてうまく学習できるのでしょうか?🤔
よい質問ですね!!!
よい質問過ぎてわかりません!/(^o^)\
この辺りは、理論で攻めるより、実践でどっちがよいかを確かめる領域な気がします。
skip connection があろうとなかろうと普遍近似定理は成り立つので、最終的にはどっちでも精度が出るとおもいます。
ただ、動画でも話した通り、degradation への対処には恒等写像の学習の容易性が重要なので、結局 ResNet 優位は変わらないと思います。
また、 skip conn. には、勾配消失の抑制の効果もあるので、それも加味すると skip conn. がある方が優勢だと考えていいと思います👀
@@AIcia_Solid
まずdegradationを防ぐためにskipconnectionが考えられて(理論上普遍性定理も成り立つので)、実際に実験してみたら精度が出たので、内部的な動きは詳しくは分からないけど通常の特徴抽出も上手く機能してる(っぽい)ということでしょうか?🤔
足し合わせではなくてconcatだったら学習しやすそう(出力に余分な0が付いてしまう?)ですが、少し不思議だなとおもいました。
勾配消失対策になるのも大きいんですね👀
大体そんな感じだと思います👀
勾配消失の抑制は極めて本質的です!
これのお陰で実務的に深いネットワークが実現されるようになったので!
@@AIcia_Solid
層が多くても、勾配消失抑制と恒等写像によって総合的に高い精度が出ているんですね👀
ありがとうございます!🍀
こちらこそ、興味深い質問をいただきましてありがとうございました!
わたしも勉強になりました!🎉
こんばんは!歴史含めて学べるので楽しめて見れています!
良かったらtransformerについて知りたいです(bertも)
自力で調べてもなかなか難しい...orz
おまかせあれ!
Transformer や BERT は年内くらいに登場予定です😋
どうもありがとうございました。やっとResNetの仕組みが理解できました。ついでにお願いしても宜しいですか?異常検知の界隈でEfficientNetが話題ですが、それについても解説していただけますでしょうか。
ご視聴コメントありがとうございます😍
活用いただけて良かったです!(^o^)
EfficientNet 話題ですよねー!
いつか扱いたいのですが、いつになるかは未定です🙇♀️🙇♀️🙇♀️
12:55 skipとshortcutって別物なんですか?
大体一緒だと思います。
動画では shortcut で統一するために言い直しました😋
DenseNetの動画もあげてほしいです🙇♂️
DenseNet は ResNet に毛が生えた程度のものなので、 ResNet をしっかり理解したあと、ネットで調べてみていただければある程度つかめるのではないかと思います!
いつか扱いたいですが、 Transformer や GAN や RL など紹介したいものがたくさんあるので、かなり先になってしまう気がします😇
@@AIcia_Solid 分かりました!頑張って調べます!主さんも動画投稿頑張ってください!
原著論文読んでみました。
comprehensive researchって感じでHeさんのファンになりました(*'▽')
うまくいってない原因の切り分け(過学習/勾配消失/収束が遅い)を議論するところが熱いですね。
質問なのですが、学習のグラフ(Fig.4)でガクンとerror rateが落ちているところがありますが、これはなぜなんでしょうか?
学習のパラメータの何かをいじってるのかなと思いましたが、学習率については
p.776の右の段落の1パラ目に、「iteration 32k目と48k目で1/10変えた」とあり、学習率を変えたことが原因ではなさそうなのかなと考えました。
おおー!いいですね!😍🎉🎉
原著論文熱いからホント色んな人に読んでほしいですよね!😍
質問の部分です。
これは、たぶん学習率の調整だと思います。
学習サチって来たら学習率落とすのはよくあることなので!
p776 右は CIFAR-10 のときの話ですので、たぶん別のタイミングでやったのだと思います。
@@AIcia_Solid ありがとうございます!
もう一度読み返してみます💦
どの動画も楽しく拝見しております。
層が長いほうが性能が悪いという結果から、恒等写像の学習は難しいと考えられ、「試しに」0写像を学習するようにしてみたら「結果的に」うまくいった、という認識なのですがあっていますでしょうか?
(0写像のほうが学習しやすいというのがよくわからなかったです…理論的にわかっているのでしょうか?)
大体そんな解釈で良いと思います😊
ゼロ写像は、パラメタ全部0にしたら実現できるので、学習は比較的容易なのではないかと思います!
恒等写像の学習が難しいって不思議よな。来たのそのまま返すだけって簡単そうだけど、、活性化関数とかのせいで情報が勝手にガタガタにされてくとかなのかな。
0写像の方が学習しやすいのは、個々の重みを調整する際、前の層や同じ層の他の重みに影響されることなく、それぞれが0の方向に近づければ良いことが明確だから偏微分と相性が良いってことじゃないかな。
活性化関数にシグモイドとかうにょーんってしたやつを使うと恒等写像を有限個のパラメタで表現することは不可能です。
また、活性化関数の値域が有限だと、やはり有限個のパラメタでは、NNの値粋も有限になるので、大きな値での近似は厳しくなります。
ReLUを使う場合、 ReLU(x) - ReLU(-x) = x なので、これで恒等写像になっていそうですが、1変数の恒等写像を表現するのにReLUを2個使っているので、中間層の個数が入出力の個数の倍必要になります。(通常そんなネットワークは作りません)
なので、恒等写像の学習は難しいのです。
一方、ゼロ写像はパラメーターぜんぶ0にしたらなるので、すごく簡単なのです👀
@@AIcia_Solid なるほど、活性化関数が入力値と同じ出力値を表現することが困難な点に恒等写像が難しい理由があったということですか。たしかに言われてみれば当たり前ですね。
Heさんすごい...
でしょ😎
ほんとすごいですよね🤩
論文で、しかも本論文じゃなくて引用の方でしか知らなかったから、ずっと”レスネット”だと思ってた....。
あ、、、たしかに、、、、、(笑)
レジデュアルの Res なので、レズが正しいと思います、、、たぶん!
Google先生によるとだいたいレズネットと出てきますね
A friend sended me this are you a vtuber who does computer science content :D? I do wish something like this exist in english...
Thank you for your watching and a comment!🎉
Now, this is your turn to start some DS VTuber 😋 I think 😋
原文はチラ見
これがMicrosoft Research北京つーのが悲しいですね
科研費どうなってンスか?
良い研究ですよね!
(何が悲しいかは私にはよくわかりませんが、、)
今回も動画乙。ResNetって、残差学習で勾配消失って、ぼんやり覚えていたけど、スキップコネクションのところでサイズを同じにする必要があるのか・・・。元論文は読んでなかったから、勉強になった
驚くべきことに、原論文には勾配消失のことは一切描いていません😇
その効果も大きいのでしょうが、 degradation 対策として作られたもののようです(^^)