L1/L2正則化の意味【機械学習】

予備校のノリで学ぶ「大学の数学・物理」

Просмотров 76 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 15 янв 2025

Комментарии • 87

@丸山裕一-j9u Год назад ⁺³
たくみ先生のように言葉で言ってもらえると、式が何を意味しているのかが分かるので本当にありがたいです。
@ジマーマン11 2 года назад ⁺⁵⁰
オーバーフィッティングを防ぐためにモデルの細かい精度を敢えて悪化させるという手段を思いついた先人の偉大さを感じる
@マリリン-n4y 2 года назад ⁺²⁸
機械学習における数学をもっともっとやって欲しい！
@たかちゃん-y8g 2 года назад ⁺⁸
機械学習で使う数式についての説明は貴重です。正則化の式がグラフで見える化するのはエキサイティングです。お疲れ様でした！
@Vyivyiyviyvyivvyivyiviyy 2 года назад ⁺⁴
機械学習の数学もっとやってくれーーーー！！
頼むーー
たくみくんの授業の安心感ぱない！！
@parastyx 2 года назад ⁺¹¹
L1とL2の使い分けがスパース性にあるとは知りませんでした。この動画に会えて良かった。
@uns6347 2 года назад ⁺⁴
ちょうど最近正則化の勉強してたので助かります
@sm-oo8ly Год назад ⁺²
非常にわかりやすかった！今迄わからなかったところがわかったので良かったです！
ありがとうございました。
@ろきりあ 2 года назад ⁺¹
マジでちょい前まで欲しいやつだった
@もちさくら-e2c 2 года назад ⁺⁴
図解ありがたい！
L1とL2の特徴についてもわかりやすかったです。たくみ先生ありがとうございます！
@もちさくら-e2c 2 года назад
後の自分へのメモ
（疑問）
半径Rは大きくしすぎると、lossの最小点が内側になるようにできるが、その場合は問題ないのか？
→おそらく問題あり。
「L2の円の半径RはW1_min、W2_minの値と比べて、小さくしておく必要はあるのであろう」。そうでない場合、もし、円の内側に最小の点がある場合を考えると、w1,w2と円にフィットさせるため、最小の点よりも右上（つまり、w1,w2ともに最小の点よりも大きな値）に加工することになる。これは、当初の目的「W1やW2の大きさを小さくして、傾きを抑えることで過学習状態を抑制する」に反する気がする。なので、Rには一応の制限はあるはず。ただし、そこまで大きくしてしまうともはや、元のloss関数よりも、正則化項を評価していることになるので、、まぁ当たり前なのかな？"
@もちさくら-e2c 2 года назад
→いや、基本的には、Rが大きい（=λが小さい）と、原点よりではなく、lossの最小点より重みを採用することになるから、元のloss関数のほうが、誤差より比重が大きくなることを意味する。ただし、あまりに大きすぎると↑の議論になるということか。
（疑問）
Rが小さすぎたら問題はないのか？
→逆にRが小さすぎる（＝λが大きすぎる）とw1もw2も原点寄りになってしまうので、ほぼ傾きなしという結果になってしまう（学習が進まないということか？）。なので、あまりに小さすぎる場合も注意が必要。いい感じにλを調整する必要がありそう。
（性質まとめ）多分こんな感じの理解。
〇Rについて
　結論：全体として、ちょうどいい感じの値に調整する必要あり。
　・Rが小さい（λが大きい）場合
　　→重みW_iの大きさは小さくなりがちなので、学習は進みづらくはなる。
　・Rが大きい（λが小さい）場合
　　→w_iはlossの最小点付近のもの（かつ、大きさは原点よりの小さな値）になるが、この場合は、大きすぎるとfitしすぎることになるので注意。
　・Rが大きすぎる（半径の中にlossの最小点がある）場合
　　→重みの更新で大きさが小さなw_iにしたいのに、修正前より大きなw_iになってしまう。これはやりすぎ。
〇L1とL2の性質
　・L1
　　→尖った点が採用される場合が多い。寄与率の低い説明変数の重みはゼロになってしまう（場合が多い）。
　・L2
　　→L1ほどではないが、基本的には寄与率の小さな説明変数の重みは、寄与率が大きなものと比べて、大きさが小さくなる傾向にある。
@zalgo_video 2 года назад ⁺⁸
L1正則化で最も重要な点は、正則化項が凸関数であるという点です。
理想的には、Lpノルム(0≦p＜1)を考えてやったほうが、最適解はスパースな解になりやすいです。(等高線の説明で言うと、アステロイドみたいな形のほうが、より角が接点になりやすいことが分かると思います)
ただし、このようなLpノルムは、非凸関数であり、最適化が難しくなります。なので、数値的に扱いやすい、L1ノルムがよく用いられます。
@HideyukiWatanabe 2 года назад
9:40 ころに凸性が必要なことはコメントしていますね。
@zalgo_video 2 года назад
@@HideyukiWatanabe それは損失関数の凸性の話では？
@zalgo_video 2 года назад
もっと言うと、そこの部分、損失関数の凸性は別に必要ではないと思います。
非凸だったとしても、正則化パラメータに対応するようなRが存在する事は示せるかと
@HideyukiWatanabe 2 года назад
@@zalgo_video いいえ、Rの凸性と理解しましたが?
@zalgo_video 2 года назад
@@HideyukiWatanabe 9:37「誤差関数が凸関数じゃなきゃいけない」とはっきり発言してますね
@sn-xq2wc 2 года назад ⁺¹
機械学習の参考書では天下り的に出てくる正則化項。
以前から良く分からないまま放っておいたのですが、動画を2回見たら何となく分かりました。
図解の威力が凄いな!というのが感想。
@HirotoCB4 2 года назад ⁺¹
前回の最適化問題の授業がここに繋がっていたとは！！
機械学習にも役立つのは感動しました。
@アンティー-n5m 2 года назад ⁺²
大学で少し習いましたが違いがよく分からなかったので、動画ありがたいです！
@jumpjump117 2 года назад ⁺¹
まさに今つまずいていたところです。ありがとうございます！
@おさる-s6u 2 года назад ⁺¹
統計検定で暗記で乗り切ってたところが理解できました🎉
@hayatuyo 2 года назад
接点の位置のwが最適解を与えることがこれまでは理解できなかったのですが、
理解するためには、制約付き最適化問題(KKT条件/ラグランジュ未定乗数法) を理解せねばならないことが分かりました。
制約付き最適化問題自体の理解はまだですが、見通しが立てられました。
ありがとうございます。
@そうそう-h3c 2 года назад ⁺¹
機械学習関連はありがたい！
@cheejpn Год назад
素晴らしい動画でした。JDLAのG検定を学んでいますが、正則化についての理解がとても深まりました。ありがとうございます！！！
@KS-ic7up 2 года назад ⁺⁵
細かいですが、6:30 は正しくはL2ノルムの「2乗」ですかね
@user-ms8tk2n8 2 года назад ⁺¹
最適化関連って図形的な意味合い掴むの難しいよな～
@yukim.7518 2 года назад ⁺¹
正則化の意味がつかめてきました！
@くりーむぱん-n7p 2 года назад
提供先のホームページ見に行ったらヨビノリとのコラボ！とトップに出てきてかっこよきでした
@つるとんたん-l3p 14 дней назад
ヨコサワの動画見すぎて忘れてたけど賢いんよな
@Cz752nd 2 года назад ⁺⁶
エクセルでこんな機能があった記憶がある
@supernoobteam9079 2 года назад ⁺¹
大学の頃が懐かしい
@yuyuiffy5245 2 года назад
助かります！
@mokunosuke1930 2 года назад ⁺¹
機械学習講義、待っていました。理論と実際の差を説明しようとしている人の試みを見てみたいです
@levienkon 9 месяцев назад ⁺¹
まさか大学院に入ってて、レポートを書くためにLASSOを検索したらまたヨビノリが出てきた。。。
@sep125 2 года назад
ちなみにL1正則化は、ヨビのりでも紹介されたブラックホールの撮像手法でも使われています。
@Have_a_C 8 месяцев назад
痒いところに手の届くヨビノリ
@user-hw3ub1vm6p Год назад ⁺¹
過学習の説明の図で項数増えて線がクネクネするのは、そもそも線と点の差が減るためなのだから、過学習前後の点と線の距離に差を付けた方が良いかなと。図だと点と線の距離が過学習前後で殆ど同じになっているかと(すでに過学習)。
@alanrunner6102 2 года назад ⁺¹
たくみさん！
動画に関係無く申し訳ありませんが、以前、このチャンネルの何かの動画で紹介されていた『ジェノサイド』を本日読了しました！
人間の現実をまざまざと見せつけられるシーンも多いですが、それだけに脳味噌に衝撃を受け、のめり込んで読みました。
とても面白かったです。
たくみさんのお蔭でこの小説に出会えました。
ご紹介してくださり、ありがとうございました！📚
@yk06688 2 года назад ⁺²
ヨビノリさん、ここ最近、最適化関連の動画出してるけど、データサイエンス系のイベント(もしくは書籍発売)が控えてるのかな？
@hamadahajime8036 2 года назад
誤差関数に対して更に残差項も評価する意味がやっとわかりましたｍｍ
@たろすけ-x6z 2 года назад
機械学習の再生リストを作ってほしいです！
@瑞紀西川 2 года назад ⁺¹
今日もありがとうございます。🙆🙆‍♂💍🤱🙆‍♀🙆‍♂💍🤱
@あんだーざまうんてん 2 года назад ⁺¹
正則化まってた。
@Vlog-budou 2 месяца назад
L1正則化の方が演算量抑えられる？
@りりいる 2 года назад
こういうチューニング項を弄るの楽しい。
でも、高次の項の方がより重い制約をかけるべきだと思うんだよなあ……どうなんでしょう
@-_-plm2232 2 года назад ⁺¹
ai専攻してるからうれしい
@Huriko3810 2 года назад
うぽつです＿|＼○＿‼
@田中一郎-p6x 2 года назад ⁺¹
w1 と w2 でどちらが重要なパラメータかの説明で、13:45付近からの説明は間違ってませんか？普通、重要なパラメータとは、そのパラメータを少し変えた時に、誤差関数の値が大きく変化するものを言いませんか。なので、等高線が縦に潰れていたら w2 が重要となりと言う理解です。たくみさんの説明だと採用している点をどこに選ぶかで w1, w2 の重要性が入れ替わってしまいます。
もっと気になるのは、ラムダや R をどのように決めるのが適切か？という問題です。そしてそれが、M の最適化にどう繋がるのか？という問題です。「それは経験的なものなので、動画にしにくい」が答えのような気がしますが。
@zalgo_video 2 года назад
後半の疑問、いわゆる「解パス図」を使った説明が感覚的に理解しやすい気がします。結局経験則は経験則ですが、ラムダを大きくすればするほどゼロになる変数が増えていくというのが視覚的にわかりますし。
@田中一郎-p6x 2 года назад
@@zalgo_video 有難うございます。M(最適化するパラメータの数) をどのように決めるべきか考えてみました。私は、「各データが持つ誤差の二乗平均と誤差関数とが同程度になるまで M を少なくする」のが最も自然だと思います。どのパラメータを削るべきかは、この動画で示された方法で決められます。また、λはその作業をするとき、段階に応じて変えていけばいいですね。ただ、上の各データが持つ誤差との比較をするときには、λ=0 を使うと思います。
実際の問題に対してはどのようにされているのか、もしご存知でしたら教えて頂けないでしょうか？
@zalgo_video 2 года назад
@@田中一郎-p6x どの分野に適用するかとかによっても変わると思いますが、例えば機械学習とかだと、検証データで精度が良くなるようなパラメータを単に実験的に探したりしますね(古典的なものだとグリッドサーチ)
@田中一郎-p6x 2 года назад
@@zalgo_video 有難う御座います。私は、測定データのように誤差の評価がされているものを想定していました。機械学習が扱うようなデータでは、誤差の概念がないので、私の考えはピント外れでしたね。
@kcscience929 2 года назад ⁺²
【質問、コメントを見ていてわかる方がいたら教えてほしいです】
今回多項式を例にしていますが、
正則化項の最小化を考える上では、
多項式も値が出る範囲で内積空間を定義して、互いに直交化している関数を用いて、さらにそれぞれを規格化してからでないと、
そもそも正則化の物理的意味や効果が出ないように感じるのですが、いかがなのでしょうか？
ゴリ押しでグラムシュミットとかで直行化するか
ルジャンドル多項式、チェビシェフ多項式等を活用する等
想像するのですが、そういう必要はないでしょうか？
@田中一郎-p6x 2 года назад
ここでは L1/L2正則化の紹介をしているので、どのような関数（群）を使ってフィッティングするかは問題ではないですね。ただ単に、取り掛かりとして多くの人が知っている多項式で書いただけだと思います。
@kcscience929 2 года назад
@@田中一郎-p6x
ありがとうございます。
たしかにL1,L2正則化の紹介の動画なので、見当違いな質問をしていたようにも思います。
すみませんでした。
私がこの分野に疎いせいか規格直交化してないもので、
正則化項を加えるというのが、あまり理解ができて無くてこう言う質問をしてしまいました。
1. 正則化項を加える意味
2. 多項式の場合には高次のグニャグニャした物を取り除くのが意図だと思うのですが、独立してない関数群の係数を小さくする意味があるのか、ないのか？　
この辺が分かる動画ってありましたっけ？
基礎的な質問ですみません。
@zalgo_video 2 года назад
@@kcscience929 パラメータ空間を変換する必要があるような場合には、正則化項として||Dx||みたいに、変換行列を噛ませたノルム考えることもありますね(Generalized Ridge/Lasso)
@kcscience929 2 года назад
@@zalgo_video 確かにこの変換行列に2階微分行列を指定したりしますね。　空間的に広がったピクセルみたいな物を扱うのには非常に有効な印象ですが、そのような認識で良いでしょうか？
@zalgo_video 2 года назад
@@kcscience929 2階微分行列を使うgeneralized lassoは、トレンドフィルタリングと呼ばれて、時系列データのトレンド抽出に使えたりしますね
@dr.merlot1532 2 года назад
ビッグディック数学だ!
@_hasune7587 2 года назад
正則化の話、こんなにわかりやすく説明しているところある？
動画の力っていうのを差し引いても、この方のお話上手ぶりには、びっくりしちゃう。
ただ、出来れば、いつもみたいに、先生独自の言葉とニュアンスで説明いただけると嬉しいです。
正則化の図や説明用語等、道端に落ちているような、見飽きるほど見ているものばかりなので...
もっと想像しやすい、直感的な理解につながる新しい説明をご考案いただけると幸いです。（お忙しいから、難しいか(笑)）
今後もどうぞよろしくお願いいたします。
@ogurahiroto9591 8 месяцев назад
3:30
@pupu6687 2 года назад ⁺¹
L2ノルムのどちらが重要なパラメータかを決めるときに疑問になったのですが、等高線の点を取る場所によってパラメータの重要度って変わりませんか？？
@gunguniru5506 Год назад
w1が小さくなるのがL1ノルムというわけではなくパラメータの重要度を考えられるのがL1ノルムだから場合によってパラメータの重要性が変わることは問題ないのではないでしょうか
@ichyy1 Год назад ⁺¹
それはめっちゃ思いました。私も知りたいです。
@中山秀斉 Год назад
とても良い授業なのに54Kしか再生がないのはあんまり機械学習の需要がないのかなぁ
@そこ曲がったらむつみ荘工事中 2 года назад
予備校のノリで学んでも良くわからんやった、、、
@hamadahajime8036 2 года назад
L1/L2の特徴って、（L2）2乗の方が手計算と相性が良くて、（L1）の方が線形処理しやすいって、ノルムの理解であってますか？（どなたでも教えてくださいｍｍ）
@人生パラドックス 2 года назад
性質として、
L1は、あまり重要でない説明変数の回帰係数が0になる性質がある。
なので「どの変数が重要か」がわかりやすくなります。
L2は、誤差関数を最小化する計算が、L1より簡単ですが、回帰係数を0にすることは、ありません。
@zalgo_video 2 года назад
いえ、両方とも基本的に手計算で扱うものではなく、コンピュータを用いた数値計算が主な用途です。
@ろくばんめろくばんめ-q4y 2 года назад
いまだにX軸Y軸なのねｗ
@まりむ-f4u 2 года назад
一回も噛んでない…
@wax1142 2 года назад
全く関係ないけどAdoの過学習っていう楽曲いいよね
@reito-udon 2 года назад ⁺¹
あ、これqiita見ても本見てもイマイチ理解できなかった奴だ。SVMなんか使わねぇしもうええやって切り捨てたL1L2ノルムの説明ありがたい
@hinata_han 2 года назад
過学習…
Ad○さん…
@sy8146 2 года назад ⁺¹
今日の問題は、興味深い問題でした。
私も、数学系動画を作成してアップしておりますので、この場を借りて、ご紹介させていただきたいと存じます。。　
私の場合、数学に関しては、通常の大学の数学科の1～2年程度の内容のものしか、学部で履修しておりません。大学進学時に、国立大学の理学部数学科に合格したものの、親の理解が得られなかったがために、自分の希望ではない学科に進学せざるをえなかったという、苦い体験をしています。そのため、定年になってから、数学関連の動画をアップロードすることを始めた次第です。
ただ、あとで見返すと、言い間違いが多少含まれていることに気が付きました。(>_
@宮一-e5e 2 года назад
こんな人が居て、日本の世界の新技術とか作り、世の中に貢献するんだろね?
@普段見る用 2 года назад ⁺¹
プロモーションを含みますばっかなのやめてほしい
@penguinium6494 2 года назад ⁺⁴
なんでダメなの？

Следующие

Автовоспроизведение