L1/L2正則化の意味【機械学習】
HTML-код
- Опубликовано: 7 сен 2022
- 提供:zero to one
大学数学の中でも特に情報処理や人工知能の分野で広く使われているテーマについて解説しています。今回はL1/L2正則化です。
zero to one「<体験型>学習ブログ」にこの動画の内容が体験できる形式でまとめられています。具体的には、解説に出てきたグラフを実際にコードを使って表示させたり、パラメータをいじって結果を変化させてみたりすることができます。体験を通してL1/L2正則化について学びたい方は是非ご覧ください。↓
見て、触って、学べる!
zero to one「<体験型>学習ブログ」
zero2one.jp/learningblog/yobi...
■zero to oneとは?
「社会とともにイキイキと生き続ける力を引き出す」をミッションに、東京大学大学院松尾豊教授、東北大学大学院岡谷貴之教授など有識者を顧問に迎えて、昨今社会に必要とされるAIやデジタル分野の教育コンテンツを中心に提供しています。
zero to oneホームページ:zero2one.jp/
▼制約付き最適化問題(KKT条件/ラグランジュ未定乗数法)
• 制約付き最適化問題(KKT条件/ラグランジュ...
------------------------------------------------------
予備校のノリで学ぶ「大学の数学・物理」のチャンネルでは主に
①大学講座:大学レベルの理系科目
②高校講座:受験レベルの理系科目
の授業動画をアップしており、他にも理系の高校生・大学生に向けた様々な情報提供を行っています
<クラウドファンディング>
このチャンネルは皆さまからのご支援で成り立っています。
応援してくださる方はご協力お願いいたします
camp-fire.jp/projects/view/13...
<公式HP>
▼公式HPトップページ
yobinori.jp
▼動画一覧
yobinori.jp/video.html
▼おすすめの教科書や参考書
yobinori.jp/review.html
▼お仕事・コラボのご依頼
yobinori.jp/contact.html
<メンバーSNS>
▼Twitter
たくみ(講師): / yobinori
やす(編集): / yasu_yobinori
▼Instagram
たくみ(講師): / yobinori
やす(編集): / yobinoriyasu
▼note
たくみ(講師):note.mu/yobinori
やす(編集):note.mu/yasu_yobinori
------------------------------------------------------
【エンディングテーマ】
“物語のある音楽”をコンセプトに活動するボーカル不在の音楽ユニット”noto”(ノート)
RUclipsチャンネル『予備校のノリで学ぶ「大学の数学・物理」』の主題歌として書き下ろした一曲。
noto / 2nd single『Telescope』(feat.みきなつみ)
*****************************************************
noto公式RUclipsチャンネルにてMusic Video フルver.が公開中!
【noto -『Telescope』】
• noto -『Telescope』(feat...
【みきなつみ公式RUclips】
/ @mikinatsu_official
オーバーフィッティングを防ぐためにモデルの細かい精度を敢えて悪化させるという手段を思いついた先人の偉大さを感じる
機械学習で使う数式についての説明は貴重です。正則化の式がグラフで見える化するのはエキサイティングです。お疲れ様でした!
機械学習における数学をもっともっとやって欲しい!
たくみ先生のように言葉で言ってもらえると、式が何を意味しているのかが分かるので本当にありがたいです。
機械学習の数学もっとやってくれーーーー!!
頼むーー
たくみくんの授業の安心感ぱない!!
前回の最適化問題の授業がここに繋がっていたとは!!
機械学習にも役立つのは感動しました。
ちょうど最近正則化の勉強してたので助かります
非常にわかりやすかった!今迄わからなかったところがわかったので良かったです!
ありがとうございました。
大学で少し習いましたが違いがよく分からなかったので、動画ありがたいです!
L1とL2の使い分けがスパース性にあるとは知りませんでした。この動画に会えて良かった。
まさに今つまずいていたところです。ありがとうございます!
素晴らしい動画でした。JDLAのG検定を学んでいますが、正則化についての理解がとても深まりました。ありがとうございます!!!
助かります!
機械学習の参考書では天下り的に出てくる正則化項。
以前から良く分からないまま放っておいたのですが、動画を2回見たら何となく分かりました。
図解の威力が凄いな!というのが感想。
提供先のホームページ見に行ったらヨビノリとのコラボ!とトップに出てきてかっこよきでした
機械学習関連はありがたい!
マジでちょい前まで欲しいやつだった
統計検定で暗記で乗り切ってたところが理解できました🎉
図解ありがたい!
L1とL2の特徴についてもわかりやすかったです。たくみ先生ありがとうございます!
後の自分へのメモ
(疑問)
半径Rは大きくしすぎると、lossの最小点が内側になるようにできるが、その場合は問題ないのか?
→おそらく問題あり。
「L2の円の半径RはW1_min、W2_minの値と比べて、小さくしておく必要はあるのであろう」。そうでない場合、もし、円の内側に最小の点がある場合を考えると、w1,w2と円にフィットさせるため、最小の点よりも右上(つまり、w1,w2ともに最小の点よりも大きな値)に加工することになる。これは、当初の目的「W1やW2の大きさを小さくして、傾きを抑えることで過学習状態を抑制する」に反する気がする。なので、Rには一応の制限はあるはず。ただし、そこまで大きくしてしまうともはや、元のloss関数よりも、正則化項を評価していることになるので、、まぁ当たり前なのかな?"
→いや、基本的には、Rが大きい(=λが小さい)と、原点よりではなく、lossの最小点より重みを採用することになるから、元のloss関数のほうが、誤差より比重が大きくなることを意味する。ただし、あまりに大きすぎると↑の議論になるということか。
(疑問)
Rが小さすぎたら問題はないのか?
→逆にRが小さすぎる(=λが大きすぎる)とw1もw2も原点寄りになってしまうので、ほぼ傾きなしという結果になってしまう(学習が進まないということか?)。なので、あまりに小さすぎる場合も注意が必要。 いい感じにλを調整する必要がありそう。
(性質まとめ)多分こんな感じの理解。
〇Rについて
結論:全体として、ちょうどいい感じの値に調整する必要あり。
・Rが小さい(λが大きい)場合
→重みW_iの大きさは小さくなりがちなので、学習は進みづらくはなる。
・Rが大きい(λが小さい)場合
→w_iはlossの最小点付近のもの(かつ、大きさは原点よりの小さな値)になるが、この場合は、大きすぎるとfitしすぎることになるので注意。
・Rが大きすぎる(半径の中にlossの最小点がある)場合
→重みの更新で大きさが小さなw_iにしたいのに、修正前より大きなw_iになってしまう。これはやりすぎ。
〇L1とL2の性質
・L1
→尖った点が採用される場合が多い。寄与率の低い説明変数の重みはゼロになってしまう(場合が多い)。
・L2
→L1ほどではないが、基本的には寄与率の小さな説明変数の重みは、寄与率が大きなものと比べて、大きさが小さくなる傾向にある。
機械学習講義、待っていました。理論と実際の差を説明しようとしている人の試みを見てみたいです
接点の位置のwが最適解を与えることがこれまでは理解できなかったのですが、
理解するためには、制約付き最適化問題(KKT条件/ラグランジュ未定乗数法) を理解せねばならないことが分かりました。
制約付き最適化問題自体の理解はまだですが、見通しが立てられました。
ありがとうございます。
正則化の意味がつかめてきました!
最適化関連って図形的な意味合い掴むの難しいよな~
エクセルでこんな機能があった記憶がある
大学の頃が懐かしい
機械学習の再生リストを作ってほしいです!
誤差関数に対して更に残差項も評価する意味がやっとわかりましたmm
ちなみにL1正則化は、ヨビのりでも紹介されたブラックホールの撮像手法でも使われています。
痒いところに手の届くヨビノリ
今日もありがとうございます。🙆🙆♂💍🤱🙆♀🙆♂💍🤱
細かいですが、6:30 は正しくはL2ノルムの「2乗」ですかね
たくみさん!
動画に関係無く申し訳ありませんが、以前、このチャンネルの何かの動画で紹介されていた『ジェノサイド』を本日読了しました!
人間の現実をまざまざと見せつけられるシーンも多いですが、それだけに脳味噌に衝撃を受け、のめり込んで読みました。
とても面白かったです。
たくみさんのお蔭でこの小説に出会えました。
ご紹介してくださり、ありがとうございました!📚
ヨビノリさん、ここ最近、最適化関連の動画出してるけど、データサイエンス系のイベント(もしくは書籍発売)が控えてるのかな?
正則化まってた。
L1正則化で最も重要な点は、正則化項が凸関数であるという点です。
理想的には、Lpノルム(0≦p<1)を考えてやったほうが、最適解はスパースな解になりやすいです。(等高線の説明で言うと、アステロイドみたいな形のほうが、より角が接点になりやすいことが分かると思います)
ただし、このようなLpノルムは、非凸関数であり、最適化が難しくなります。なので、数値的に扱いやすい、L1ノルムがよく用いられます。
9:40 ころに凸性が必要なことはコメントしていますね。
@@HideyukiWatanabe それは損失関数の凸性の話では?
もっと言うと、そこの部分、損失関数の凸性は別に必要ではないと思います。
非凸だったとしても、正則化パラメータに対応するようなRが存在する事は示せるかと
@@zalgogame いいえ、Rの凸性と理解しましたが?
@@HideyukiWatanabe 9:37「誤差関数が凸関数じゃなきゃいけない」とはっきり発言してますね
うぽつです_|\○_‼
こういうチューニング項を弄るの楽しい。
でも、高次の項の方がより重い制約をかけるべきだと思うんだよなあ……どうなんでしょう
まさか大学院に入ってて、レポートを書くためにLASSOを検索したらまたヨビノリが出てきた。。。
過学習の説明の図で項数増えて線がクネクネするのは、そもそも線と点の差が減るためなのだから、過学習前後の点と線の距離に差を付けた方が良いかなと。図だと点と線の距離が過学習前後で殆ど同じになっているかと(すでに過学習)。
ビッグディック数学だ!
ai専攻してるからうれしい
【質問、コメントを見ていてわかる方がいたら教えてほしいです】
今回多項式を例にしていますが、
正則化項の最小化を考える上では、
多項式も値が出る範囲で内積空間を定義して、互いに直交化している関数を用いて、さらにそれぞれを規格化してからでないと、
そもそも正則化の物理的意味や効果が出ないように感じるのですが、いかがなのでしょうか?
ゴリ押しでグラムシュミットとかで直行化するか
ルジャンドル多項式、チェビシェフ多項式等を活用する等
想像するのですが、そういう必要はないでしょうか?
ここでは L1/L2正則化の紹介をしているので、どのような関数(群)を使ってフィッティングするかは問題ではないですね。ただ単に、取り掛かりとして多くの人が知っている多項式で書いただけだと思います。
@@user-fi3zl3xn1z
ありがとうございます。
たしかにL1,L2正則化の紹介の動画なので、見当違いな質問をしていたようにも思います。
すみませんでした。
私がこの分野に疎いせいか規格直交化してないもので、
正則化項を加えるというのが、あまり理解ができて無くてこう言う質問をしてしまいました。
1. 正則化項を加える意味
2. 多項式の場合には高次のグニャグニャした物を取り除くのが意図だと思うのですが、独立してない関数群の係数を小さくする意味があるのか、ないのか?
この辺が分かる動画ってありましたっけ?
基礎的な質問ですみません。
@@kcscience929 パラメータ空間を変換する必要があるような場合には、正則化項として||Dx||みたいに、変換行列を噛ませたノルム考えることもありますね(Generalized Ridge/Lasso)
@@zalgogame 確かにこの変換行列に2階微分行列を指定したりしますね。 空間的に広がったピクセルみたいな物を扱うのには非常に有効な印象ですが、そのような認識で良いでしょうか?
@@kcscience929 2階微分行列を使うgeneralized lassoは、トレンドフィルタリングと呼ばれて、時系列データのトレンド抽出に使えたりしますね
L1/L2の特徴って、(L2)2乗の方が手計算と相性が良くて、(L1)の方が線形処理しやすいって、ノルムの理解であってますか?(どなたでも教えてくださいmm)
性質として、
L1は、あまり重要でない説明変数の回帰係数が0になる性質がある。
なので「どの変数が重要か」がわかりやすくなります。
L2は、誤差関数を最小化する計算が、L1より簡単ですが、回帰係数を0にすることは、ありません。
いえ、両方とも基本的に手計算で扱うものではなく、コンピュータを用いた数値計算が主な用途です。
L2ノルムのどちらが重要なパラメータかを決めるときに疑問になったのですが、等高線の点を取る場所によってパラメータの重要度って変わりませんか??
w1が小さくなるのがL1ノルムというわけではなくパラメータの重要度を考えられるのがL1ノルムだから場合によってパラメータの重要性が変わることは問題ないのではないでしょうか
それはめっちゃ思いました。私も知りたいです。
予備校のノリで学んでも良くわからんやった、、、
3:30
とても良い授業なのに54Kしか再生がないのはあんまり機械学習の需要がないのかなぁ
いまだにX軸Y軸なのねw
正則化の話、こんなにわかりやすく説明しているところある?
動画の力っていうのを差し引いても、この方のお話上手ぶりには、びっくりしちゃう。
ただ、出来れば、いつもみたいに、先生独自の言葉とニュアンスで説明いただけると嬉しいです。
正則化の図や説明用語等、道端に落ちているような、見飽きるほど見ているものばかりなので...
もっと想像しやすい、直感的な理解につながる新しい説明をご考案いただけると幸いです。(お忙しいから、難しいか(笑))
今後もどうぞよろしくお願いいたします。
w1 と w2 でどちらが重要なパラメータかの説明で、13:45付近からの説明は間違ってませんか?普通、重要なパラメータとは、そのパラメータを少し変えた時に、誤差関数の値が大きく変化するものを言いませんか。なので、等高線が縦に潰れていたら w2 が重要となりと言う理解です。たくみさんの説明だと採用している点をどこに選ぶかで w1, w2 の重要性が入れ替わってしまいます。
もっと気になるのは、ラムダや R をどのように決めるのが適切か?という問題です。そしてそれが、M の最適化にどう繋がるのか?という問題です。「それは経験的なものなので、動画にしにくい」が答えのような気がしますが。
後半の疑問、いわゆる「解パス図」を使った説明が感覚的に理解しやすい気がします。結局経験則は経験則ですが、ラムダを大きくすればするほどゼロになる変数が増えていくというのが視覚的にわかりますし。
@@zalgogame 有難うございます。M(最適化するパラメータの数) をどのように決めるべきか考えてみました。私は、「各データが持つ誤差の二乗平均と誤差関数とが同程度になるまで M を少なくする」のが最も自然だと思います。どのパラメータを削るべきかは、この動画で示された方法で決められます。また、λはその作業をするとき、段階に応じて変えていけばいいですね。ただ、上の各データが持つ誤差との比較をするときには、λ=0 を使うと思います。
実際の問題に対してはどのようにされているのか、もしご存知でしたら教えて頂けないでしょうか?
@@user-fi3zl3xn1z どの分野に適用するかとかによっても変わると思いますが、例えば機械学習とかだと、検証データで精度が良くなるようなパラメータを単に実験的に探したりしますね(古典的なものだとグリッドサーチ)
@@zalgogame 有難う御座います。私は、測定データのように誤差の評価がされているものを想定していました。機械学習が扱うようなデータでは、誤差の概念がないので、私の考えはピント外れでしたね。
一回も噛んでない…
全く関係ないけどAdoの過学習っていう楽曲いいよね
あ、これqiita見ても本見てもイマイチ理解できなかった奴だ。SVMなんか使わねぇしもうええやって切り捨てたL1L2ノルムの説明ありがたい
今日の問題は、興味深い問題でした。
私も、数学系動画を作成してアップしておりますので、この場を借りて、ご紹介させていただきたいと存じます。。
私の場合、数学に関しては、通常の大学の数学科の1~2年程度の内容のものしか、学部で履修しておりません。大学進学時に、国立大学の理学部数学科に合格したものの、親の理解が得られなかったがために、自分の希望ではない学科に進学せざるをえなかったという、苦い体験をしています。そのため、定年になってから、数学関連の動画をアップロードすることを始めた次第です。
ただ、あとで見返すと、言い間違いが多少含まれていることに気が付きました。(>_
こんな人が居て、日本の世界の新技術とか作り、世の中に貢献するんだろね?
過学習…
Ad○さん…
プロモーションを含みますばっかなのやめてほしい
なんでダメなの?