248 主成分分析(共分散行列と楕円、特異値分解、分散を最大化)
HTML-код
- Опубликовано: 24 янв 2025
- 主成分分析は、多次元データ空間を、主に2次元に射影する方法です。/
多次元空間では、多くのものが非常に異なる振る舞いを示し、データセットが疎になるリスクがあります。/
実際のデータは、訓練インスタンスはすべての次元にまんべんなく散らばっている事は少ないです。/
これは多くの特長量はほぼ一定のことが多いからです。/
そのため、分散が最大にする軸を1つか2つ選べば、データ全体の大部分を説明できることがよくあります。/
こちらは、データを正規化・中心化した後に計算した共分散行列をプロットしたものです。/
共分散行列を視覚化すると、データの方向や広がりを表す楕円体になります。/
ここで、固有ベクトルは楕円体の主軸を表し、主軸に沿った固有値はその方向でのデータの広がりを表します。/
こちらは主成分分析の手順を示したものです。まず右上で中心化、標準化し、/
次に固有値と固有ベクトルを計算して、 座標軸の方向をずらします。/
結果として、主軸と直行する直線上にデータが射影されることになります。/
名目は共分散行列の固有ベクトルと固有値を求めるのですが、/
実際は特異値分解により、結果として固有値と固有ベクトルを求めることが多いです。/
こちらは共分散行列を使ったPCAとSVDの計算方法です。/
一般に、SVDの方で便利なのでよく使われます。/
理由としては、行列が大規模になっても対応できる。/
つまりSVDは、元の行列そのままに適用できます。/
SVDは行列 ?? X を 回転(または直交変換)→ スケール → 回転 の3段階に分解しています。/
SVDは正方行列、非正方行列、さらにはランクが不足している行列にも適用できます。/