【10分で分かる】機械学習に大事な不均衡データの対処法と評価方法を解説!
HTML-код
- Опубликовано: 6 окт 2024
- 機械学習入門に必要な知識と勉強方法はこちら
toukei-lab.com...
実データを扱っていると度々現れるのが不均衡データ!
不均衡データとはデータの比率に偏りがあるもの。
金融取引の不正利用データやメールのCVデータなど、母数が大量にありその中で該当する正例が非常に少ないケースはよくあります。
そんな不均衡データを通常通り分析してしまうと少々不都合があるんです。
この動画では、そんな不均衡データについて3つのパートに分けて解説していきます!
1.不均衡データとは
2.不均衡データの扱い方と対処法
3.不均衡データにおける評価指標
【視聴ガイド】
01:08 不均衡データとは
02:48 不均衡データの扱い方と対処法
03:12 アンダーサンプリング
03:30 オーバーサンプリング
05:00 重み付け
05:40 異常検知問題として扱う
06:12 不均衡データにおける評価指標
07:13 適合率
07:40 再現率
【この動画で覚えて帰って欲しいコト】
・不均衡データとは「データ構造に偏りがあるデータ群」のことを指し、世の中のデータは不均衡データになっているものが多い
・不均衡データを解消するためにはサンプル数を調整したりサンプルに重み付けをしたりする
・不均衡データの評価には適合率や再現率を使うことが多い
サイトの方でもっと踏み込んだ説明やプログラミング実装をおこなっています。URLを記載しておくのでぜひのぞいてみてください!
■スタビジ
スタビジは「データサイエンスをもっと身近なものに!」をモットーにデータサイエンスの面白さを発信しているチャンネルです。
チャンネル登録はこちら↓
/ @aiby8596
■サイト(データサイエンスを発信するメディア)※旧:統計ラボ
toukei-lab.com/
・不均衡データ
toukei-lab.com...
・k近傍法
toukei-lab.com...
・XGBoost
toukei-lab.com...
■関連動画
・機械学習入門
• 【超入門】機械学習をビジネスの例も出しながら...
■「コスパよくデータサイエンスを学べるスクール」スタビジアカデミー
toukei-lab.com...
■Twitterアカウント
ウマたん@スタビジ: / statistics1012
■私が講師のUdemy講座
以下の記事に私が講師を務めるAIやデータサイエンス関連の講座一覧をまとめています!
toukei-lab.com...
この記事内限定で全ての講座が安くなる講師クーポン(最大94%OFF!)を公開していますのでご受講の際はぜひお使いください!
■出版書籍
・俺たちひよっこデータサイエンティストが世界を変える
amzn.to/36XbMFJ
・【入門】Pythonを覚えてエリートリーマンへ!落ちこぼれリーマンの逆転劇:amzn.to/31drMyU
・おばあちゃんがWebマーケティングを勉強して雑貨屋をV字回復!
amzn.to/3vG3tqC
・漫画で分かるデジタルマーケティング ✕ データ分析
amzn.to/44iT84Q
・データサイエンス大全 -シンプルにわかる49の用語と13の実践
amzn.to/3mFzhwG
【視聴ガイド】
01:08 不均衡データとは
02:48 不均衡データの扱い方と対処法
03:12 アンダーサンプリング
03:30 オーバーサンプリング
05:00 重み付け
05:40 異常検知問題として扱う
06:12 不均衡データにおける評価指標
07:13 適合率
07:40 再現率
ありがとうございました!
最近、不均衡データを知ったので大変良い勉強になりました。
あと些末なことですが、本やwebサイトでのインプットがメインだったのでAccuracyやPrecisionの発音聞けて良かったです。
コメントありがとうございます!
不均衡データは、実データでは頻出なのでぜひおさえておいてください!
この動画、サイコー! (^^)/
ありがとうございます!
SMOTEにおけるk近傍は、正例のみを対象とする(つまり正例負例間の内挿はない)のではなかったでしょうか?
ご指摘ありがとうございます。大変申し訳ございません、おっしゃるとおりです。私の理解が甘い状態で動画にしてしまっておりました。こちら修正いたしました。
@@aiby8596 迅速なご回答・ご対応ありがとうございます!いつも楽しみに拝見させていただいてますので、これからも頑張ってください!
@@TT-ig8qe ありがとうございます!また何かあればご指摘いただけると助かります。