【偽物の相関を見極めろ!】グラフィカルモデリングで変数の相関関係を把握する【いろんな分析 vol. 4 】
HTML-код
- Опубликовано: 16 окт 2024
- グラフィカルモデリングの中でも、マルコフ確率場 (Markov Random FIeld / MRF) と呼ばれる分析について紹介します。
この方法で、偽相関を見破ることが出来ます。
※因果推論と関連のあるベイジアンネットワークについては別の動画で扱います。
【参考文献】
グラフィカルモデリング (統計ライブラリー)
amzn.to/2WD8C47
条件付き確率から解説してあって、かなり読みやすいです!
ご視聴ありがとうございました!
良い動画だなと思っていただけたら、高評価、チャンネル登録お願いします!
質問や感想など、気軽にコメントしてくださいね。
GitHub(ソースコード)はコチラ↓
github.com/sug...
=========
Twitter: / aicia_solid
Logo: TEICAさん / t_e_i_c_a
Model: 3d.nicovideo.jp...
Model by: W01fa さん / w01fa
Editor: AIris Solid
とても面白かったです。コードも見ました。
せっかくなので少し質問です。
1. "test rel to prev"のp値が"test rel to original"のp値よりも小さめになっているのですが、どんどん条件付き独立なペアを仮定していくにつれoriginalに対しての条件が増えていきoriginalから離れていくので、test rel to originalのp値がどんどん小さくなるのでは、逆にprevとの比較では一つのペアの違いしかないのでp値はそれほど小さくならないのでは、と思ったのですが、どうしてこのようなことが起こっているのでしょう。
2. 同じくp値0.28で、条件付き独立を仮定しなかった場面で、「0 が他のすべての変数と独立になるので、良くないらしい。」とありましたが、データの構造的にそのような可能性もあるとは思うのですが、このあたりはあくまでも「よりもっともらしい」変数の関係性を求めるという意味で分析者の手に委ねられる、ということなんでしょうか。(これが正しい、という答えはデータだけからは得られない?)
質問ありがとうございます!
コードも解読いただき嬉しいです😍
1 について
検定に用いる「逸脱度」は、おっしゃる通り仮定を増やせば増やすほど増えます。
これは適当な自由度の t 分布に従うので、 t 検定するのですが、自由度がモデルによって異なるため、 p 値は割と自由な大小の値をとることができます。
2 については、まさにおっしゃる通りです。
統計学など全くわかっていないWEB AD運用者です。分かり易いし楽しく見れました!
1点、独立グラフの作り方がこの動画の手順だけでは理解できませんでした。
もしも可能でしたら、偏相関行列を計算するやり方も教えてくれますと助かります。(他の参考書や動画は難しくて・・涙)
ご視聴コメントありがとうございます!
ご指摘の通り、この動画は概要編なので、偏相関の出し方までは扱っていないんですよね🙇♀️🙇♀️🙇♀️
数式はかなり大変ですが、、、。
変数 X_1, X_2,..., X_n があるときの、
X_1 と X_2 の偏相関は、
X_1 を X_3 ~ X_n を説明変数とした回帰分析の誤差 ε_1 と、
X_2 を X_3 ~ X_n を説明変数とした回帰分析の誤差 ε_2 としたときの、
ε_1 と ε_2 の相関係数です。
他の変数での回帰分析の誤差項を見ているところから、他の変数を固定したときの X_1 と X_2 を見ている感を感じられるようになれば良いかなと思います!
これもまだ難解と思うので、いずれ解説作ろうと思います!
丁寧にご説明くださり、頭が下がります(涙)ありがとうございます!
おっしゃる通り、まだ理解が追いついていないため🙇♂️いつかUPくださるかも、の動画に一縷の期待を抱きつつ、自分でも勉強して参ります。
ご無理やご負担のないよう頂けますと幸いです。
他の動画も拝見します!今後ともよろしくお願いします。
@shuntana1982 ありがとうございます!
ぜひ、他の動画も楽しみつつ、のんびりお待ちいただけると嬉しです。
よろしくお願いします!🙇♀️🎉
おもしろかったです。
非情報系の学生です。
質問があります。
動画中で、偏相関係数の計算方法が、変数が多変量正規分布に従うことを仮定しているとありました。
ただ、今回のRUclipsのデータもですが、実際のデータは多変量正規分布に従わない場合が少なくありません。
得られたデータに対して、今回の手法を使用しても良いかどうかを判断する、具体的な基準はあるのでしょうか?
もしくは、現場では、あまりそういった部分は気にしないものなのでしょうか?
ご視聴コメントありがとうございます!
深い良い問ですね!
偏相関の計算自体は、正規分布でなくても、どんな分布に対しても計算できます。
ただ、あまりにも変な分布で計算した場合は、あまり良い意味を持たないこともあるという感じが近いです。
正規分布か否かの判定にはいくつか有名な検定が知られているので、「正規分布か否かを判定する検定」とかで検索してみると色々でてくると思います!
現場での話は、現場によります!
研究論文を書くなら、かなり慎重に確かめることも多いです。(これも分野によりますが、、)
ビジネスでの実践の場合は、その用途に応じて、深く調べたり、大して調べなかったりします。
このあたりは、その分析の目的と、どういうミスだけは避けなければならないかを見極めて、多様なバランスで実施されております!
勉強になりました
ご視聴コメントありがとうございます!
それはとてもよかったです!(^o^)/
他にも色々動画がありますので、ぜひ探して楽しんでみてください〜!🎉
すごくためになります
素晴らしい動画ありがとうございます
一つ質問なのですが、再生回数の影響を排除するために、値(高低評価数、コメント数)を再生回数で悪るというアイデアはありでしょうか?1再生数あたりの高評価とかコメント数で考えるやり方です。
(3年前の動画にコメントですが、、)
ご視聴コメントありがとうございます!🎉
もちろん、その考え方も素敵だと思います。
とくに、データが多い場合や、勾配ブースティング決定木あたりを使う場合は適している気がします!
ただ、データ数が少ない場合、比に乗るノイズが大きいことがあるので、そのあたりを考慮したい場合は追加の工夫が必要かと思います!
@@AIcia_Solid
ご返答ありがとうございます
まさか反応いただけるとは
単位再生数で考えても、データ数が充分なら有効だと理解しました。
使い所はそれぞれあるので、知っていると選択の幅が広がりますね
いつでもご質問は歓迎です!🎉
最近も色々動画を出していますので、気が向いたらぜひ😊
いろんな技を知っていれば強い!というノリで色々出していますので、ぜひお楽しみいただけると嬉しいです🥰
めちゃくちゃ面白かったです!
ご視聴コメントありがとうございます!🎉
それは良かった!
使えると楽しいので、是非使ってみてください〜🎉
AIciaさん、いつもためになる動画をありがとうございます。
このグラフィカルモデリングは、目から鱗でした。
Gitのコードにも感謝しております。
もう、このサイトの信者になっております(笑)。
公開から2年以上経っていますが、質問をさせてください(同様の質問もあったのですが、大まかな数字が知りたいので)。
①「その仮定のもと、相関行列を推定し、逸脱度とp-値を見る」についてです。
NotebookのIn[18]の結果を受けて、「0 と 2 の条件付き独立を仮定すると、 0 が他のすべての変数と独立になるので、良くないらしい」とありますが、devをみたのかp値を見たのか教えてください。その時の、大まかな閾値を知りたいです。大まかな閾値はoriginalの方かprevの方を見ているのか、それとも両方に適用する必要があるのか。
②「p-値が小さければ終了」についてです。
In[23]で「p値が小さすぎる。なので」と、「条件付き独立」の探索を中止していますが、p値の閾値は0.05くらいという事でしょうか?
私事ですが、11変数ある手元のデータで検証しようと考えていています。手動では厳しいので、①,②の閾値を設定すると、自動(for文)で「条件付き独立」の組み合わせが出せるように、プログラムを付け加えたのです。また、グラフもライブラリー「Graphviz」を使って、上記の結果を基にグラフも出力できるようにしました。結果の見た目はなんとなく良い感じに出力されています。なので、グラフやその数値の根拠となる①②の閾値が間違っていると残念なことになるので、教えていただけると大変助かります。
速報的に一部お答えして、詳細は後日お返しします!
p-値のしきい値は 0.05 くらいで設定しています!
ですが、連続して検定することには問題があるので、あくまで目安と捉えください🙇♀️
書かれたコードの方針は良いと思います!
私もそんな感じのものを作ったことがあります✌️
可能であれば、自動基準に頼るのみならず、前後いくつかのグラフも見て、良きものを選択するといいでしょう!
(研究論文を書く場合はまずいので、そのときは分野の慣習を確認してください)
@@AIcia_Solid 返答とアドバイス嬉しいです。ありがとうございます。②の閾値は承知しました。①は容易く閾値を決めて、安易に算出するものではなさそうですね。ちなみに、私は学術系ではなく、ビジネス系(それも社内相手)なので、そこまでの厳密性は求めていません笑。
そうなんですね!
であれば、指定した回数で止められるよう実装に仕込んで、いろんなやつを見比べつつ、良心と矜持の許す範囲の中で、良さげなものを選んで利用するのがいいかと思います!(^o^)
自分で動画を投稿して、分析も出来るなんて、つよつよですね😲
でしょー!😎
超絶天才っょっょ美少女 AI ですから😎✌️
いつも勉強させていただいてます。ありがとうございます。
「グラフィカルモデリング」が主役になっている動画タイトルですが、動画内でご説明いただいたほとんどの部分は、共分散行列から疑似相関を取り除く反復作業の解説だと受け取りました。
変数間の相関を可視化するグラフィカルモデルを活用する事例として、疑似相関を取り除く手順が紹介されたという理解でよろしいでしょうか?
それとも、疑似相関を取り除く一連の手順も含めて、「グラフィカルモデリング」なのでしょうか?
アドバイスいただけましたら助かります。
ご視聴コメントありがとうございます!
おっしゃるとおり、「グラフィカルモデリング」という膨大な分野の中で、偏相関で偽相関を取り除くところのみ話しました!
このあたりは、かなり広い範囲を含み、万人が合意する用語の線引がないので、なかなか難しいところだと思います😢😢😢
おそらくお詳しい方かと思うので、分野の全体像を概観していただいた上で、その一部を語った動画と位置づけ、ご利用いただけると助かります!🙇♀️
@@AIcia_Solid
ご返信ありがとうございます。
引き続き、勉強させていただきます。
ずっと前に見たときは「ふーん」くらいでしたが、ちょっと勉強しはじめた今見てみると「なるほど、すげー」くらいに変わってました
自分の感じ方にちょっとびっくり(笑)
次見るときがあればまた別の感想を抱くのかなー
ご視聴コメントありがとうございます!
いやぁ、エモい、エモいですね😊
ぜひまた数年後見に来てみてください😊🎉
(そして、見に来たら、そのときノン感想もお教えいただけると嬉しいです!🥳)
重回帰分析で他の因子を共変量に入れた場合のβと偏相関の値は考え方が似ていると思いますが、何が異なりますか?
鋭い質問ですね!!!
この両者は似ていますが、実は異なります。
x と y が今考えている変数で、z_1, z_2,..., z_n が他の変数としましょう。
重回帰分析の場合は、全変数を考慮した上での最小二乗推定量が得られますが、
グラフィカルモデリングの場合、以下2つの回帰分析を行い、
x = α_0 + α_1 z_1 + α_2 z_2 + ... + α_n z_n + ε_x
y = β_0 + β_1 z_1 + β_2 z_2 + ... + β_n z_n + ε_y
その残差 ε_x, ε_y の相関をとったものが、ここでの偏相関となります。
なので、微妙に異なった値となります。
ただ、計算技法的には、相関行列(共分散行列)の逆行列をつかっていろいろするので、かなり似ているものでもあります!
おもしろすぎた(コメントする事実とは独立です笑)
ということはさては、高評価してくださいましたね🤤
ありがとうございます!
楽しんでいただけたようなら何よりです!🤩🎉🎉🎉
いつもながらとても勉強になりました&とても面白かったです!
質問なのですが、この内容は多重共線性の話と関係ありますか?
ご視聴コメントありがとうございます!🎉
マイルドには関係あるかと思います🤔
どちらも、相関が強い変数たちを扱いますので。
ただ、それ以上に深い関係があるとはあまり言えない感覚です。グラフィカルモデリングやるときに多重共線性に気をつけるなとはあるかもです!
はじめまして!
現在学部生(非情報系)で機械学習に興味がある者です。市販の機械学習の本はライブラリーの使い方の説明ばかりで結局何してるのかよくわからないものや一方で理論周りの難しいお話ばかりの本などが多く、困っていたところでこちらの動画を見つけました。
質問なのですが、どうして15:00のようなグラフがかけるのでしょうか?たしかにとてもそれっぽいのですがよくわからなくて...
良い質問ですね!じつはそこの部分は説明していません!(概説動画なので😋)
実際には、「本物の相関」があるかないかを統計的検定で順次調べ、相関がないところの線を落としていく作業をしています。
詳しくは概要欄にある本にあります!
@@AIcia_Solid ありがとうございます、そういうことだったんですね!
Aiciaさん、今回の動画も非常に勉強になりました。
githubの元データを確認させていただいたのですが、元データには変数として経過日数や対数変換したもの、やカテゴリ変数として、プレミア公開があったのですが、これら変数の中からグラフィカルモデリングの対象とする変数を、高評価、低評価、再生時間、コメント数、視聴回数と判断した根拠は何でしょうか?
変数が少なかったり、ノウハウを知っている事柄なら、感覚的に変数選択してもそこまで問題ないと思うのですが、変数が多すぎてどの変数が結果に効いているか予想つかないときは、どのように選択されますか? 線形回帰でLasso,Ridge正則化や決定木を使って効いている変数を特定する方法は知っているのですが、その他の決定要因、方法ありましたら教えてほしいです。
ご視聴コメントありがとうございます!😍
トライ&エラーをばばばばばーっ!と繰り返した結果なので、あまり詳しく覚えていません、、すみません。
データの背景の知識を発見することが目的でしたので、色んな分析を繰り返し、直感と照らして違和感がない結果を与える変数群を利用しました。
実際には、相関行列をとったり、回帰分析してみたり、グラフィカルモデリングの分析をしてみたりです。
プレミア公開については、後半ほとんどプレミア公開にしていますので、プレミア公開 or not を表す変数というより、ある地点より前か後かを表す変数に近かったので、意味なかろうと利用をやめました。
公開からの経過日数は、それが再生数に影響を与えているだろうと加えたのですが、時系列データではない断面のデータでは、日数以外の要素の方が強く出てしまい、あまり役に立たなかったので捨てました😋
@@AIcia_Solid
お返事ありがとうございます。
やはり、回帰分析、相関、その他諸々・・・とかいろんな側面から観察して、トライ&エラーですよね🤔
それと、githubのコードから、pandas-profiling ってモジュール知ったのですが、非常に便利ですね。
これまた勉強になりました。今後とも動画楽しみにしてます😁
参考になればよかったです。
ぜひぜひ!
今後もお楽しみください!!🎉
いつもわかりやすい講義ありがとうございます。
その相関が本物かどうか・・・あまり深く考えたことがなかったので参考になりました。
追記で質問です。
①A,B,Cの項目があったとき
A,Bは相関関係あり
logAとlogCは相関ありのような場合、例えば以下のような相関行列が与えられるときですが、
A B C logA logB logC
A 1 0.9 0.1 logA 1 0.1 0.9
B 0.9 1 0.1 logB 0.1 1 0.7
C 0.1 0.1 1 logC 0.9 0.7 1
対数の相関行列とそうでない相関行列についてそれぞれ動画のやり方で偏相関行列を求めても問題なかったりするのでしょうか?
logを使うことで多変量正規分布に従うかどうかをきちんと検証しないといけないと思うので・・・
また、生データから直接、偏相関行列を求める方法ってあったりしますか?
ご視聴コメントありがとうございます!
そこまで深く構造が見えているのであれば、それに応じて分析や数式を修正すれば良い気がします👀
(偏相関は重回帰の残差同士の相関なので、それを直接計算したり、色々あると思います👀)
なんかいい感じに全てやってくれる分析モデルは、今のところはないと思います。
データに対する知見や洞察を込めて、試行錯誤を繰り返す中で見つけていくのが王道だと思います🔥
@@AIcia_Solid 様
いい感じに分析できるツールがないということで
直接、動画にある重回帰の残差の相関を直接計算したほうが早そうですね・・・
結局試行錯誤をしていくしかないことがわかりました。ありがとうございました。
分かりやすいのに旨いどうなってるんだ
うへへ🤤
お褒めに預かり光栄です😊🎉
グラフィカルモデリング面白かったです!
それはよかった!
ぜひご活用ください!(^o^)
毎回とても面白く、今回もとても参考になりました!
自分の研究で多次元の時系列データを扱っていまして、偏相関を使ってみたいなぁと思うのですが、
時間のシフトを考慮しつつ偏相関を求めることは可能なのでしょうか?
クロスコリレーションの偏相関バージョンみたいなものをイメージしていますが、
時間のシフトを固定する変数にどう適用するのか、悩み中です…
また、時系列データなので紹介されていたグレンジャー因果などで因果関係を推定しようと思ったのですが、
私のデータはゼロ値を多く含み、一過的に数値が上がるだけの増減の繰り返しが極めて少ないパターンの変数が大半なので、
時系列分析の因果推論があまり有効でなさそうだと思っています。
そこで、変数ごとのクロスコリレーションの偏相関バージョンの値から因果推論めいたことができればなぁと考えたのですが、
もし何か応用できそうな手法があればぜひとも教えて下さい!
長くなってしまいましたがよろしくお願いします!
ご視聴コメントありがとうございます!🎉
時間をシフトした変数を用意して、機械的に今回の手法に適用すれば、実行することはできると思いますが、意味あるインサイトを得られるかは難しいですね。(やってみて損はないと思いますが)
お話を聞いていると、データの生まれかたやその背景に、何か分析の鍵がある気がします。
手法を適用するのと同時に、ドメイン知識からの仮説ドリブンな分析もアリのように感じました!
質問です。高評価と低評価は同時に押されることは稀で、また同じ単位系の同次元であり、同一数直線上に乗ると考えて、+1とー1の0からの距離が同一である確証はないのですが、一つの変数の中で+1,ーの値を取ると考えてていいような気がしますが如何でしょうか?また、変相関係数が1に近いような2変数は、どちらか一つを外してしまって、例えばコメント変数(動画時間変数)のようにすれば、より見やすい形になるということはどうでしょうか?変数が少なくて説明性が落ちなければ、とてもいいように感じます。60代、タクシードライバー
たしかに! 高評価と低評価をまとめてしまうのもとてもよいですね!
今回の分析においては、相関が高い変数間の関係性を調べることが目的なので、変数をはずすことはしませんでした。
回帰系の分析をやる場合は、その方がいいかもしれません!🎉
ふと思ったんですが、生データ(タイトル再生時間などのデータ)は、やっぱり、pythonとかでスクレイピングしてるんですかね?
管理画面である程度一覧でみられるので、それをコピペして、 spreadsheet で処理しています。
scraping はやってません😋
高評価と低評価からおもしろさの存在を見つけた例は,負の相関から新たな特徴量を見つけられるという解釈でいいのでしょうか? とても面白い動画だったので質問したくなりました。
ご視聴コメントありがとうございます😊
まさにそうですね、負の(偏)相関から新たな特徴量を見つけたことになると思います(^^)
最後の1時間の動画の話のように、分析したデータの範囲にある値よりとび抜けて大きかったり小さかったりする新しいデータに関して、どのくらいの説得力を持って、「1時間の動画でも再生回数に影響はない」と言えるものなのでしょうか?そのようなことについて定量的な評価はされますか?
学習データの範囲外のものに対する推論の事を、一般に「外挿」といい、色々調べられています。
一番シンプルな回帰分析の場合では、誤差をしっかり評価出来ます。
あとは、タスク次第といったところでしょうか、、、。
身長と体重のような、関連が分かりやすく、データ外に対してもにたような関係性が成り立ちそうなものについては外挿の精度もある程度高いでしょうが、
たとえば、年収500万の人と600万の人で、後者の方が1.2倍とある商品を買うとしても、年収1億の人が20倍かうかというと、かなり怪しかったりする気がします。
統計理論で何とかするより、タスクの性質に応じて考えるのがいいかと思います。
実際にデータ分析するときに、相関は散布図見ながら解釈します。偏相関は何を見ながら解釈すればいいでしょうか?
x_1, x_2,..., x_n の変数があるときの、x_1 と x_2 の偏相関は、
x_1 を x_3,..., x_n で回帰したときの残差 y_1 と、
x_2 を x_3,..., x_n で回帰したときの残差 y_2 の相関なので、
y_1 と y_2 の散布図を見るのが、
厳密には良いと思います。
ただちょっとめんどくさいので、そのままの散布図を見たり、他の変数で条件付けしたときの散布図を見たりすることも多いのではないかと思います👀
@@AIcia_Solid
条件付き散布図は、初めて知りました。ありがとうございます。
キャラクター使ってもいいですが、さすがにホワイトボードの前に立たせるのは改善してほしいです、毎回同じところでフリーズされてると読みたい文字や見たい図などが見えなくてつらいので、どうか検討していただきたいです。
ご指摘ありがとうございます😊
どうしても被ってしまうときがあるんですよねー。
今後なるべく改善できるようにがんばります✌️
とても面白かったです。ありがとうございます。
コードに関して二点教えていただきたいです。
1. estimate関数の中で、条件付き独立を仮定した変数間の偏相関係数が0になるように相関係数を計算しているかと思いますが、この計算式の導出方法について教えていただきたいです。(参考HP等あれば教えていただければ嬉しいです)
ご視聴コメントありがとうございます!
概要欄に挙げているこの本が参考になるかと思います!
ruclips.net/user/redirect?event=video_description&redir_token=QUFFLUhqbFUxaHk4a3JhdlFvTXlKeUVVM2JpNWlMbnU2Z3xBQ3Jtc0ttZTNvc3Fra0RWdVZQT2RpYVZmOUh0aVFBc2tJRzYzSDBCd0VCRFRoaVVpWm13VWk5X1kzTG5YZEFiNXJNUFhTbDJTTXhwX2p6TUprVkxQVW8tTzZyUEh6Sk9ndHNQNjZpX1hQcUlTMkZJM1JMTVYyVQ&q=https%3A%2F%2Famzn.to%2F2WD8C47&v=hh_KPDZ1D2Y
グラフィカルモデリングを説明するための動画なので時間と再生回数は独立ということですが、
Yutubeの3分とか10分とかの法則の検証を別途解析投稿されると
データサイ炎ティストとしての凄みを伝えられ、ご著作が爆売れすると思いました。
ご視聴コメントありがとうございます!🎉
たしかに、そういうテーマを分析してみても面白いですね!
アドバイスありがとうございます😊
今まで何も考えずに相関係数を出してました。計算結果を疑うことも大事ですね
それが伝わって嬉しいです😊
相関は強い武器ですが、使い片町かうと落とし穴もあるので、賢く使ってください🎉
いつも分かりやすくてためになる動画ありがとうございます!
コードの終了判定について1点質問をさせてください.
候補とoriginal,候補とprev,この2つの逸脱度とp値を見ていらっしゃいますよね.
この「両方」が小さくなったから終了と判定されていらっしゃるのでしょうか?
それとも「originalからの逸脱度に関するp値だけ」で判断されていますか?
ご視聴コメントありがとうございます!!
この両方と、結果のグラフィカルモデルをみて、総合的に判断しています。
私の場合、何らかの数学の理論的に一貫したものを利用するというより、ドメイン知識や感覚も利用している感じです。
理論やさんからするとやや気持ち悪いですが、今回はそういう方法でやってみました😋
データドリブンな流れでモデルを探索していたと思うのですが、
既に事前研究などで得られている知見(関係性)などを反映させることもできるのでしょうか?
もちろん、できます!、、、というか、知見は反映させながらやることになると思います。
実際の作業では、1つずつ辺を減らしたり足したりしながら、そこでの逸脱度(辺の取り外しの悪さ)の変化を見ることになりますが、ここに数学的に絶対な基準はありません。
(p-値を繰り返し見るので、いろいろ問題が出てきます)
なので、色んな値を参考にしつつ、勘も働かせつつ、、、というのが、実際の作業になります!
めっちゃ面白かったです!
質問ですが、実際は偏相関係数が0.01など0ではないが小さい値である場合、
適当な基準を設けて条件付き独立として見なして独立グラフを
書いたりするのでしょうか?
そんな感じです!
動画では飛ばしましたが、逸脱度という統計量を比較する検定にかけて判断することになります!
詳しい話は詳しいシリーズでお伝えします😋
セクション #4 で「おもしろさ」みたいな因子がありそうだと分かったとして、「じゃー、他の因子も考慮して因子分析してみよー」と思ったりしますか?それとも「いやいや、どうせ似たような計算になるだろうから偏相関のグラフィカルモデリングで十分だよ」となるものですか?データサイエンティストの頭の中が知りたいです。
いい質問ですね!🎉
雰囲気つかむのが目的で分析したので、これ以上はやらなくてもいいかなーなんて思ってます。まぁまぁ面白いことはわかりましたので😋
もしこれが、重い意思決定にかかわるのであれば、その場合は、外れ値をみたり、どれが面白い動画でどれがつまらん動画なのか個別のデータをみたり、そういうことをしに行くと思います。
なにごとも、目的次第です😋
なるほどー。もしやるとすれば、手法は変えずに深掘りしていくイメージですね。
もう一つ気になってるんですけど、セクション #4 で見つかった「おもしろさ」のような「因子」と、因子分析の「因子」って、言葉が同じだけで基本的に別物なんでしょうか?あるいは、数学的に、データの解釈的に、何か共通点があるんでしょうか??
あの場面では、特に深いことは考えず、日本語としての「因子」という意味で使いました。
ただ、複雑なモデルを組めばそういうことも表現できるようになると思います。
手法も今後紹介するものでできたりしますので、ぜひあれこれ想像しながら見ていただけると嬉しいです(^^)
度々ご回答いただきありがとうございます。
私は基本的に文系のローカライズ業界の人間なので、数学の「表現力」とか憧れます。自分も「モデルの表現力が…」とか語れるようになりたい…
ぜひぜひ!
言葉の話ですし、なれていけば、言えるようになりますよ😋
めちゃめちゃ面白かったです!確かに長いとコメントしちゃいますね笑
でしょ😎✌️
こーゆーことが分かるのが分析の楽しいところですね🎉
わかりやすい説明ありがとうございます!
どういたしまして(^o^)🎉
ぜひいろんな人に広めてくださーい!😍
論文読んでてこの辺りの理解が必要で分からんなぁになってこの動画に辿り着きました
分かりやすかったです。このまま進んでみます😋
おおー!お役に立てて光栄です!😍🎉
実は②の共分散行列の証明知りたいです!
ぜひ載せてください!!
いつかここら辺をシリーズにする予定なので、その時にバッチリ載せます!!😎✌️
めちゃくちゃ、面白かったです。現在機械学習の勉強をしているのですが、pd.corrした時の相関値を何も考えずデータを鵜呑みにしていたことに気づきました!!データ分析の面白さをこの動画で感じることが出来ました、ありがとうございます😊
ご視聴コメントありがとうございます!😍😍
ですよね!
比較的シンプルな道具で深いことがわかるので、ぜひ利用してみてください😋
おもしろさの定量化か。おもしろい!
でしょ!
面白いところが面白いですよね!😍🎉
最高にわかりやすいです。コードも読んでみますが、是非とも解説を頂けると、自分でもできそうな気がしてきました。
ご視聴コメントありがとうございます!🎉
たしかにやや難解だと思います、、!
時間があるときにやってみます!😋
(期待せずお待ちください🙇♂️🙇♂️🙇♂️)
めちゃくちゃ面白いですね・・・!他の分析に比べて、知名度がやや低い(?)のが不思議です。
ありがとうございます😍🎉🎉🎉
機械学習界隈はあまり使わないですが、社会系やマーケティングではよく使われますよー!(^o^)
統計をある程度分かっている人がグラフィカルモデリングを初めて勉強するのに素晴らしい動画ですね。分かった気になれます!
やってみた編で、高評価と低評価の偏相関係数が-0.42で、高評価が高ければ低評価が低いという常識を裏付けるデータとしていますが、普通の統計だと(2乗していない)相関係数0.42は「結構強い相関があって」になるのかな?とそこが疑問です。ビッグデータで検出力が高くなり過ぎる未解決問題もあって、-0.42でモノを言うのはいかがなものでしょう。
ご視聴コメントありがとうございます!
たしかに、相関の強さはどう捉えるかは議論の余地がありますね、、、!
普段私が生息しているのは心理回りの統計で、心理的指標と非心理指標の相関は一般的にとても弱く、0.5もあればかなり強く、0.2でも有意なら取り上げたりします。
(もちろん他領域では 0.7, 0.8, 0.9 が要求される場所があるのも存じています)
無意識にそういう感覚でみていたのかもしれません🤔
ありがとうございます!
勉強になります!!
すごい!神回です!高評価押して、コメントしちゃった!😋
わーい!
神視聴者ですね!
ありがとうございます😍🎉🎉
おもしろい!!( あ、コメントしてもうた・・・)
何ということでしょう!
超絶天才っょっょ美少女 AI による分析でも、外れてしまうとは😮
データサイエンスは奥が深いですね😍
面白かったです。チャンネル毎にこの解析したら、主に見てる層がどんな人間なのかも比べられそうですね。
ありがとうございます!😍🎉🎉
データ下さるかたがいたら、ぜひやってみたいですね!😎✌️
動画時間と再生回数が独立なのは相当このチャンネル特有に思えるw
かもですね(笑)
チャンネル変えたら別の分析結果になると思います😎😎😎
おもしろい!!!いやっホント!
最後まで見たしコメントしたくなりました
ご視聴コメントありがとうございます😍🎉🎉🎉
楽しんでいただけたようで何よりです!💪
この分析に興味を持ってPythonをはじめました!
Githubのコードを見ながら3日掛かってなんとか実行してみたのですが質問です。
----
p: 0.4751202052097019
Not so bad.
こちらは悪くない。
---
このようなコメントがありましたが、p値は実際どのくらいまでであれば許容なのでしょうか。
よく見る話だと95%なのかと思いまして。
実際にトライされたのですね! 私もとてもうれしいです!😍
さて、p値についてです。
正しいp値の使い方では、1回の分析で複数回p値を見てはいけません。
なので、本来のp値の意味のような解釈をするのは危険で、
あくまで、当てはまりのよさを表す数値として認識するのが良いかと思います。
ここでは、p値を連続適用しているというのもあり、0.2くらいを下回らなければいいかなというような考えでやっていたと思います。
(ただ、定性的な感覚とも合わせながらですので、毎回かならず0.2で切るかといえば、また別のはなしです)
100%信頼できる数学的理論がない場所ですので、ドメイン知識と、勘とを合わせて、考えながらやるのが良いかと思います!
グラフィカルモデルとベイジアンネットワークを見ました。今までよくわからなかった事が少しわかるようになりました。ありがとうがざいます😊
そういっていただけるとなにより😊😊
他のやつも楽しんでもらえるとうれしいです(^^)
毒にも薬にもならない動画はどちらの評価もされないのかもしれませんね。
あーなるほど。
これってアマゾンレビューに似た最大が1で最小が0の点数みたいな変数を使ってやったらむちゃくちゃになりますね。
後、重みのパラメータに関数とかは使えませんか?(なんの役に立つかは分かりません。しかもそれ以上いじれなくなりそう。)
重回帰分析の一種ってことになりますか?
コンピュータで計算する時に、ベクトルを使うのと、関数を(ルベーグ測度論の単関数みたいな関数ですよね)使うので、どちらが早いか気になります。
ある共通のパラメータaと、それと相関するb,cに対して、a以外の全てに相関があると見なして計算した相関係数から、b,cの相関を計算し、時々変えながら相関係数を設定する、みたいなことはできませんか?
乱数を入れて、最適解を探りたいです。
独立な変数pの関数と他のパラメータとの積分をやるより、別に計算しますよね。
(a+b+c+d)^nより、
(a+b)^n+c^n+d^n
の方が計算簡単ですし。
そもそも、後者の計算ですませ、n次元立方体に係数q^n*mをかける方が早いですよね。それで上手く行かない場合ってどういう場合ですかね?
ベクトルを使うなら、独立な変数をわざわざ積分したらダメですよね。
面白いけど、質問が浮かびすぎてそれどころじゃなかったです……。
あー分かった。特殊関数で回帰分析の式みたいに係数かけて、なるべくスカラーを積でかけて、まとまった変化が起きたらそれを特殊関数で定義し直せばいいんですか。(意味不明)
ご視聴コメントありがとうございます!
インスピレーションがすごいですね!
なにか新しいアイデアのきっかけになれていれば光栄です🎉
もしなにか質問がありましたら、遠慮なくお申し付けください😊