カイ二乗分布【中学の数学からはじめる統計検定2級講座第13回】
HTML-код
- Опубликовано: 11 окт 2024
- #統計検定 #カイ二乗検定 #適合度検定
統計検定2級受験対策動画ですが,
QC検定2級受験予定の人や統計学の授業を理解したい大学生もどうぞ!
カイ2乗分布ってとっつきにくいですね。
「カイ2乗」という名前の説明からはじめて,確率の求め方,グラフの特徴を説明した後,
その応用として母分散の推定,適合度検定をわかりやすく解説しています。
▶︎blog
toketarou.com/...
この動画や対応するブログ記事についての質問は,コメント欄にお書きいただければお返事いたします。(意味の通らないものや不適切なものは除く)
▶︎twitter
/ tak_math
▶︎音楽
tobu.io/Seven/...
▶︎作者プロフ
書籍・模擬試験の執筆・編集者として独立後,現在は専業RUclipsr。京都大学卒。
非常に為になりました2級絶対取りたいので力を貸して下さい
とても参考に勉強させていただいています。
Target問題での棄却域の設定にて質問です。 19:23
「観測度数と理論度数が近いと、小さい値」になるところまでは理解できるのですが、なぜ右片側検定になるのでしょうか?
また、右片側検定を取らない場合も出てくるのか解説いただけないでしょうか。よろしくお願いいたします。
カイ2乗統計量の値が小さい(0に近い)ときには
理論度数からのズレが小さい,
カイ2乗統計量の値が大きいときには
理論度数からのズレが大きいということなので,
理論度数からのズレが大きいという対立仮説が正しいならば,
カイ2乗統計量の値は大きくなり,
カイ2乗分布の右裾付近の値をとるので,
必ず右片側検定になります。
つまり,右に行けば行くほどズレが大きいのです。
とけたろう先生
いつも有意義な解説動画ありがとうございます。
動画やブログでいつも勉強させてもらっています。
さて,本講座のχ2乗分布(自由度n-1)について質問させてください。
標本平均Xバーを用いた時の確率変数(Σ{Xk-Xバー/σ}^2)が自由度n-1となる説明が理解できませんでした。
動画内(9:50)あたりの説明内容を文字起こしすると以下のようになるかと思います。
「X1~Xnのn個の確率変数のうち,n-1個が分かれば,Xバー=(X1+X2+...+Xn)/nの式からもう1つの確率変数の値は決まってしまう。」
ここの内容がよく分かりませんでした。
質問①:“もう1つの確率変数”とはどれを指しているのでしょうか?
質問②:n-1個が分かれば,Xバーの式から“もう1つの確率変数”の値が求まる式展開はどうなる?
以上となります。ご解説いただけないでしょうか。よろしくお願いいたします。
n個の確率変数のうち,n−1個の値が決まるとき,値が決まっていない1個の確率変数が残りますよね。それが「もう1つの確率変数」です。Σ{(Xk-μ)/σ}^2では,X1〜Xnは自由に値をとれます(自由度n)が,Σ{(Xk-Xバー)/σ}^2では,Xバー=(X1+…+Xn)/nの式で縛られているので,X1〜Xnは自由に値をとれません。実際に,Σ{(Xk-Xバー)/σ}^2は,変数変換を利用すると,独立なn-1個の確率変数の2乗の和に書き直すことができます。具体的な証明はここには書きませんが,どうしても知りたい場合には,例えば「ガイダンス確率統計(石谷)」のP137〜139などをご覧ください。
このあたりをまともに扱うのは統計検定1級レベルに相当するので,少し難易度が高いです。2級を学習している段階では,「Xバー=(X1+…+Xn)/nの式によって自由に値を取れる変数が1つ減って,自由度がnー1になる」くらいのフワッとした理解で先に進んでしまうのが得策です。
@@toketarou
早々のご返信ありがとうございます。
腹落ちした訳ではありませんが、先生のおっしゃる通り、現時点ではざっくりした理解で先に進みたいと思います。
講座ありがとうございます。
質問なのですが過去問題解いてると
独立性の検定と適合度検定は解き方が同じなことがあるのですが、違いはなんのかを知りたいのですがお教えいただけると幸いです。
講座ありがとうございます
質問なんですが
カイ二乗分布を使う母分散、適合度、独立性、それぞれの検定の時
母分散のみ両側検定を使う場合があるのに対して
適合度と独立性の時は片側を使うのはなぜですか?
適合度の棄却域の説明が自分にとっては若干曖昧なのですが
個人的には
適合度の時は検定量の分子が平方和を取るから
独立性の時はクロス集計表なので「比率の大きさ」が測れないからと解釈してます。独立性の方はひょっとしたらZ検定も使えて両側検定で出来るかもしてませんが
母分散の検定では
標本のバラツキの母分散に対する比率がカイ2乗分布に従い
これが大きすぎたり,小さすぎたりすれば
母分散が仮定された値と異なると判断するため
両側検定を使うことが多いです。
一方で,適合度検定や独立性の検定は
観測されたデータが特定の理論分布にしたがっていないことを
示すのが目的です。
観測データの理論分布からのズレを表す量がカイ2乗分布に従い
これが大きいとき,データが理論分布に適合していないと判断します。
つまり,帰無仮説が棄却されるときには
ズレが大きい→統計量の値が大きい→片側検定となり
統計量の値が小さいことは帰無仮説が棄却につながりません。
@@toketarou
回答ありがとうございます。
1:37カイ2乗分布
7:26問題 7:54回答
8:56母分散の推定
11:16問題 11:53回答
14:09母分散の検定(ブログ)
14:44適合度検定
17:11ターゲット問題 17:50回答
13:05の部分で下側2.5%点と上側2.5%点の間をとる両側検定をしている理由を教えてください。
適合度検定について教えていただければと思います。普通、研究者は自分の仮説を証明しようとして、つまり、「実験仮説に適合すること」を証明しようと思って実験するんだと思うんですが、なのになぜ、それが対立仮説ではなくて、帰無仮説になるのでしょうか?なんとなく逆なのでは?と思ってしまうので、どのように理解すればそのことをすっきり理解できるか、教えていただけると幸いです。
自分が正しいと考える仮説の正しさを証明する前段階として,
一般に正しいと信じられている仮説が間違っていることを示すことが考えられます。
適合度検定にできるのは後者のみです。
なるほど!ありがとうございます。
@@toketarou
自分用メモ
母分散の推定 8:55
前に習得したT分布は母平均推定に、今回のカイ二乗分布は母分散推定に用いられると覚えれば良いでしょうか。この認識に間違いがありましたらご指摘ください。
その理解で正しいです
(推定に使うということは検定にも使いますね)
ロープの破断荷重の問題に対する解答のところで、不偏分散を求めるところがあるかと思いますが、そこで不偏分散を求めるときは標本の数から1をひいた5で普通割るが今回は5で割る前の2乗で十分と解説されていますが、5で割るのと割らないのとではなにが違ってくるのでしょうか?判断の基準はどこにあるのでしょうか?5で割るのとわらないとでは、回答がかわってきますでしょうか。よろしくおねがいします。
5でわってもかまいません。
5でわれば不偏分散が求められます。
ただ,その後で必要になるのが不偏分散を5倍した値なので,
5でわった後に5倍して元に戻すことになります。
だから,5でわらずに不偏分散自体は求めなかったのです。
ご自身で計算してみると,より理解しやすいと思われます。
@@toketarouご丁寧な回答いただきありがとうございます。基本的な質問で失礼いたしました。
適合度の検定で初めに出たさいころの例題を自由度5のΧ二乗分布を用いて解きました。
出てきた検定量が167.86と大きな値になり、有意水準0.1%すらゆうに超えてしまいました。
数値通りなら帰無仮説を棄却となりますが、そもそも計算、考え方は合っているでしょうか。
理論度数がすべて100ですよね。
検定量はそこまで大きい値にはならないと思います。
どういう式で計算されたのか,お示しいただければ,
改善点をお伝えできるのですが。
この動画を作成する際に利用される入力・表示appあるいはソフトって何でしょうか。
メモを取る時に、入力しようとすると、iPhoneではまず記号の入力方法は知らず。
iPhoneのメモappでは綺麗に表示されることもできないので、手書きでメモを取るしかなくて困っています。
最初の問題p(W>a)=0.95では自由度3であるのに対し、次のロープの問題では6-1の自由度5になるのはなぜでしょうか?基本的なことが理解できていなかったらごめんなさい。
ご質問ありがとうございます。
前者は,標準正規分布に従う
3つの「独立な」確率変数の2乗の和なので,
自由度は3です。
後者は不偏分散を使っており,言い換えると
標本平均を使っています。
このときに自由度が1だけ下がります。
このあたりは動画内でも説明しているので,
ご確認いただけますと幸いです。
@@toketarou
しょーもない質問ですみませんでした。
再度動画の内容を確認し理解できました!
ありがとうございます!
いかなる母集団でもそこから無作為に選んだXの合計は正規分布に従うはずですが、X^2であってもそこから選ばれるn個のサンプル和は正規分布に従うのではないですか?
nが十分に大きいときには正規分布に近づきます。
13:08
なぜ両側検定をしているのかがよくわかりませんでした。
片側検定と両側検定の切り分けを教えてください。
この部分では検定はしていません。
信頼区間を求めています。
ありがとうございます。
信頼区間を求めているのはわかりました。
しかし、なぜ、上側と下側両方を考えるのでしょうか?例えば、上側95%だけ考えたら良いのでは?
11:21
演習1において、自由度2、をどこから特定できるのか、教えていただけますでしょうか。
標準正規分布に従う独立なn個の確率変数の2乗の和が
自由度nのカイ2乗分布に従います
演習1では標準正規分布に従う独立な2個の確率変数の2乗の和になっているので,自由度は2です
@@toketarou ありがとうございます、XとYの計2つ、ということですね。XとYのそれぞれの自由度を探しにいっておりました。失礼致しました。