F検定-01
t検定にするか,Welchの検定にするか.その違いは,
二つのデータセットにおいて,それぞれの母分散が等しいかどうか
でした.しかし,そもそも母分散はわからないので,判断の付きようがありません.
そこで,登場したのが,F検定です.
F検定は,
二群のばらつき具合,分散が等しいかどうかの検定
であり,
等しい場合には,t検定,等しくない場合には,Welchの検定が使うことができる.
ことになります.
今回は,こちら,のサイトを参考にさせていただきました.
・分散の比
どうやって抽出したデータから母分散が等しいかどうかは,二群の分散がそれぞれ,
\( \Large \displaystyle \sigma_1^2, \ \sigma_2^2 \)
であるとき,その比を考えればいいことになります,つまり
\( \Large \displaystyle \frac{\sigma_1^2}{ \sigma_2^2} \)
が1ならば,等しいことになります,しかし,1.1なら?1.5なら?0.8なら? という問題が付きまといます.ですので,それぞれのデータ数が重要となるわけです.
また,我々は母分散がわからないので,不偏分散を使うしかありません.
\( \Large \displaystyle \frac{s_1^2}{s_2^2} \)
この値からどう推定するか.
そこで,カギとなるのが,ここ,でお示ししたように,
\(\Large \displaystyle U = \frac{(n-1) s^2}{ \sigma^2} = \frac{ \displaystyle \sum_{i=1}^n (x_i - \bar{x})^2}{ \sigma^2} = \chi_{n-1}^2\)
です.不偏分散と母分散との間には,
\(\Large \displaystyle \frac{(n-1) s^2}{ \sigma^2} = \chi_{n-1}^2\)
の関係があります,そこで,二群のデータ,それぞれに,
\(\Large \displaystyle \frac{(n_1-1) s_1^2}{ \sigma_1^2} = \chi_{1, n_1-1}^2\)
\(\Large \displaystyle \frac{(n_2-1) s_2^2}{ \sigma_2^2} = \chi_{2, n_2-1}^2\)
を考えます.前述の比を不偏分散から求めると,
\(\Large \displaystyle s_1^2 = \chi_{1, n_1-1}^2 \frac{ \sigma_1^2}{n_1-1} \)
\(\Large \displaystyle s_2^2 = \chi_{2, n_2-1}^2 \frac{ \sigma_2^2}{n_2-1} \)
となりますので,その比は,
\(\Large \displaystyle \frac{s_1^2}{s_2^2} = \frac{\chi_{1, n_1-1}^2}{ \chi_{2, n_2-1}^2} \frac{ \sigma_1^2}{ \sigma_2^2} \frac{n_2-1}{n_1-1} \)
\(\Large \displaystyle = \frac{\frac{\chi_{1, n_1-1}^2}{n_1-1}}{ \frac{\chi_{2, n_2-1}^2} {n_1-1}}\frac{ \sigma_1^2}{ \sigma_2^2} \)
となります.ここで,もし,
\( \Large \displaystyle \sigma_1^2 = \ \sigma_2^2 \)
だとすると(これが,帰無仮説,ですね,つまり,二群の母分散は等しい),
\(\Large \displaystyle \frac{s_1^2}{s_2^2}= \displaystyle \frac{\frac{\chi_{1, n_1-1}^2}{n_1-1}}{ \frac{\chi_{2, n_2-1}^2} {n_1-1}} \)
の分布となり,左辺が右辺の分布の信頼空間内ならば,帰無仮説が立証され,母分散に差がないことになるのです.
この右辺の分布は,F分布,式で表すと,
\(\Large \displaystyle f_X (x) = \frac{\Gamma \left( \frac{n_1 + n_2 }{2} \right)}{ \Gamma \left( \frac{n_1 }{2} \right) \Gamma \left( \frac{ n_2 }{2} \right)}
\left( \frac{n_1}{n_2} \right) ^{ \frac{n_1}{2}}
\left( \frac{1}{ \frac{n_1}{n_2} x + 1} \right)^{ \frac{n_1 + n_2}{2}}
x^{ \frac{n_1}{2} -1}
\)
もしくは,
\(\Large \displaystyle f_X (x) = \frac{\Gamma \left( \frac{n_1 + n_2 }{2} \right)}{ \Gamma \left( \frac{n_1 }{2} \right) \Gamma \left( \frac{ n_2 }{2} \right)}
n_1^{ \frac{n_1}{2}} n_2^{ \frac{n_2}{2}}
\left( \frac{1}{ n_1 x + n_2} \right)^{ \frac{n_1 + n_2}{2}}
x^{ \frac{n_1}{2} -1}
\)
もしくは,
\(\Large \displaystyle f_X (x) = \frac{1}{ B \left( \frac{n_1 }{2}, \frac{n_2 }{2}\right)}
\left( \frac{n_1}{n_2} \right) ^{ \frac{n_1}{2}}
\left( \frac{1}{ \frac{n_1}{n_2} x + 1} \right)^{ \frac{n_1 + n_2}{2}}
x^{ \frac{n_1}{2} -1}
\)
ここで,ベータ関数,
\(\Large \displaystyle B \left( \frac{n_1 }{2}, \frac{n_2 }{2}\right)
=
\frac{ \Gamma \left( \frac{n_1 }{2} \right) \Gamma \left( \frac{ n_2 }{2} \right)}{\Gamma \left( \frac{n_1 + n_2 }{2} \right)} \)
を使いました.
この分布の導出方法は,こちら,に
つぎに,実際に分布の形状とシミュレーションを比較していきましょう.