F検定-01

t検定にするか,Welchの検定にするか.その違いは,

 二つのデータセットにおいて,それぞれの母分散が等しいかどうか

でした.しかし,そもそも母分散はわからないので,判断の付きようがありません.

そこで,登場したのが,F検定です.

F検定は,

二群のばらつき具合,分散が等しいかどうかの検定

 であり,

等しい場合には,t検定,等しくない場合には,Welchの検定が使うことができる.

ことになります.

今回は,こちら,のサイトを参考にさせていただきました.

 

・分散の比

どうやって抽出したデータから母分散が等しいかどうかは,二群の分散がそれぞれ,

\( \Large \displaystyle \sigma_1^2, \ \sigma_2^2 \)

であるとき,その比を考えればいいことになります,つまり

\( \Large \displaystyle \frac{\sigma_1^2}{ \sigma_2^2} \)

1ならば,等しいことになります,しかし,1.1なら?1.5なら?0.8なら? という問題が付きまといます.ですので,それぞれのデータ数が重要となるわけです.

また,我々は母分散がわからないので,不偏分散を使うしかありません.

\( \Large \displaystyle \frac{s_1^2}{s_2^2} \)

この値からどう推定するか.

そこで,カギとなるのが,ここ,でお示ししたように,

\(\Large \displaystyle U = \frac{(n-1) s^2}{ \sigma^2} = \frac{ \displaystyle \sum_{i=1}^n (x_i - \bar{x})^2}{ \sigma^2} = \chi_{n-1}^2\)

です.不偏分散と母分散との間には,

\(\Large \displaystyle \frac{(n-1) s^2}{ \sigma^2} = \chi_{n-1}^2\)

の関係があります,そこで,二群のデータ,それぞれに,

\(\Large \displaystyle \frac{(n_1-1) s_1^2}{ \sigma_1^2} = \chi_{1, n_1-1}^2\)

\(\Large \displaystyle \frac{(n_2-1) s_2^2}{ \sigma_2^2} = \chi_{2, n_2-1}^2\)

を考えます.前述の比を不偏分散から求めると,

\(\Large \displaystyle s_1^2 = \chi_{1, n_1-1}^2 \frac{ \sigma_1^2}{n_1-1} \)

\(\Large \displaystyle s_2^2 = \chi_{2, n_2-1}^2 \frac{ \sigma_2^2}{n_2-1} \)

となりますので,その比は,

\(\Large \displaystyle \frac{s_1^2}{s_2^2} = \frac{\chi_{1, n_1-1}^2}{ \chi_{2, n_2-1}^2} \frac{ \sigma_1^2}{ \sigma_2^2} \frac{n_2-1}{n_1-1} \)

\(\Large \displaystyle = \frac{\frac{\chi_{1, n_1-1}^2}{n_1-1}}{ \frac{\chi_{2, n_2-1}^2} {n_1-1}}\frac{ \sigma_1^2}{ \sigma_2^2} \)

となります.ここで,もし,

\( \Large \displaystyle \sigma_1^2 = \ \sigma_2^2 \)

だとすると(これが,帰無仮説,ですね,つまり,二群の母分散は等しい),

\(\Large \displaystyle \frac{s_1^2}{s_2^2}= \displaystyle \frac{\frac{\chi_{1, n_1-1}^2}{n_1-1}}{ \frac{\chi_{2, n_2-1}^2} {n_1-1}} \)

の分布となり,左辺が右辺の分布の信頼空間内ならば,帰無仮説が立証され,母分散に差がないことになるのです.

この右辺の分布は,F分布,式で表すと,

\(\Large \displaystyle f_X (x) = \frac{\Gamma \left( \frac{n_1 + n_2 }{2} \right)}{ \Gamma \left( \frac{n_1 }{2} \right) \Gamma \left( \frac{ n_2 }{2} \right)}
\left( \frac{n_1}{n_2} \right) ^{ \frac{n_1}{2}}
\left( \frac{1}{ \frac{n_1}{n_2} x + 1} \right)^{ \frac{n_1 + n_2}{2}}
x^{ \frac{n_1}{2} -1} \)

もしくは,

\(\Large \displaystyle f_X (x) = \frac{\Gamma \left( \frac{n_1 + n_2 }{2} \right)}{ \Gamma \left( \frac{n_1 }{2} \right) \Gamma \left( \frac{ n_2 }{2} \right)}
n_1^{ \frac{n_1}{2}} n_2^{ \frac{n_2}{2}}
\left( \frac{1}{ n_1 x + n_2} \right)^{ \frac{n_1 + n_2}{2}}
x^{ \frac{n_1}{2} -1} \)

もしくは,

\(\Large \displaystyle f_X (x) = \frac{1}{ B \left( \frac{n_1 }{2}, \frac{n_2 }{2}\right)}
\left( \frac{n_1}{n_2} \right) ^{ \frac{n_1}{2}}
\left( \frac{1}{ \frac{n_1}{n_2} x + 1} \right)^{ \frac{n_1 + n_2}{2}}
x^{ \frac{n_1}{2} -1} \)

ここで,ベータ関数

\(\Large \displaystyle B \left( \frac{n_1 }{2}, \frac{n_2 }{2}\right)
= \frac{ \Gamma \left( \frac{n_1 }{2} \right) \Gamma \left( \frac{ n_2 }{2} \right)}{\Gamma \left( \frac{n_1 + n_2 }{2} \right)} \)

を使いました.

この分布の導出方法は,こちら,に

つぎに,実際に分布の形状とシミュレーションを比較していきましょう.

 

tr