F-test

F検定-01

ｔ検定にするか，Welchの検定にするか．その違いは，

　二つのデータセットにおいて，それぞれの母分散が等しいかどうか

でした．しかし，そもそも母分散はわからないので，判断の付きようがありません．

そこで，登場したのが，F検定です．

F検定は，

二群のばらつき具合，分散が等しいかどうかの検定

　であり，

等しい場合には，ｔ検定，等しくない場合には，Welchの検定が使うことができる．

ことになります．

今回は，こちら，のサイトを参考にさせていただきました．

・分散の比

どうやって抽出したデータから母分散が等しいかどうかは，二群の分散がそれぞれ，

\( \Large \displaystyle \sigma_1^2, \ \sigma_2^2 \)

であるとき，その比を考えればいいことになります，つまり

\( \Large \displaystyle \frac{\sigma_1^2}{ \sigma_2^2} \)

が1ならば，等しいことになります，しかし，1.1なら？1.5なら？0.8なら？という問題が付きまといます．ですので，それぞれのデータ数が重要となるわけです．

また，我々は母分散がわからないので，不偏分散を使うしかありません．

\( \Large \displaystyle \frac{s_1^2}{s_2^2} \)

この値からどう推定するか．

そこで，カギとなるのが，ここ，でお示ししたように，

\(\Large \displaystyle U = \frac{(n-1) s^2}{ \sigma^2} = \frac{ \displaystyle \sum_{i=1}^n (x_i - \bar{x})^2}{ \sigma^2} = \chi_{n-1}^2\)

です．不偏分散と母分散との間には，

\(\Large \displaystyle \frac{(n-1) s^2}{ \sigma^2} = \chi_{n-1}^2\)

の関係があります，そこで，二群のデータ，それぞれに，

\(\Large \displaystyle \frac{(n_1-1) s_1^2}{ \sigma_1^2} = \chi_{1, n_1-1}^2\)

\(\Large \displaystyle \frac{(n_2-1) s_2^2}{ \sigma_2^2} = \chi_{2, n_2-1}^2\)

を考えます．前述の比を不偏分散から求めると，

\(\Large \displaystyle s_1^2 = \chi_{1, n_1-1}^2 \frac{ \sigma_1^2}{n_1-1} \)

\(\Large \displaystyle s_2^2 = \chi_{2, n_2-1}^2 \frac{ \sigma_2^2}{n_2-1} \)

となりますので，その比は，

\(\Large \displaystyle \frac{s_1^2}{s_2^2} = \frac{\chi_{1, n_1-1}^2}{ \chi_{2, n_2-1}^2} \frac{ \sigma_1^2}{ \sigma_2^2} \frac{n_2-1}{n_1-1} \)

\(\Large \displaystyle = \frac{\frac{\chi_{1, n_1-1}^2}{n_1-1}}{ \frac{\chi_{2, n_2-1}^2} {n_1-1}}\frac{ \sigma_1^2}{ \sigma_2^2} \)

となります．ここで，もし，

\( \Large \displaystyle \sigma_1^2 = \ \sigma_2^2 \)

だとすると（これが，帰無仮説，ですね，つまり，二群の母分散は等しい），

\(\Large \displaystyle \frac{s_1^2}{s_2^2}= \displaystyle \frac{\frac{\chi_{1, n_1-1}^2}{n_1-1}}{ \frac{\chi_{2, n_2-1}^2} {n_1-1}} \)

の分布となり，左辺が右辺の分布の信頼空間内ならば，帰無仮説が立証され，母分散に差がないことになるのです．

この右辺の分布は，F分布，式で表すと，

\(\Large \displaystyle f_X (x) = \frac{\Gamma \left( \frac{n_1 + n_2 }{2} \right)}{ \Gamma \left( \frac{n_1 }{2} \right) \Gamma \left( \frac{ n_2 }{2} \right)}
\left( \frac{n_1}{n_2} \right) ^{ \frac{n_1}{2}}
\left( \frac{1}{ \frac{n_1}{n_2} x + 1} \right)^{ \frac{n_1 + n_2}{2}}
x^{ \frac{n_1}{2} -1} \)

もしくは，

\(\Large \displaystyle f_X (x) = \frac{\Gamma \left( \frac{n_1 + n_2 }{2} \right)}{ \Gamma \left( \frac{n_1 }{2} \right) \Gamma \left( \frac{ n_2 }{2} \right)}
n_1^{ \frac{n_1}{2}} n_2^{ \frac{n_2}{2}}
\left( \frac{1}{ n_1 x + n_2} \right)^{ \frac{n_1 + n_2}{2}}
x^{ \frac{n_1}{2} -1} \)

もしくは，

\(\Large \displaystyle f_X (x) = \frac{1}{ B \left( \frac{n_1 }{2}, \frac{n_2 }{2}\right)}
\left( \frac{n_1}{n_2} \right) ^{ \frac{n_1}{2}}
\left( \frac{1}{ \frac{n_1}{n_2} x + 1} \right)^{ \frac{n_1 + n_2}{2}}
x^{ \frac{n_1}{2} -1} \)

ここで，ベータ関数，

\(\Large \displaystyle B \left( \frac{n_1 }{2}, \frac{n_2 }{2}\right)
= \frac{ \Gamma \left( \frac{n_1 }{2} \right) \Gamma \left( \frac{ n_2 }{2} \right)}{\Gamma \left( \frac{n_1 + n_2 }{2} \right)} \)

を使いました．

この分布の導出方法は，こちら，に

つぎに，実際に分布の形状とシミュレーションを比較していきましょう．