Welch

Welchの自由度の求め方-04

前述した，

\(\Large \displaystyle w = a \chi_X^2 \ + b \chi_Y^2 \)

が近似的に，\(\Large \displaystyle G \left( \frac{f}{2},2 g \right) \)に従うとすると，前ページにありますように，w/gは自由度ｆのカイ二乗分布に従います．

サンプル数ｎの場合は自由度n-1のカイ二乗分布を使うと，ここ，で示しましたが，今回の計算には，サンプル数という概念がありません（n_X, n_Yというサンプル数があるが，一般的なサンプル数nではない）

ですので，Welchの検定の場合には，新たなファクターｆを用いて，“自由度ｆのt分布に従う”ことになるわけです．

自由度ｆのｔ分布は，

\(\Large \displaystyle t = \frac{Z}{ \sqrt{ \frac{U}{f}}} \)

となることは，ここ，で示しました．

Z：標準正規分布

でした．したがって，

\(\Large \displaystyle t = \frac{Z}{ \sqrt{ \frac{w/g}{f}}} = \frac{Z}{ \sqrt{ \frac{a \chi_X^2 \ + b \chi_Y^2}{gf}}} \)

となります．ここで，

\(\Large \displaystyle gf = a(m-1) + b(n-1) \)

\(\Large \displaystyle a = \frac{\frac{ \sigma_X^2}{m(m-1)} }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} \)

\(\Large \displaystyle b = \frac{\frac{ \sigma_Y^2}{n(n-1)}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} \)

なので，

\(\Large \displaystyle gf =\frac{\frac{ \sigma_X^2}{m(m-1)} }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} (m-1) + \frac{\frac{ \sigma_Y^2}{n(n-1)}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} (n-1) \)

となるので，

\(\Large \displaystyle gf =\frac{1 }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}}
\left[ \frac{ \sigma_X^2}{m} + \frac{ \sigma_Y^2}{n} \right] = 1\)

と簡単になりますので，

\(\Large \displaystyle t = \frac{Z}{ \sqrt{ \frac{w/g}{f}}} = \frac{Z}{ \sqrt{ a \chi_X^2 \ + b \chi_Y^2}} \)

となります．

自由度ｆは，

\(\Large \displaystyle f = \frac{ \left\{ a (m-1) + b (n-1) \right\}^2 }{ a^2 (m-1) + b^2 (n-1) } \)

ですが，

\(\Large \displaystyle a = \frac{\frac{ \sigma_X^2}{m(m-1)} }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}}, \ b = \frac{\frac{ \sigma_Y^2}{n(n-1)}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}}\)

でしたので，

\(\Large \displaystyle f = \frac{ \left\{ a (m-1) + b (n-1) \right\}^2 }{ a^2 (m-1) + b^2 (n-1) } \)

\(\Large \displaystyle = \frac{\frac{\frac{ \sigma_X^2}{m(m-1)} }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} (m-1) + \frac{\frac{ \sigma_Y^2}{n(n-1)}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} (n-1)}
{ \left[ \frac{\frac{ \sigma_X^2}{m(m-1)} }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} \right]^2 (m-1) + \left[ \frac{\frac{ \sigma_Y^2}{n(n-1)}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} \right]^2 (n-1) } \)

\(\Large \displaystyle = \frac{\frac{\frac{ \sigma_X^2}{m} }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}}
+ \frac{\frac{ \sigma_Y^2}{n}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} }
{ \left[ \frac{1 }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} \right]^2
\left[ \left\{ \frac{ \sigma_X^2}{m(m-1)} \right\}^2 (m-1)
+ \left\{ \frac{ \sigma_Y^2}{n(n-1)} \right\}^2 (n-1) \right] } \)

\(\Large \displaystyle = \frac{\frac{ \sigma_X^2}{m}
+ \frac{ \sigma_Y^2}{n} }
{ \frac{\left( \frac{ \sigma_X^2}{m} \right)^2}{m-1}
+ \frac {\left( \frac{ \sigma_Y^2}{n} \right)^2}{n-1} } \)

となります．ただ，この式には母分散が含まれているため，母分散を母分散の推定量，不偏分散で置き換えます．

書き直すと，

\(\Large \displaystyle f = \frac{ \displaystyle \frac{s_X^2}{m}
+ \frac{ s_Y^2}{n} }
{ \displaystyle \frac{\left( \frac{ s_X^2}{m} \right)^2}{m-1}
+ \frac {\left( \frac{ s_Y^2}{n} \right)^2}{n-1} } \)

もしくは，

\(\Large \displaystyle f = \frac{ \displaystyle \frac{s_X^2}{m}
+ \frac{ s_Y^2}{n} }
{ \displaystyle \frac{ s_X^4}{m^2(m-1)}
+ \frac { s_Y^4}{n^ 2(n-1)} } \)

となります．．．．

なぜ，

　この式には母分散が含まれているため，母分散を母分散の推定量，不偏分散で置き換えます．

なのか．．．私にはわかりません．．．

さらに，

\(\Large \displaystyle t = \frac{Z}{ \sqrt{ \frac{w/g}{f}}} = \frac{Z}{ \sqrt{ a \chi_X^2 \ + b \chi_Y^2}} \)

において，

\(\Large \displaystyle a = \frac{\frac{ \sigma_X^2}{m(m-1)} }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}}, \ b = \frac{\frac{ \sigma_Y^2}{n(n-1)}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}}\)

と母分散が入っているのに，実際のWelchの検定においては，

\(\Large \displaystyle t_0 = \frac{ (\overline{x}_1 - \overline{x}_2) -( \mu_1 - \mu_2)} {\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}　\)

となっている．確かに，ここ，を見ると，

\( \displaystyle P_{X-Y} (z) = \frac{1}{ \displaystyle \sqrt{2 \pi(\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y})}}
exp \left[ \displaystyle - \frac{ \{ z-(\mu_X \color{red}{-} \mu_Y) \}^2}{2(\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y})} \right] \)

とありますが，ここでもさりげなく母分散が不偏分散に変わっている．．．

ここら辺の厳密性については，私にはわかりません．

一般的なｔ検定においては，母分散を消去するために苦労してきたのに，Welchにおいてはさらりと近似している．．．．

（私の理解不足であり，実際にはきちんとした厳密な計算の結果なのかもしれません．．．．）

よくネットでは，ｔ検定より，Welchの検定を勧める，とありますが，確かに母分散が等しいかどうかわからない状況では，Welchの検定の方が妥当なのかもしれませんが，（私の今までの理解では），Welchの計算も結構近似使っているなあ．．という印象です．．．

では，次ページに，Welchの論文ではどのような記述があるかを確認していきます．