Welchの自由度の求め方-04


前述した,

\(\Large \displaystyle w = a \chi_X^2 \ + b \chi_Y^2 \)

が近似的に,\(\Large \displaystyle G \left( \frac{f}{2},2 g \right) \)に従うとすると,前ページにありますように,w/gは自由度fのカイ二乗分布に従います.

サンプル数nの場合は自由度n-1のカイ二乗分布を使うと,ここ,で示しましたが,今回の計算には,サンプル数という概念がありません(nX, nYというサンプル数があるが,一般的なサンプル数nではない)

ですので,Welchの検定の場合には,新たなファクターfを用いて,“自由度fのt分布に従う”ことになるわけです.

自由度fのt分布は,

\(\Large \displaystyle t = \frac{Z}{ \sqrt{ \frac{U}{f}}} \)

となることは,ここ,で示しました.

Z:標準正規分布

でした.したがって,

\(\Large \displaystyle t = \frac{Z}{ \sqrt{ \frac{w/g}{f}}} = \frac{Z}{ \sqrt{ \frac{a \chi_X^2 \ + b \chi_Y^2}{gf}}} \)

となります.ここで,

\(\Large \displaystyle gf = a(m-1) + b(n-1) \)

\(\Large \displaystyle a = \frac{\frac{ \sigma_X^2}{m(m-1)} }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} \)

\(\Large \displaystyle b = \frac{\frac{ \sigma_Y^2}{n(n-1)}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} \)

なので,

\(\Large \displaystyle gf =\frac{\frac{ \sigma_X^2}{m(m-1)} }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} (m-1) + \frac{\frac{ \sigma_Y^2}{n(n-1)}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} (n-1) \)

となるので,

\(\Large \displaystyle gf =\frac{1 }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}}
\left[ \frac{ \sigma_X^2}{m} + \frac{ \sigma_Y^2}{n} \right] = 1\)

と簡単になりますので,

\(\Large \displaystyle t = \frac{Z}{ \sqrt{ \frac{w/g}{f}}} = \frac{Z}{ \sqrt{ a \chi_X^2 \ + b \chi_Y^2}} \)

となります.

 

自由度fは,

\(\Large \displaystyle f = \frac{ \left\{ a (m-1) + b (n-1) \right\}^2 }{ a^2 (m-1) + b^2 (n-1) } \)

ですが,

\(\Large \displaystyle a = \frac{\frac{ \sigma_X^2}{m(m-1)} }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}}, \ b = \frac{\frac{ \sigma_Y^2}{n(n-1)}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}}\)

でしたので,

\(\Large \displaystyle f = \frac{ \left\{ a (m-1) + b (n-1) \right\}^2 }{ a^2 (m-1) + b^2 (n-1) } \)

\(\Large \displaystyle = \frac{\frac{\frac{ \sigma_X^2}{m(m-1)} }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} (m-1) + \frac{\frac{ \sigma_Y^2}{n(n-1)}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} (n-1)}
{ \left[ \frac{\frac{ \sigma_X^2}{m(m-1)} }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} \right]^2 (m-1) + \left[ \frac{\frac{ \sigma_Y^2}{n(n-1)}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} \right]^2 (n-1) } \)

\(\Large \displaystyle = \frac{\frac{\frac{ \sigma_X^2}{m} }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}}
+ \frac{\frac{ \sigma_Y^2}{n}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} }
{ \left[ \frac{1 }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} \right]^2
\left[ \left\{ \frac{ \sigma_X^2}{m(m-1)} \right\}^2 (m-1)
+ \left\{ \frac{ \sigma_Y^2}{n(n-1)} \right\}^2 (n-1) \right] } \)

\(\Large \displaystyle = \frac{\frac{ \sigma_X^2}{m}
+ \frac{ \sigma_Y^2}{n} }
{ \frac{\left( \frac{ \sigma_X^2}{m} \right)^2}{m-1}
+ \frac {\left( \frac{ \sigma_Y^2}{n} \right)^2}{n-1} } \)

となります.ただ,この式には母分散が含まれているため,母分散を母分散の推定量,不偏分散で置き換えます.

書き直すと,

\(\Large \displaystyle f = \frac{ \displaystyle \frac{s_X^2}{m}
+ \frac{ s_Y^2}{n} }
{ \displaystyle \frac{\left( \frac{ s_X^2}{m} \right)^2}{m-1}
+ \frac {\left( \frac{ s_Y^2}{n} \right)^2}{n-1} } \)

もしくは,

\(\Large \displaystyle f = \frac{ \displaystyle \frac{s_X^2}{m}
+ \frac{ s_Y^2}{n} }
{ \displaystyle \frac{ s_X^4}{m^2(m-1)}
+ \frac { s_Y^4}{n^ 2(n-1)} } \)

となります....

 

なぜ,

 この式には母分散が含まれているため,母分散を母分散の推定量,不偏分散で置き換えます.

なのか...私にはわかりません...

さらに,

\(\Large \displaystyle t = \frac{Z}{ \sqrt{ \frac{w/g}{f}}} = \frac{Z}{ \sqrt{ a \chi_X^2 \ + b \chi_Y^2}} \)

において,

\(\Large \displaystyle a = \frac{\frac{ \sigma_X^2}{m(m-1)} }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}}, \ b = \frac{\frac{ \sigma_Y^2}{n(n-1)}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}}\)

母分散が入っているのに,実際のWelchの検定においては,

\(\Large \displaystyle t_0 = \frac{ (\overline{x}_1 - \overline{x}_2) -( \mu_1 - \mu_2)} {\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \)

となっている.確かに,ここ,を見ると,

\( \displaystyle P_{X-Y} (z) = \frac{1}{ \displaystyle \sqrt{2 \pi(\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y})}}
exp \left[ \displaystyle - \frac{ \{ z-(\mu_X \color{red}{-} \mu_Y) \}^2}{2(\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y})} \right] \)

とありますが,ここでもさりげなく母分散が不偏分散に変わっている...

ここら辺の厳密性については,私にはわかりません.

一般的なt検定においては,母分散を消去するために苦労してきたのに,Welchにおいてはさらりと近似している....

(私の理解不足であり,実際にはきちんとした厳密な計算の結果なのかもしれません....)

よくネットでは,t検定より,Welchの検定を勧める,とありますが,確かに母分散が等しいかどうかわからない状況では,Welchの検定の方が妥当なのかもしれませんが,(私の今までの理解では),Welchの計算も結構近似使っているなあ..という印象です...

では,次ページに,Welchの論文ではどのような記述があるかを確認していきます.

 

l t r