Welchの自由度の求め方-04
前述した,
\(\Large \displaystyle w = a \chi_X^2 \ + b \chi_Y^2 \)
が近似的に,\(\Large \displaystyle G \left( \frac{f}{2},2 g \right) \)に従うとすると,前ページにありますように,w/gは自由度fのカイ二乗分布に従います.
サンプル数nの場合は自由度n-1のカイ二乗分布を使うと,ここ,で示しましたが,今回の計算には,サンプル数という概念がありません(nX, nYというサンプル数があるが,一般的なサンプル数nではない)
ですので,Welchの検定の場合には,新たなファクターfを用いて,“自由度fのt分布に従う”ことになるわけです.
自由度fのt分布は,
\(\Large \displaystyle t = \frac{Z}{ \sqrt{ \frac{U}{f}}} \)
となることは,ここ,で示しました.
Z:標準正規分布
でした.したがって,
\(\Large \displaystyle t = \frac{Z}{ \sqrt{ \frac{w/g}{f}}} = \frac{Z}{ \sqrt{ \frac{a \chi_X^2 \ + b \chi_Y^2}{gf}}} \)
となります.ここで,
\(\Large \displaystyle gf = a(m-1) + b(n-1) \)
\(\Large \displaystyle a = \frac{\frac{ \sigma_X^2}{m(m-1)} }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} \)
\(\Large \displaystyle b = \frac{\frac{ \sigma_Y^2}{n(n-1)}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} \)
なので,
\(\Large \displaystyle gf =\frac{\frac{ \sigma_X^2}{m(m-1)} }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} (m-1) + \frac{\frac{ \sigma_Y^2}{n(n-1)}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} (n-1) \)
となるので,
\(\Large \displaystyle
gf =\frac{1 }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}}
\left[ \frac{ \sigma_X^2}{m} + \frac{ \sigma_Y^2}{n} \right] = 1\)
と簡単になりますので,
\(\Large \displaystyle t = \frac{Z}{ \sqrt{ \frac{w/g}{f}}} = \frac{Z}{ \sqrt{ a \chi_X^2 \ + b \chi_Y^2}} \)
となります.
自由度fは,
\(\Large \displaystyle f = \frac{ \left\{ a (m-1) + b (n-1) \right\}^2 }{ a^2 (m-1) + b^2 (n-1) } \)
ですが,
\(\Large \displaystyle a = \frac{\frac{ \sigma_X^2}{m(m-1)} }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}}, \ b = \frac{\frac{ \sigma_Y^2}{n(n-1)}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}}\)
でしたので,
\(\Large \displaystyle f = \frac{ \left\{ a (m-1) + b (n-1) \right\}^2 }{ a^2 (m-1) + b^2 (n-1) } \)
\(\Large \displaystyle
= \frac{\frac{\frac{ \sigma_X^2}{m(m-1)} }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} (m-1) + \frac{\frac{ \sigma_Y^2}{n(n-1)}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} (n-1)}
{ \left[ \frac{\frac{ \sigma_X^2}{m(m-1)} }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} \right]^2 (m-1) + \left[ \frac{\frac{ \sigma_Y^2}{n(n-1)}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} \right]^2 (n-1) } \)
\(\Large \displaystyle
= \frac{\frac{\frac{ \sigma_X^2}{m} }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}}
+ \frac{\frac{ \sigma_Y^2}{n}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} }
{ \left[ \frac{1 }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} \right]^2
\left[ \left\{ \frac{ \sigma_X^2}{m(m-1)} \right\}^2 (m-1)
+ \left\{ \frac{ \sigma_Y^2}{n(n-1)} \right\}^2 (n-1) \right] } \)
\(\Large \displaystyle
= \frac{\frac{ \sigma_X^2}{m}
+ \frac{ \sigma_Y^2}{n} }
{ \frac{\left( \frac{ \sigma_X^2}{m} \right)^2}{m-1}
+ \frac {\left( \frac{ \sigma_Y^2}{n} \right)^2}{n-1} } \)
となります.ただ,この式には母分散が含まれているため,母分散を母分散の推定量,不偏分散で置き換えます.
書き直すと,
\(\Large \displaystyle
f = \frac{ \displaystyle \frac{s_X^2}{m}
+ \frac{ s_Y^2}{n} }
{ \displaystyle \frac{\left( \frac{ s_X^2}{m} \right)^2}{m-1}
+ \frac {\left( \frac{ s_Y^2}{n} \right)^2}{n-1} } \)
もしくは,
\(\Large \displaystyle
f = \frac{ \displaystyle \frac{s_X^2}{m}
+ \frac{ s_Y^2}{n} }
{ \displaystyle \frac{ s_X^4}{m^2(m-1)}
+ \frac { s_Y^4}{n^ 2(n-1)} } \)
となります....
なぜ,
この式には母分散が含まれているため,母分散を母分散の推定量,不偏分散で置き換えます.
なのか...私にはわかりません...
さらに,
\(\Large \displaystyle t = \frac{Z}{ \sqrt{ \frac{w/g}{f}}} = \frac{Z}{ \sqrt{ a \chi_X^2 \ + b \chi_Y^2}} \)
において,
\(\Large \displaystyle a = \frac{\frac{ \sigma_X^2}{m(m-1)} }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}}, \ b = \frac{\frac{ \sigma_Y^2}{n(n-1)}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}}\)
と母分散が入っているのに,実際のWelchの検定においては,
\(\Large \displaystyle t_0 = \frac{ (\overline{x}_1 - \overline{x}_2) -( \mu_1 - \mu_2)} {\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \)
となっている.確かに,ここ,を見ると,
\( \displaystyle P_{X-Y} (z) = \frac{1}{ \displaystyle \sqrt{2 \pi(\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y})}}
exp \left[ \displaystyle - \frac{ \{ z-(\mu_X \color{red}{-} \mu_Y) \}^2}{2(\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y})} \right]
\)
とありますが,ここでもさりげなく母分散が不偏分散に変わっている...
ここら辺の厳密性については,私にはわかりません.
一般的なt検定においては,母分散を消去するために苦労してきたのに,Welchにおいてはさらりと近似している....
(私の理解不足であり,実際にはきちんとした厳密な計算の結果なのかもしれません....)
よくネットでは,t検定より,Welchの検定を勧める,とありますが,確かに母分散が等しいかどうかわからない状況では,Welchの検定の方が妥当なのかもしれませんが,(私の今までの理解では),Welchの計算も結構近似使っているなあ..という印象です...
では,次ページに,Welchの論文ではどのような記述があるかを確認していきます.