Welchの自由度の求め方-01
Welchの検定の数学的導出は,Webサイトを調べてもあまり詳しくは述べられておりません.
唯一(たぶん),こちら,のサイトが詳細に述べられておりますが,ところどころ飛躍(私の理解不足だけかと思いますが)があり,完全には理解できませんでした.
そこで,大元のWelchの論文までさかのぼって検証することにしました.
自分なりに...納得はしたのですが,合っているかどうかといわれると....ちょっと不安です.
参考にしたオリジナル論文は,
The Specification of Rules for Rejecting Too Variable a Product, with Particular Reference to an Electric Lamp Problem
B. L. Welch Supplement to the Journal of the Royal Statistical Society, Vol. 3, No. 1 (1936), pp. 29-48 (20 pages)
https://doi.org/10.2307/2983676
The Significance of the Difference Between Two Means when the Population Variances are Unequal
B. L. Welch Biometrika, Vol. 29, No. 3/4 (Feb., 1938), pp. 350-362 (13 pages) https://doi.org/10.2307/2332010
The Generalization of `Student's' Problem when Several Different Population Variances are Involved
B. L. Welch Biometrika, Vol. 34, No. 1/2 (Jan., 1947), pp. 28-35 (8 pages)
https://doi.org/10.2307/2332510
です.1936年までさかのぼるとは思いませんでした...昭和11年...2.26事件があった年です...
分散,データ数,ともに異なる場合
母分散について過程をおかない場合は,ここ,に記したように,
\(\Large \displaystyle Z =
- \frac{ ( \bar{X} - \bar{Y}) - ( \mu_X - \mu_Y)}{\sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y} }}
\sim N(0,1) \)
が標準化して区間推定すればいいことになります.ここで,検定の手段として,母平均が等しいと仮定した場合には,
\(\Large \displaystyle Z =
\frac{ \bar{X} - \bar{Y} }{\sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y} }}
\)
もしくは,
\(\Large \displaystyle \bar{X} - \bar{Y} =
Z \sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y}}
\)
となります.
ここで,Xについて考えると,X1, X2, ... Xnが独立で,平均μ,分散σX2の正規分布に従うとき,
\(\Large \displaystyle X = \frac{1}{ \sigma_X^2} \sum_{i=1}^m \left( X_i - \bar{X} \right)^2 = \chi^2 (n-1)
\)
と,Xは自由度n-1のカイ二乗分布に従う,ということなります,したがって,
\(\Large \displaystyle \frac{1}{ \sigma_X^2} \sum_{i=1}^n \left( X_i - \bar{X} \right)^2 = \frac{m - 1}{ \sigma_X^2} \frac{\sum_{i=1}^n \left( X_i - \bar{X} \right)^2}{m-1}
\)
\(\Large \displaystyle = \frac{(m - 1) s_X^2}{ \sigma_X^2}
\)
となりますので,これを,
\(\Large \displaystyle \chi_X^2= \frac{(m - 1) s_X^2}{ \sigma_X^2}
\)
とします,同様に,Yも,
\(\Large \displaystyle \chi_Y^2= \frac{(n - 1) s_Y^2}{ \sigma_Y^2}
\)
とします.これらの関数は,上に記したように,自由度n-1のカイ二乗分布に従います.
参考にしたサイトに準拠するため,Xのデータ数をm,Yのデータ数をnとしています.
ここで新たに,vという統計量を定義します.
\(\Large \displaystyle v = \frac{\bar{X} - \bar{Y}}{ \sqrt{\frac{s_X^2}{m} + \frac{s_Y^2}{n}} }
\)
すると,
\(\Large \displaystyle v = \frac{\bar{X} - \bar{Y}}{ \sqrt{\frac{s_X^2}{m} + \frac{s_Y^2}{n}} }
= \frac{\bar{X} - \bar{Y}}{ \sqrt{\frac{ \chi_X^2 \sigma_X^2}{m(m-1)} + \frac{ \chi_Y^2 \sigma_Y^2}{n(n-1)}} }\)
となり,
\(\Large \displaystyle
= \frac{Z \sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y}} }{ \sqrt{\frac{ \chi_X^2 \sigma_X^2}{m(m-1)} + \frac{ \chi_Y^2 \sigma_Y^2}{n(n-1)}} }\)
\(\Large \displaystyle
= \frac{Z }
{ \sqrt{ \displaystyle
\frac{\frac{ \chi_X^2 \ \sigma_X^2}{m(m-1)} + \frac{ \chi_Y^2 \ \sigma_Y^2}{n(n-1)}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}}} }\)
\(\Large \displaystyle
= \frac{Z }
{ \sqrt{ a \chi_X^2 \ + b \chi_Y^2 } }\)
ここで,
\(\Large \displaystyle a = \frac{\frac{ \chi_X^2 \ \sigma_X^2}{m(m-1)} }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} \)
\(\Large \displaystyle b = \frac{\frac{ \chi_Y^2 \ \sigma_Y^2}{n(n-1)}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} \)
となります.
次ページに続きます.