Welchの自由度の求め方-01

Welchの検定の数学的導出は,Webサイトを調べてもあまり詳しくは述べられておりません.

唯一(たぶん),こちら,のサイトが詳細に述べられておりますが,ところどころ飛躍(私の理解不足だけかと思いますが)があり,完全には理解できませんでした.

そこで,大元のWelchの論文までさかのぼって検証することにしました.

自分なりに...納得はしたのですが,合っているかどうかといわれると....ちょっと不安です.

参考にしたオリジナル論文は,

The Specification of Rules for Rejecting Too Variable a Product, with Particular Reference to an Electric Lamp Problem
B. L. Welch Supplement to the Journal of the Royal Statistical Society, Vol. 3, No. 1 (1936), pp. 29-48 (20 pages)
https://doi.org/10.2307/2983676

The Significance of the Difference Between Two Means when the Population Variances are Unequal
B. L. Welch Biometrika, Vol. 29, No. 3/4 (Feb., 1938), pp. 350-362 (13 pages) https://doi.org/10.2307/2332010

The Generalization of `Student's' Problem when Several Different Population Variances are Involved
B. L. Welch Biometrika, Vol. 34, No. 1/2 (Jan., 1947), pp. 28-35 (8 pages)
https://doi.org/10.2307/2332510

です.1936年までさかのぼるとは思いませんでした...昭和11年...2.26事件があった年です...

 

分散,データ数,ともに異なる場合

母分散について過程をおかない場合は,ここ,に記したように,

\(\Large \displaystyle Z = - \frac{ ( \bar{X} - \bar{Y}) - ( \mu_X - \mu_Y)}{\sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y} }}
\sim N(0,1) \)

が標準化して区間推定すればいいことになります.ここで,検定の手段として,母平均が等しいと仮定した場合には,

\(\Large \displaystyle Z = \frac{ \bar{X} - \bar{Y} }{\sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y} }}
\)

もしくは,

\(\Large \displaystyle \bar{X} - \bar{Y} = Z \sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y}}
\)

となります.

ここで,Xについて考えると,X1, X2, ... Xnが独立で,平均μ,分散σX2の正規分布に従うとき,

\(\Large \displaystyle X = \frac{1}{ \sigma_X^2} \sum_{i=1}^m \left( X_i - \bar{X} \right)^2 = \chi^2 (n-1)
\)

と,Xは自由度n-1のカイ二乗分布に従う,ということなります,したがって,

\(\Large \displaystyle \frac{1}{ \sigma_X^2} \sum_{i=1}^n \left( X_i - \bar{X} \right)^2 = \frac{m - 1}{ \sigma_X^2} \frac{\sum_{i=1}^n \left( X_i - \bar{X} \right)^2}{m-1}
\)

\(\Large \displaystyle = \frac{(m - 1) s_X^2}{ \sigma_X^2}
\)

となりますので,これを,

\(\Large \displaystyle \chi_X^2= \frac{(m - 1) s_X^2}{ \sigma_X^2}
\)

とします,同様に,Yも,

\(\Large \displaystyle \chi_Y^2= \frac{(n - 1) s_Y^2}{ \sigma_Y^2}
\)

とします.これらの関数は,上に記したように,自由度n-1のカイ二乗分布に従います.

参考にしたサイトに準拠するため,Xのデータ数をm,Yのデータ数をnとしています. 

 

ここで新たに,vという統計量を定義します.

\(\Large \displaystyle v = \frac{\bar{X} - \bar{Y}}{ \sqrt{\frac{s_X^2}{m} + \frac{s_Y^2}{n}} }
\)

すると,

\(\Large \displaystyle v = \frac{\bar{X} - \bar{Y}}{ \sqrt{\frac{s_X^2}{m} + \frac{s_Y^2}{n}} }
= \frac{\bar{X} - \bar{Y}}{ \sqrt{\frac{ \chi_X^2 \sigma_X^2}{m(m-1)} + \frac{ \chi_Y^2 \sigma_Y^2}{n(n-1)}} }\)

となり,

\(\Large \displaystyle
= \frac{Z \sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y}} }{ \sqrt{\frac{ \chi_X^2 \sigma_X^2}{m(m-1)} + \frac{ \chi_Y^2 \sigma_Y^2}{n(n-1)}} }\)

\(\Large \displaystyle = \frac{Z }
{ \sqrt{ \displaystyle \frac{\frac{ \chi_X^2 \ \sigma_X^2}{m(m-1)} + \frac{ \chi_Y^2 \ \sigma_Y^2}{n(n-1)}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}}} }\)

\(\Large \displaystyle = \frac{Z }
{ \sqrt{ a \chi_X^2 \ + b \chi_Y^2 } }\)

ここで,

\(\Large \displaystyle a = \frac{\frac{ \chi_X^2 \ \sigma_X^2}{m(m-1)} }{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} \)

\(\Large \displaystyle b = \frac{\frac{ \chi_Y^2 \ \sigma_Y^2}{n(n-1)}}{\frac{\sigma_X^2}{m} + \frac{\sigma_Y^2}{n}} \)

となります.

次ページに続きます.

 

l t r