区間推定を理解する-07

母平均の差の信頼空間定

次からは，ややこしくなります．

　対応のないデータの場合：サンプル数が異なる場合
　母分散が未知で等しい場合：　ｔ分布

を考えていきましょう．

先に述べたように，２つの母集団，

\(\Large \displaystyle N( \mu_1, \sigma_1^2), N(\mu_2, \sigma_2^2)\ \)

差の分布は，ここ，にあるように，

\(\Large \displaystyle N( \mu_1 - \mu_2, \sigma_1^2 + \sigma_2^2) \)

\(\Large \displaystyle \mu_d \equiv \mu_1 - \mu_2 \)

としました（添字を変えました）

ここでは，
　母分散が未知で等しい
　それぞれの結果平均値の確からしさを見るのだから中心極限定理を利用する
ことから，

\(\Large \displaystyle \sigma_1^2 ，\ \sigma_2^2　\rightarrow \ \frac{\sigma^2}{n_1}, \frac{\sigma^2}{n_2} \)

に変換すればいいことになります．したがって，その差分の分布は，

\(\Large \displaystyle P_{1-2} = \frac{1}{\sqrt{2 \pi \sigma^2 \left(\frac{1}{n_1} + \frac{1}{n_2} \right)}}
exp \left[ - \frac{ \left\{ z - ( \mu_1 - \mu_2)\right\}^2}{2 \sigma^2 \left(\frac{1}{n_1} + \frac{1}{n_2} \right)} \right]
\)

と表すことができます（ちゃんとした計算は，ここ，）

さて，ここからが大変です．どうやってσという未知の値を消去してｔ分布に持っていくか．このサイトを全面的に採用させていただきました，ありがとうございます．

上記のように，２つの正規母集団，A，Bの分散はいずれも未知の値のσ²として，期待値をμ₁，μ₂とします．

\(\Large \displaystyle A \sim N( \mu_1, \ \sigma^2) ，\ B \sim N( \mu_2, \ \sigma^2) \)

それぞれ，ｎ₁，ｎ₂個のデータがあります．

Aからサイズn₁の互いに独立な標本

\(\Large \displaystyle X_1 \{x_{1,1}, ..., x_{1,n1} \}\)

Bからサイズn₂の互いに独立な標本

\(\Large \displaystyle X_2 \{x_{2,1}, ..., x_{2,n2 }\} \)

を得たとします．それぞれの期待値と分散は，

\(\Large \displaystyle E \left[\bar{X}_1\right] = E \left[ \frac{1}{n_1} \sum_{i=1}^{n_1} x_{1,i}\right]
= \sum_{i=1}^{n_1} \frac{E \left[x_{1,j} \right]}{n_1}
= \frac{n_1 \mu_1}{n_1} = \mu_1
\)

\(\Large \displaystyle E \left[\bar{X}_2\right] = E \left[ \frac{1}{n_2} \sum_{i=1}^{n_2} x_{2,i}\right]
= \sum_{i=1}^{n_2} \frac{E \left[x_{1,j} \right]}{n_1}
= \frac{n_2 \mu_2}{n_2} = \mu_2
\)

\(\Large \displaystyle V \left[\bar{X}_1\right] = V \left[ \frac{1}{n_1} \sum_{i=1}^{n_1} x_{1,i}\right]
= \frac{V \displaystyle \sum_{i=1}^{n_1} \left[x_{1,j} \right]}{n_1^2}
= \frac{n_1 \sigma^2}{n_1^2} = \frac{ \sigma^2}{n_1}
\)

\(\Large \displaystyle V \left[\bar{X}_2\right] = V \left[ \frac{1}{n_2} \sum_{i=1}^{n_2} x_{2,i}\right]
= \frac{V \displaystyle \sum_{i=1}^{n_2} \left[x_{2,j} \right]}{n_2^2}
= \frac{n_2 \sigma^2}{n_2^2} = \frac{ \sigma^2}{n_2}
\)

X ₁，X ₂，はいずれも正規母集団からの標本の線形結合だから正規分布に従うことになります．

先に述べたように，その差分は，

\(\Large \displaystyle \bar{X}_1 - \bar{X}_2 \sim N \left( \mu_1 - \mu_2, \frac{\sigma^2}{n_1} + \frac{\sigma^2}{n_2} \right)
\)s

これを正規化した変数Zは標準正規分布に従うことになるので，

\(\Large \displaystyle Z = \frac{(\bar{X}_1 - \bar{X}_2) -( \mu_1 - \mu_2)}{\sqrt{ \frac{\sigma^2}{n_1} + \frac{\sigma^2}{n_2} }}
\sim N(0,1) \)

母分散を消去するためにカイ二乗分布を導入します．

\(\Large \displaystyle \chi_1^2 = \frac{1}{ \sigma^2} \displaystyle \sum_{i=1}^{n_1}\left( x_{1,j} - \bar{X}_1\right)^2
\)

\(\Large \displaystyle \chi_2^2 = \frac{1}{ \sigma^2} \displaystyle \sum_{i=1}^{n_1}\left( x_{2,j} - \bar{X}_2\right)^2
\)

とおくと，いずれも自由度n₁-1, n₂-1のカイ二乗分布に従います．カイ二乗の再現性により，

\(\Large \displaystyle \chi_1^2+ \chi_2^2 = \frac{1}{ \sigma^2}
\left\{ \displaystyle \sum_{i=1}^{n_1}\left( x_{1,j} - \bar{X}_1\right)^2
+ \displaystyle \sum_{i=1}^{n_2}\left( x_{2,j} - \bar{X}_2\right)^2 \right\}
\)

は自由度，n1+n2-2のカイ二乗分布に従います．

標本分散は，

\(\Large \displaystyle s_1^2 = \frac{1}{ n_1 -1} \displaystyle \sum_{i=1}^{n_1}\left( x_{1,j} - \bar{X}_1\right)^2
\)

\(\Large \displaystyle s_2^2 = \frac{1}{ n_2 -1} \displaystyle \sum_{i=1}^{n_2}\left( x_{2,j} - \bar{X}_2\right)^2
\)

ですので，

\(\Large \displaystyle s_1^2 = \frac{ \sigma^2}{ n_1 -1} \chi_1^2 \)

\(\Large \displaystyle s_2^2 = \frac{ \sigma^2}{ n_2 -1} \chi_2^2 \)

が成り立つことになります，したがって，

\(\Large \displaystyle　\chi^2 = \frac{ (n_1 -1) s_1^2 + (n_2 - 1) s_2^2}{ \sigma^2} \)

となり，自由度，n₁+n₂-2のカイ二乗分布に従うことになります．入れ替えると，

\(\Large \displaystyle　\sigma^2 = \frac{ (n_1 -1) s_1^2 + (n_2 - 1) s_2^2}{ \chi^2} \)

Zは標準正規分布に従い，

\(\Large \displaystyle Z = \frac{(\bar{X}_1 - \bar{X}_2) -( \mu_1 - \mu_2)}{\sqrt{ \frac{\sigma^2}{n_1} + \frac{\sigma^2}{n_2} }}
\sim N(0,1) \)

カイ二乗は自由度，n₁+n₂-2のカイ二乗分布に従うことになります．

\(\Large \displaystyle　\chi^2 = \frac{ (n_1 -1) s_1^2 + (n_2 - 1) s_2^2}{ \sigma^2} \)

ｔ分布の定義により，

\(\Large \displaystyle　t = \frac{Z}{ \sqrt{ \frac{\chi^2}{n_1 + n_2 -2}}}
\sim t(n_1 + n_2 =2) \)

したがって，

\(\Large \displaystyle t = \frac{(\bar{X}_1 - \bar{X}_2) -( \mu_1 - \mu_2)}{\sqrt{ \frac{\sigma^2}{n_1} + \frac{\sigma^2}{n_2} }}
\sqrt{\frac{ \sigma^2(n_1 + n_2 -2)}{ (n_1 -1) s_1^2 + (n_2 - 1) s_2^2}} \)

\(\Large \displaystyle = \frac{(\bar{X}_1 - \bar{X}_2) -( \mu_1 - \mu_2)}
{\sqrt{ \left(\frac{1}{n_1} + \frac{1}{n_2} \right)
\frac{(n_1 -1) s_1^2 + (n_2 - 1) s_2^2}{n_1 + n_2 -2}}} \)

となります．ここで，

\(\Large \displaystyle s_p^2 \equiv \frac{(n_1 -1) s_1^2 + (n_2 - 1) s_2^2}{n_1 + n_2 -2} \)

とおけば，ｔ分布は，

\(\Large \displaystyle t = \frac{(\bar{X}_1 - \bar{X}_2) -( \mu_1 - \mu_2)}
{\sqrt{ \left(\frac{1}{n_1} + \frac{1}{n_2} \right)
s_p^2 }} \)

となります．このs_pをプールされた分散と呼びます．

次に，

　対応のないデータの場合：サンプル数が異なる場合
　母分散が未知で等しいかどうか不明の場合：　ｔ分布でWelch検定

について検討していきましょう．