次からは,ややこしくなります.
対応のないデータの場合:サンプル数が異なる場合
母分散が未知で等しい場合: t分布
を考えていきましょう.
先に述べたように,2つの母集団,
\(\Large \displaystyle N( \mu_1, \sigma_1^2), N(\mu_2, \sigma_2^2)\ \)
差の分布は,ここ,にあるように,
\(\Large \displaystyle N( \mu_1 - \mu_2, \sigma_1^2 + \sigma_2^2) \)
\(\Large \displaystyle \mu_d \equiv \mu_1 - \mu_2 \)
としました(添字を変えました)
ここでは,
母分散が未知で等しい
それぞれの結果平均値の確からしさを見るのだから中心極限定理を利用する
ことから,
\(\Large \displaystyle \sigma_1^2 ,\ \sigma_2^2 \rightarrow \ \frac{\sigma^2}{n_1}, \frac{\sigma^2}{n_2} \)
に変換すればいいことになります.したがって,その差分の分布は,
\(\Large \displaystyle P_{1-2} = \frac{1}{\sqrt{2 \pi \sigma^2 \left(\frac{1}{n_1} + \frac{1}{n_2} \right)}}
exp \left[ - \frac{ \left\{ z - ( \mu_1 - \mu_2)\right\}^2}{2 \sigma^2 \left(\frac{1}{n_1} + \frac{1}{n_2} \right)} \right]
\)
と表すことができます(ちゃんとした計算は,ここ,)
さて,ここからが大変です.どうやってσという未知の値を消去してt分布に持っていくか.このサイトを全面的に採用させていただきました,ありがとうございます.
上記のように,2つの正規母集団,A,Bの分散はいずれも未知の値のσ2として,期待値をμ1,μ2とします.
\(\Large \displaystyle A \sim N( \mu_1, \ \sigma^2) ,\ B \sim N( \mu_2, \ \sigma^2) \)
それぞれ,n1,n2個のデータがあります.
Aからサイズn1の互いに独立な標本
\(\Large \displaystyle X_1 \{x_{1,1}, ..., x_{1,n1} \}\)
Bからサイズn2の互いに独立な標本
\(\Large \displaystyle X_2 \{x_{2,1}, ..., x_{2,n2 }\} \)
を得たとします.それぞれの期待値と分散は,
\(\Large \displaystyle E \left[\bar{X}_1\right] = E \left[ \frac{1}{n_1} \sum_{i=1}^{n_1} x_{1,i}\right]
= \sum_{i=1}^{n_1} \frac{E \left[x_{1,j} \right]}{n_1}
= \frac{n_1 \mu_1}{n_1} = \mu_1
\)
\(\Large \displaystyle E \left[\bar{X}_2\right] = E \left[ \frac{1}{n_2} \sum_{i=1}^{n_2} x_{2,i}\right]
= \sum_{i=1}^{n_2} \frac{E \left[x_{1,j} \right]}{n_1}
= \frac{n_2 \mu_2}{n_2} = \mu_2
\)
\(\Large \displaystyle V \left[\bar{X}_1\right] = V \left[ \frac{1}{n_1} \sum_{i=1}^{n_1} x_{1,i}\right]
= \frac{V \displaystyle \sum_{i=1}^{n_1} \left[x_{1,j} \right]}{n_1^2}
= \frac{n_1 \sigma^2}{n_1^2} = \frac{ \sigma^2}{n_1}
\)
\(\Large \displaystyle V \left[\bar{X}_2\right] = V \left[ \frac{1}{n_2} \sum_{i=1}^{n_2} x_{2,i}\right]
= \frac{V \displaystyle \sum_{i=1}^{n_2} \left[x_{2,j} \right]}{n_2^2}
= \frac{n_2 \sigma^2}{n_2^2} = \frac{ \sigma^2}{n_2}
\)
X 1,X 2,はいずれも正規母集団からの標本の線形結合だから正規分布に従うことになります.
先に述べたように,その差分は,
\(\Large \displaystyle \bar{X}_1 - \bar{X}_2 \sim N \left( \mu_1 - \mu_2, \frac{\sigma^2}{n_1} + \frac{\sigma^2}{n_2} \right)
\)s
これを正規化した変数Zは標準正規分布に従うことになるので,
\(\Large \displaystyle Z = \frac{(\bar{X}_1 - \bar{X}_2) -( \mu_1 - \mu_2)}{\sqrt{ \frac{\sigma^2}{n_1} + \frac{\sigma^2}{n_2} }}
\sim N(0,1) \)
母分散を消去するためにカイ二乗分布を導入します.
\(\Large \displaystyle \chi_1^2 = \frac{1}{ \sigma^2} \displaystyle \sum_{i=1}^{n_1}\left( x_{1,j} - \bar{X}_1\right)^2
\)
\(\Large \displaystyle \chi_2^2 = \frac{1}{ \sigma^2} \displaystyle \sum_{i=1}^{n_1}\left( x_{2,j} - \bar{X}_2\right)^2
\)
とおくと,いずれも自由度n1-1, n2-1のカイ二乗分布に従います. カイ二乗の再現性により,
\(\Large \displaystyle \chi_1^2+ \chi_2^2 = \frac{1}{ \sigma^2}
\left\{ \displaystyle \sum_{i=1}^{n_1}\left( x_{1,j} - \bar{X}_1\right)^2
+ \displaystyle \sum_{i=1}^{n_2}\left( x_{2,j} - \bar{X}_2\right)^2
\right\}
\)
は自由度,n1+n2-2のカイ二乗分布に従います.
標本分散は,
\(\Large \displaystyle s_1^2 = \frac{1}{ n_1 -1} \displaystyle \sum_{i=1}^{n_1}\left( x_{1,j} - \bar{X}_1\right)^2
\)
\(\Large \displaystyle s_2^2 = \frac{1}{ n_2 -1} \displaystyle \sum_{i=1}^{n_2}\left( x_{2,j} - \bar{X}_2\right)^2
\)
ですので,
\(\Large \displaystyle s_1^2 = \frac{ \sigma^2}{ n_1 -1} \chi_1^2 \)
\(\Large \displaystyle s_2^2 = \frac{ \sigma^2}{ n_2 -1} \chi_2^2 \)
が成り立つことになります,したがって,
\(\Large \displaystyle \chi^2 = \frac{ (n_1 -1) s_1^2 + (n_2 - 1) s_2^2}{ \sigma^2} \)
となり,自由度,n1+n2-2のカイ二乗分布に従うことになります. 入れ替えると,
\(\Large \displaystyle \sigma^2 = \frac{ (n_1 -1) s_1^2 + (n_2 - 1) s_2^2}{ \chi^2} \)
Zは標準正規分布に従い,
\(\Large \displaystyle Z = \frac{(\bar{X}_1 - \bar{X}_2) -( \mu_1 - \mu_2)}{\sqrt{ \frac{\sigma^2}{n_1} + \frac{\sigma^2}{n_2} }}
\sim N(0,1) \)
カイ二乗は自由度,n1+n2-2のカイ二乗分布に従うことになります.
\(\Large \displaystyle \chi^2 = \frac{ (n_1 -1) s_1^2 + (n_2 - 1) s_2^2}{ \sigma^2} \)
t分布の定義により,
\(\Large \displaystyle t = \frac{Z}{ \sqrt{ \frac{\chi^2}{n_1 + n_2 -2}}}
\sim t(n_1 + n_2 =2)
\)
したがって,
\(\Large \displaystyle t = \frac{(\bar{X}_1 - \bar{X}_2) -( \mu_1 - \mu_2)}{\sqrt{ \frac{\sigma^2}{n_1} + \frac{\sigma^2}{n_2} }}
\sqrt{\frac{ \sigma^2(n_1 + n_2 -2)}{ (n_1 -1) s_1^2 + (n_2 - 1) s_2^2}} \)
\(\Large \displaystyle = \frac{(\bar{X}_1 - \bar{X}_2) -( \mu_1 - \mu_2)}
{\sqrt{ \left(\frac{1}{n_1} + \frac{1}{n_2} \right)
\frac{(n_1 -1) s_1^2 + (n_2 - 1) s_2^2}{n_1 + n_2 -2}}} \)
となります.ここで,
\(\Large \displaystyle s_p^2 \equiv \frac{(n_1 -1) s_1^2 + (n_2 - 1) s_2^2}{n_1 + n_2 -2} \)
とおけば,t分布は,
\(\Large \displaystyle t = \frac{(\bar{X}_1 - \bar{X}_2) -( \mu_1 - \mu_2)}
{\sqrt{ \left(\frac{1}{n_1} + \frac{1}{n_2} \right)
s_p^2 }} \)
となります.このspをプールされた分散と呼びます.
次に,
対応のないデータの場合:サンプル数が異なる場合
母分散が未知で等しいかどうか不明の場合: t分布でWelch検定
について検討していきましょう.