私の理解では,検定とは,
二つの集団に有意な差があるか,ないか(あるとは言えないか),
を議論する手法と理解しています.
しかし,そこには必ず,
帰無仮説
対立仮設
という概念があり,いつもこんがらがってしまいます.
EdgeのCopilotによると,
帰無仮説とは何か?
帰無仮説は、差がないことを否定する仮説です。統計的検定では、差があることを証明するのではなく、差がないことを証明する論理を用います。 統計学的検定は、データに基づいて結論に至るための形式的手法であり、帰無仮説と対立仮説は母集団の統計モデルに関する推測です。
対立仮説との関係
対立仮説(Alternative Hypothesis)は、差があることを証明したい仮説です。帰無仮説とは逆の立場を取ります。 統計的検定では、帰無仮説と対立仮説の2つの仮説を比較し、差があるかどうかを判断します。
他のサイトでは,
など,言っていることは同じようですが....こんがらがっちゃいます..
これを,今までに計算してきた区間推定からもう一度見直してみましょう.
・対応がある場合で,
母分散がわかっている場合は,
\(\Large \displaystyle - 1.96 \hspace{20 pt}\leq \hspace{12 pt} \frac{\mu_d - \bar{x}_d}{ \sqrt{\frac{\color{red}{\sigma}^2}{n}}} \hspace{12 pt} \leq \hspace{12 pt} 1.96 \)
母分散がわからない場合には,
\(\Large \displaystyle - t_{\alpha/2} (n-1) \hspace{12 pt}\leq \hspace{12 pt} \frac{\mu_d - \bar{x}_d}{ \sqrt{\frac{\color{red}{s_d}^2}{n}}} \hspace{12 pt} \leq \hspace{12 pt} t_{\alpha/2} (n-1) \)
\(\Large \displaystyle \bar{x}_d = \frac{1}{n}\sum_{i=1}^n (x_{1i} - x_{2i} ) \)
\(\Large \displaystyle \mu_d \equiv \mu_X - \mu_Y \)
・対応のないデータの場合で,
母分散が未知で等しい場合では,
\(\Large \displaystyle - t_{\alpha/2} (n-1) \hspace{12 pt}\leq \hspace{12 pt} \frac{(\bar{X}_1 - \bar{X}_2) -( \mu_1 - \mu_2)}
{\sqrt{ \left(\frac{1}{n_1} + \frac{1}{n_2} \right)
s_p^2 }} \hspace{12 pt} \leq \hspace{12 pt} t_{\alpha/2} (n-1) \)
\(\Large \displaystyle s_p^2 \equiv \frac{(n_1 -1) s_1^2 + (n_2 - 1) s_2^2}{n_1 + n_2 -2} \)
母分散が未知で等しいかどうか不明の場合は,
\(\Large \displaystyle - t_{\alpha/2} (f) \hspace{12 pt}\leq \hspace{12 pt} \frac{ (\overline{x}_1 - \overline{x}_2) -( \mu_1 - \mu_2)} {\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \leq \hspace{12 pt} t_{\alpha/2} (f)\)
Welchの方法の自由度は
\(\Large \displaystyle f = \frac{\left( \frac{s_1^2}{n_1} + \frac{s_2^2}{n_2} \right)^2}
{\frac{ \left( \frac{s_1^2}{n_1} \right)^2}{n_1 - 1} +
\frac{\left( \frac{s_2^2}{n_2}\right)^2}{n_2 - 1}} \)
4つの場合を示しましたが,これらの式において,
\(\Large \displaystyle \mu_d = \mu_X - \mu_Y = 0 \)
\(\Large \displaystyle \mu_1 - \mu_2 = 0 \)
としちゃいましょう!つまり,
二つの母集団の母平均には差がない
という仮定を立てるのです.すると,
対応がある場合で,
母分散がわかっている場合は,
\(\Large \displaystyle - 1.96 \hspace{20 pt}\leq \hspace{12 pt} \frac{ \bar{x}_d}{ \sqrt{\frac{\color{red}{\sigma}^2}{n}}} \hspace{12 pt} \leq \hspace{12 pt} 1.96 \)
母分散がわからない場合には,
\(\Large \displaystyle - t_{\alpha/2} (n-1) \hspace{12 pt}\leq \hspace{12 pt} \frac{ \bar{x}_d}{ \sqrt{\frac{\color{red}{s_d}^2}{n}}} \hspace{12 pt} \leq \hspace{12 pt} t_{\alpha/2} (n-1) \)
・対応のないデータの場合で,
母分散が未知で等しい場合では,
\(\Large \displaystyle - t_{\alpha/2} (n-1) \hspace{12 pt}\leq \hspace{12 pt} \frac{\bar{X}_1 - \bar{X}_2}
{\sqrt{ \left(\frac{1}{n_1} + \frac{1}{n_2} \right)
s_p^2 }} \hspace{12 pt} \leq \hspace{12 pt} t_{\alpha/2} (n-1) \)
母分散が未知で等しいかどうか不明の場合は,
\(\Large \displaystyle - t_{\alpha/2} (f) \hspace{12 pt}\leq \hspace{12 pt} \frac{ \overline{x}_1 - \overline{x}_2} {\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \leq \hspace{12 pt} t_{\alpha/2} (f)\)
と,これらの標本平均の差,が信頼空間のどこに位置するかを検討すればいいことになります.
つまり,各式の二つの不等号が成り立てば,
二つの母平均に差がないことが確率的に実証される
逆に,各式の二つの不等号の範囲外であれば,
二つの母集団に差がないとは言えない
ということになるのです.
式で書くとすっきりします.
では,次から実際に値を入れてみて検証していきましょう.