検定-01

検定とは?

私の理解では,検定とは,

二つの集団に有意な差があるか,ないか(あるとは言えないか),

を議論する手法と理解しています.

しかし,そこには必ず,

 帰無仮説

 対立仮設

という概念があり,いつもこんがらがってしまいます.

EdgeのCopilotによると,

帰無仮説とは何か?

帰無仮説は、差がないことを否定する仮説です。統計的検定では、差があることを証明するのではなく、差がないことを証明する論理を用います。 統計学的検定は、データに基づいて結論に至るための形式的手法であり、帰無仮説と対立仮説は母集団の統計モデルに関する推測です。

対立仮説との関係

対立仮説(Alternative Hypothesis)は、差があることを証明したい仮説です。帰無仮説とは逆の立場を取ります。 統計的検定では、帰無仮説と対立仮説の2つの仮説を比較し、差があるかどうかを判断します。

 

他のサイトでは,

 差がないを意味する仮説

 何か特別な差や関係がないという仮説

など,言っていることは同じようですが....こんがらがっちゃいます..

 

これを,今までに計算してきた区間推定からもう一度見直してみましょう.

 

・対応がある場合で,

母分散がわかっている場合は,

\(\Large \displaystyle - 1.96 \hspace{20 pt}\leq \hspace{12 pt} \frac{\mu_d - \bar{x}_d}{ \sqrt{\frac{\color{red}{\sigma}^2}{n}}} \hspace{12 pt} \leq \hspace{12 pt} 1.96 \)

 

母分散がわからない場合には,

\(\Large \displaystyle - t_{\alpha/2} (n-1) \hspace{12 pt}\leq \hspace{12 pt} \frac{\mu_d - \bar{x}_d}{ \sqrt{\frac{\color{red}{s_d}^2}{n}}} \hspace{12 pt} \leq \hspace{12 pt} t_{\alpha/2} (n-1) \)

\(\Large \displaystyle \bar{x}_d = \frac{1}{n}\sum_{i=1}^n (x_{1i} - x_{2i} ) \)

\(\Large \displaystyle \mu_d \equiv \mu_X - \mu_Y \)

 

・対応のないデータの場合で,

母分散が未知で等しい場合では,

\(\Large \displaystyle - t_{\alpha/2} (n-1) \hspace{12 pt}\leq \hspace{12 pt} \frac{(\bar{X}_1 - \bar{X}_2) -( \mu_1 - \mu_2)}
{\sqrt{ \left(\frac{1}{n_1} + \frac{1}{n_2} \right)
s_p^2 }} \hspace{12 pt} \leq \hspace{12 pt} t_{\alpha/2} (n-1) \)

\(\Large \displaystyle s_p^2 \equiv \frac{(n_1 -1) s_1^2 + (n_2 - 1) s_2^2}{n_1 + n_2 -2} \)

 

母分散が未知で等しいかどうか不明の場合は,

\(\Large \displaystyle - t_{\alpha/2} (f) \hspace{12 pt}\leq \hspace{12 pt} \frac{ (\overline{x}_1 - \overline{x}_2) -( \mu_1 - \mu_2)} {\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \leq \hspace{12 pt} t_{\alpha/2} (f)\)

Welchの方法の自由度は

\(\Large \displaystyle f = \frac{\left( \frac{s_1^2}{n_1} + \frac{s_2^2}{n_2} \right)^2}
{\frac{ \left( \frac{s_1^2}{n_1} \right)^2}{n_1 - 1} +
\frac{\left( \frac{s_2^2}{n_2}\right)^2}{n_2 - 1}} \)

 

4つの場合を示しましたが,これらの式において,

\(\Large \displaystyle \mu_d = \mu_X - \mu_Y = 0 \)

\(\Large \displaystyle \mu_1 - \mu_2 = 0 \)

としちゃいましょう!つまり,

 二つの母集団の母平均には差がない

という仮定を立てるのです.すると,

 

対応がある場合で,

母分散がわかっている場合は,

\(\Large \displaystyle - 1.96 \hspace{20 pt}\leq \hspace{12 pt} \frac{ \bar{x}_d}{ \sqrt{\frac{\color{red}{\sigma}^2}{n}}} \hspace{12 pt} \leq \hspace{12 pt} 1.96 \)

 

母分散がわからない場合には,

\(\Large \displaystyle - t_{\alpha/2} (n-1) \hspace{12 pt}\leq \hspace{12 pt} \frac{ \bar{x}_d}{ \sqrt{\frac{\color{red}{s_d}^2}{n}}} \hspace{12 pt} \leq \hspace{12 pt} t_{\alpha/2} (n-1) \)

 

・対応のないデータの場合で,

母分散が未知で等しい場合では,

\(\Large \displaystyle - t_{\alpha/2} (n-1) \hspace{12 pt}\leq \hspace{12 pt} \frac{\bar{X}_1 - \bar{X}_2}
{\sqrt{ \left(\frac{1}{n_1} + \frac{1}{n_2} \right)
s_p^2 }} \hspace{12 pt} \leq \hspace{12 pt} t_{\alpha/2} (n-1) \)

 

母分散が未知で等しいかどうか不明の場合は,

\(\Large \displaystyle - t_{\alpha/2} (f) \hspace{12 pt}\leq \hspace{12 pt} \frac{ \overline{x}_1 - \overline{x}_2} {\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \leq \hspace{12 pt} t_{\alpha/2} (f)\)

と,これらの標本平均の差,が信頼空間のどこに位置するかを検討すればいいことになります.

 

つまり,各式の二つの不等号が成り立てば

 二つの母平均に差がないことが確率的に実証される

逆に,各式の二つの不等号の範囲外であれば,

 二つの母集団に差がないとは言えない

ということになるのです.

式で書くとすっきりします.

では,次から実際に値を入れてみて検証していきましょう.

 

 

l t r