検定-11

 

そもそも,p値,とは何か?

有意差検定において,p=0.05,などで判定しますが.p値とは,私の理解では,

 自由度(n-1)におけるt分布において,実際のデータからt値を求め,t以上の確率を求めること

という理解です,多分,数学的に正式な定義は違いますが.

なので,一般的な有意差検定では,

 t値を求める → p=0.05,のt値と比較

ですが,逆にp値を求める際には,

 t値を求める → この値から推定されるp値を計算する

という理解です(間違っていたらごめんなさい)

では,実際に,p値を求めていきましょう.

まずは,式のおさらいから...

t値

\(\Large \displaystyle t =\frac{\overline{x}_d}{\sqrt{\frac{s_d^2}{n}} }\)

対応がある場合で,母分散がわからない場合

\(\Large \displaystyle \overline{x}_d = \frac{1}{n} \sum_{i=1}^n (x_{1i} - x_{2i}) \)

\(\Large \displaystyle s_d^2 = \frac{1}{n-1} \sum_{i=1}^n (x_{1i} - x_{2i} - \bar{x}_d)^2 \)

pは,

\(\Large \displaystyle p = \int_t^{ \infty} f(\tau) \ d \tau \)

となります.

エクセルでは,

T.DIST.RT(t値,自由度)

で計算できます. これは,

 あるtにおいて,それ以上の部分の面積

となるので,”片側”,を示します.

両側の場合には,単純に2倍すればいいのですが,エクセルでは,

T.DIST.RT(t値,自由度)

となります.

 

ごくごく当たり前のことですが,

 データ数が変わると,有意差検定の結論が変わってくる

ことに注意です.その例をお示しします.

ここ,に記したように,対応がある場合で,母分散がわからない場合を考えていきましょう.

繰り返しになりますが,同じデータをお示しします.

before after difference
1 170 140 30
2 150 155 -5
3 160 140 20
4 140 135 5
5 150 150 0
       
Average 154 144 10

ここで,n=5,なので,差分の不偏分散は,

\(\Large \displaystyle s_d^2 = \frac{(30-10)^2+(-5-10)^2+(20-10)^2+(5-10)^2+(0-10)^2}{5-1} = 212.5 \)

t値は,

\(\Large \displaystyle t = \frac{10}{\sqrt {\frac{212.5}{5}}} = 1.53393 \)

t 境界値 片側は,

=T.INV(1-0.05,n-1) =T.INV(1-0.05,5-1) = 2.13185

t 境界値 両側は,

=T.INV.2T(0.05,n-1)=T.INV.2T(0.05,5-1) = 2.776445

です.

 

p値(片側)は,エクセル関数から,

=T.DIST.RT(t,n-1) =T.DIST.RT( 1.53393,5-1) = 0.099914593

p値(両側)は,エクセル関数から,

=T.DIST.2T(t,n-1) =T.DIST.2T( 1.53393,5-1) =0.199829186 = 2 \times T.DIST.RT( 1.53393,5-1)

となり,エクセルの解析と一致します.

図示すると,

 

 

l t