そもそも,p値,とは何か?
有意差検定において,p=0.05,などで判定しますが.p値とは,私の理解では,
自由度(n-1)におけるt分布において,実際のデータからt値を求め,t以上の確率を求めること
という理解です,多分,数学的に正式な定義は違いますが.
なので,一般的な有意差検定では,
t値を求める → p=0.05,のt値と比較
ですが,逆にp値を求める際には,
t値を求める → この値から推定されるp値を計算する
という理解です(間違っていたらごめんなさい)
では,実際に,p値を求めていきましょう.
まずは,式のおさらいから...
t値
\(\Large \displaystyle t =\frac{\overline{x}_d}{\sqrt{\frac{s_d^2}{n}} }\)
対応がある場合で,母分散がわからない場合
\(\Large \displaystyle \overline{x}_d = \frac{1}{n} \sum_{i=1}^n (x_{1i} - x_{2i}) \)
\(\Large \displaystyle s_d^2 = \frac{1}{n-1} \sum_{i=1}^n (x_{1i} - x_{2i} - \bar{x}_d)^2 \)
pは,
\(\Large \displaystyle p = \int_t^{ \infty} f(\tau) \ d \tau \)
となります.
エクセルでは,
T.DIST.RT(t値,自由度)
で計算できます. これは,
あるtにおいて,それ以上の部分の面積
となるので,”片側”,を示します.
両側の場合には,単純に2倍すればいいのですが,エクセルでは,
T.DIST.RT(t値,自由度)
となります.
ごくごく当たり前のことですが,
データ数が変わると,有意差検定の結論が変わってくる
ことに注意です.その例をお示しします.
ここ,に記したように,対応がある場合で,母分散がわからない場合を考えていきましょう.
繰り返しになりますが,同じデータをお示しします.
| before | after | difference | |
| 1 | 170 | 140 | 30 |
| 2 | 150 | 155 | -5 |
| 3 | 160 | 140 | 20 |
| 4 | 140 | 135 | 5 |
| 5 | 150 | 150 | 0 |
| Average | 154 | 144 | 10 |
ここで,n=5,なので,差分の不偏分散は,
\(\Large \displaystyle s_d^2 = \frac{(30-10)^2+(-5-10)^2+(20-10)^2+(5-10)^2+(0-10)^2}{5-1} = 212.5 \)
t値は,
\(\Large \displaystyle t = \frac{10}{\sqrt {\frac{212.5}{5}}} = 1.53393 \)
t 境界値 片側は,
=T.INV(1-0.05,n-1) =T.INV(1-0.05,5-1) = 2.13185
t 境界値 両側は,
=T.INV.2T(0.05,n-1)=T.INV.2T(0.05,5-1) = 2.776445
です.
p値(片側)は,エクセル関数から,
=T.DIST.RT(t,n-1) =T.DIST.RT( 1.53393,5-1) = 0.099914593
p値(両側)は,エクセル関数から,
=T.DIST.2T(t,n-1) =T.DIST.2T( 1.53393,5-1) =0.199829186 = 2 \times T.DIST.RT( 1.53393,5-1)
となり,エクセルの解析と一致します.
図示すると,
