検定-10

 

有意差検定の注意点

ごくごく当たり前のことですが,

 データ数が変わると,有意差検定の結論が変わってくる

ことに注意です.その例をお示しします.

ここ,に記したように,対応がある場合で,母分散がわからない場合を考えていきましょう.

繰り返しになりますが,同じデータをお示しします.

before after difference
1 170 140 30
2 150 155 -5
3 160 140 20
4 140 135 5
5 150 150 0
       
Average 154 144 10

ここで,n=5,なので,差分の不偏分散は,

\(\Large \displaystyle s_d^2 = \frac{(30-10)^2+(-5-10)^2+(20-10)^2+(5-10)^2+(0-10)^2}{5-1} = 212.5 \)

t値は,

\(\Large \displaystyle t = \frac{10}{\sqrt {\frac{212.5}{5}}} = 1.53393 \)

t境界値(片側)は,エクセル関数から,

\(\Large \displaystyle =T.INV(1-0.05,5-1) = 2.131847 \)

となり,t値は,推定した区間の中に入っているので,仮説,

 二つの母集団の母平均には差がない

が認められるため,

 二つの母平均に差がないことが確率的に実証される

ことになり,before -> after,で変化があったとは言えない,ことになります.

エクセル

の,データ分析,でも,

t-検定: 一対の標本による平均の検定ツール

  変数 1 変数 2
平均 154 144
分散 130 67.5
観測数 5 5
ピアソン相関 -0.08006
仮説平均との差異 0
自由度 4
1.53393
P(T<=t) 片側 0.099915
t 境界値 片側 2.131847
P(T<=t) 両側 0.199829
t 境界値 両側 2.776445  

と一致しています.

p値も0.05以上,となっています

 

 

・データ数が倍になった場合

ここで,新たに,同じ性質のデータ数を増やした場合を考えましょう.単純に,同じデータを重複させます.

before after difference
1 170 140 30
2 150 155 -5
3 160 140 20
4 140 135 5
5 150 150 0
6 170 140 30
7 150 155 -5
8 160 140 20
9 140 135 5
10 150 150 0
       
Average 154 144 10

実際の実験ではこのような作業はぜっていに行ってはいけません!!!しかし,数学的な観点から行っているだけですので,注意が必要です

n=10,なので,差分の不偏分散は,

\(\Large \displaystyle s_d^2 = \frac{(30-10)^2+(-5-10)^2+(20-10)^2+(5-10)^2+(0-10)^2+(30-10)^2+(-5-10)^2+(20-10)^2+(5-10)^2+(0-10)^2}{10-1} \)

\(\Large \displaystyle = 188.89 \)

t値は,

\(\Large \displaystyle t = \frac{10}{\sqrt {\frac{188.89}{10}}} = 2.301 \)

t境界値(片側)は,エクセル関数から,

\(\Large \displaystyle =T.INV(1-0.05,10-1) = 1.833 \)

t境界値(両側)は,エクセル関数から,

\(\Large \displaystyle =T.INV.2T(0.05,10-1) = 2.26 \)

となり,t値は,推定した区間の中に入っていないので,仮説,

 二つの母集団の母平均には差がある

が認められるため,

 二つの母平均に差があることが確率的に実証される

ことになり,before -> after,で変化があったとは言える,ことになります.

エクセル

の,データ分析,でも,

t-検定: 一対の標本による平均の検定ツール

  変数 1 変数 2
平均 154 144
分散 115.5556 60
観測数 10 10
ピアソン相関 -0.08006
仮説平均との差異 0
自由度 9
2.300895
P(T<=t) 片側 0.023465
t 境界値 片側 1.833113
P(T<=t) 両側 0.046931
t 境界値 両側 2.262157  

となり,p値も0.05以下となります

つまり,

同じクオリティのデータ数が倍になると,検定結果が異なり,有意差あり,となることがある.

ということです.

これはある意味,データ数が増えると精度が上がる,ということを示しているに過ぎないので当たり前といえばあたりまです.

しかし,これを利用して, ”有意差があるように結論づけたいから,実験を増やす”という事になりかねないです.

十分注意しなくてはならないですね.

 

次は,p値,について考えていきましょう

 

l tr