検定-10

有意差検定の注意点

ごくごく当たり前のことですが，

　データ数が変わると，有意差検定の結論が変わってくる

ことに注意です．その例をお示しします．

ここ，に記したように，対応がある場合で，母分散がわからない場合を考えていきましょう．

繰り返しになりますが，同じデータをお示しします．

	before	after	difference
1	170	140	30
2	150	155	-5
3	160	140	20
4	140	135	5
5	150	150	0

Average	154	144	10

ここで，n=5，なので，差分の不偏分散は，

\(\Large \displaystyle s_d^2 = \frac{(30-10)^2+(-5-10)^2+(20-10)^2+(5-10)^2+(0-10)^2}{5-1} = 212.5 \)

t値は，

\(\Large \displaystyle t = \frac{10}{\sqrt {\frac{212.5}{5}}} = 1.53393 \)

ｔ境界値（片側）は，エクセル関数から，

\(\Large \displaystyle =T.INV(1-0.05,5-1) = 2.131847 \)

となり，ｔ値は，推定した区間の中に入っているので，仮説，

　二つの母集団の母平均には差がない

が認められるため，

　二つの母平均に差がないことが確率的に実証される

ことになり，before -> after，で変化があったとは言えない，ことになります．

エクセル

の，データ分析，でも，

t-検定: 一対の標本による平均の検定ツール


	変数 1	変数 2
平均	154	144
分散	130	67.5
観測数	5	5
ピアソン相関	-0.08006
仮説平均との差異	0
自由度	4
t	1.53393
P(T<=t) 片側	0.099915
t 境界値片側	2.131847
P(T<=t) 両側	0.199829
t 境界値両側	2.776445

と一致しています．

ｐ値も0.05以上，となっています

・データ数が倍になった場合

ここで，新たに，同じ性質のデータ数を増やした場合を考えましょう．単純に，同じデータを重複させます．

	before	after	difference
1	170	140	30
2	150	155	-5
3	160	140	20
4	140	135	5
5	150	150	0
6	170	140	30
7	150	155	-5
8	160	140	20
9	140	135	5
10	150	150	0

Average	154	144	10

実際の実験ではこのような作業はぜっていに行ってはいけません！！！しかし，数学的な観点から行っているだけですので，注意が必要です

n=10，なので，差分の不偏分散は，

\(\Large \displaystyle s_d^2 = \frac{(30-10)^2+(-5-10)^2+(20-10)^2+(5-10)^2+(0-10)^2+(30-10)^2+(-5-10)^2+(20-10)^2+(5-10)^2+(0-10)^2}{10-1} \)

\(\Large \displaystyle = 188.89 \)

t値は，

\(\Large \displaystyle t = \frac{10}{\sqrt {\frac{188.89}{10}}} = 2.301 \)

ｔ境界値（片側）は，エクセル関数から，

\(\Large \displaystyle =T.INV(1-0.05,10-1) = 1.833 \)

ｔ境界値（両側）は，エクセル関数から，

\(\Large \displaystyle =T.INV.2T(0.05,10-1) = 2.26 \)

となり，ｔ値は，推定した区間の中に入っていないので，仮説，

　二つの母集団の母平均には差がある

が認められるため，

　二つの母平均に差があることが確率的に実証される

ことになり，before -> after，で変化があったとは言える，ことになります．

エクセル

の，データ分析，でも，

t-検定: 一対の標本による平均の検定ツール


	変数 1	変数 2
平均	154	144
分散	115.5556	60
観測数	10	10
ピアソン相関	-0.08006
仮説平均との差異	0
自由度	9
t	2.300895
P(T<=t) 片側	0.023465
t 境界値片側	1.833113
P(T<=t) 両側	0.046931
t 境界値両側	2.262157

となり，ｐ値も0.05以下となります

つまり，

同じクオリティのデータ数が倍になると，検定結果が異なり，有意差あり，となることがある．

ということです．

これはある意味，データ数が増えると精度が上がる，ということを示しているに過ぎないので当たり前といえばあたりまです．

しかし，これを利用して， ”有意差があるように結論づけたいから，実験を増やす”という事になりかねないです．

十分注意しなくてはならないですね．

次は，ｐ値，について考えていきましょう