Non_parametric

ウィルコクソンの順位和検定

ウィルコクソンの順位和検定，から

まずは具体的な計算方法を，こちらのサイトのデータをすこし改変させて利用させていただきました．

ウィルコクソンの順位和検定の利点は，順位で検定するので，素点が変化しても順位が変化しない限り結果は同じになります．

No.	A	B
1	27	30
2	34	35
3	24	37
4	19	28
5	29	32

この結果を全体に対して順位を付与します．

No.	A		B
		順位		順位
1	27	3	30	6
2	34	8	35	9
3	24	2	37	10
4	19	1	28	4
5	29	5	32	7
合計		19		36

全部で10つのデータがあり，その中でAチームは5つ．この5つが均等に混ざり合う場合の合計の期待値と分散を計算します．

この例では，同点はない，場合を想定しています．

合計をWとすると，小さい方の値を採用します．

\(\Large \displaystyle W_A < W_B　\)

となるので，小さい方の値，19，採用します．

期待値，分散値は以下の計算式で導くことができます．

\(\Large \displaystyle E(W_A)= \frac{n_A ( n_A + n_B +1)}{2} = \frac{5 (5+5+1)}{2} = 27.5　\)

\(\Large \displaystyle V(W_A)= \frac{n_A \ n_B ( n_A + n_B +1)}{12} = \frac{5 \cdot 5 (5+5+1)}{12} = \frac{275}{12} = 22.92　\)

この結果からｚ値を求めます．

\(\Large \displaystyle z = \frac{W_A-E(W_A)}{\sqrt{V(W_A)}} = \frac{19-27.5}{\sqrt{22.92}} = -1.775　\)

標準正規分布における両側５％の範囲は，こちらに，記載しましたように，±1.96，となるので，

\(\Large \displaystyle -1.96 < \frac{W_A-E(W_A)}{\sqrt{V(W)}} < 1.96　\)

なので，範囲内，つまり有意差があるとは限らないことになります．

なぜ，小さい方？ですが，よくわかりません．

なので，Chat-GPT，に聞いてみました．

ウィルコクソンの順位和検定（Wilcoxon Rank-Sum Test, またはMann-Whitney U検定）において小さい方の順位和を採用する理由は、検定統計量としての安定性と計算の簡便性のためです。具体的には、次のような理由があります。

1. 対称性:
ウィルコクソンの順位和検定では、2つの独立したサンプルを比較します。この検定では、サンプルの一方を固定して他方のサンプルと比較するため、サンプルの入れ替えによって結果が変わらない対称性が重要です。小さい方の順位和を採用することで、どちらのサンプルが「小さい」かを一意に決定できます。

2. 計算の簡便性:
順位和の計算において、より小さい順位和を採用することで、統計量の計算が簡便になります。例えば、サンプルサイズが小さい方の順位和を選ぶと、ランキングを正規化しやすくなります。

3. 検定統計量の特性:
ウィルコクソンの検定統計量は、通常、比較される2つのサンプルの順位和の差に基づいています。この差は、どちらのサンプルが有意に大きいかを示すための指標として用いられます。小さい方の順位和を用いることで、差が統計的に有意かどうかを判断しやすくなります。

ということですが，正直よくわかりませんでした．．．．．なので，大きい方を使って計算してみました．

\(\Large \displaystyle E(W_B)= \frac{n_B ( n_A + n_B +1)}{2} = \frac{5 (5+5+1)}{2} = 27.5　\)

\(\Large \displaystyle V(W_B)= \frac{n_A \ n_B ( n_A + n_B +1)}{12} = \frac{5 \cdot 5 (5+5+1)}{12} = \frac{275}{12} = 2.92　\)

\(\Large \displaystyle z = \frac{W_B-E(W_B)}{\sqrt{V(W_B)}} = \frac{36-27.5}{\sqrt{22.92}} = 1.775　\)

と期待値，分散値が一致し，ｚ値は符号が逆転し，絶対値が同じ値となりました．

なぜ，このような結果になるかは，こちら，に計算してみましたので，ご確認ください．

なので，私の結論は，大小どちらを使ってもいい，でした（間違っていたらご指摘ください．）

期待値，分散値をまとめると，

\(\Large \displaystyle E(W_A)= \frac{n_A ( n_A + n_B +1)}{2} \)

\(\Large \displaystyle V(W_A)= \frac{n_A \ n_B ( n_A + n_B +1)}{12} \)

となります．

標準正規分布における両側５％の範囲は，こちらに，記載しましたように，±1.96，となるので，

\(\Large \displaystyle -1.96 < \frac{W_A-E(W_A)}{\sqrt{V(W)}} < 1.96　\)

を評価すればよいことがわかります．

導出方法などは，細かい計算ですが，

　大小で結果は変わるか？

　期待値，分散値の導出方法

をそれぞれ別ページにまとめました．

・タイデータがある場合

この場合には，

　期待値：変わらない

　分散値：\(\Large \displaystyle V(W)= \frac{n_A \ n_B ( n_A + n_B +1)}{12} - \frac{ n_A n_B \displaystyle \sum_{i=1}^T t_i (t_i^2-1)}{12N(N-1)} \)

とのことでしたが，導出できませんでした．．．．いずれ解明します．

次は，

マン・ホイットニーのU検定

です．