Non_parametric

マン・ホイットニーのU検定 - 期待値と分散値

マン・ホイットニーのU検定の期待値と分散値，を検討してきます．

優った数は，U，順位の合計は，R，との関係は，

\(\Large \displaystyle U_1= n_1 n_2 + \frac{n_1 (n_1+ 1)}{2} -R_1 　\)

\(\Large \displaystyle U_2= n_1 n_2 + \frac{n_2 (n_2+ 1)}{2} -R_2　\)

となります．

・期待値

このRの期待値は，こちら，にあるように，

\(\Large \displaystyle E(R_1)= \sum_{i=1}^{n_1} E(R_i) =n_1 \frac{1+2+...+N}{N} = n_1 \frac{N(N+1)}{2} \frac{1}{N} = n_1 \frac{N+1}{2} = \frac{n_1 (n_1 + n_2 +1)}{2}　\)

\(\Large \displaystyle E(R_2)= \sum_{i=1}^{n_2} E(R_i) =n_2 \frac{1+2+...+N}{N} = n_2 \frac{N(N+1)}{2} \frac{1}{N} = n_2 \frac{N+1}{2} = \frac{n_2 (n_1 + n_2 +1)}{2}　\)

となりますので，

\(\Large \displaystyle U_1= n_1 n_2 + \frac{n_1 (n_1+ 1)}{2} -R_1 　\)

\(\Large \displaystyle = n_1 n_2 + \frac{n_1 (n_1+ 1)}{2} - \frac{n_1 (n_1 + n_2 +1)}{2} \)

\(\Large \displaystyle = n_1 n_2 + \frac{n_1 (n_1+ 1)}{2} - \frac{n_1 (n_1 +1) + n_1 n_2 }{2} \)

\(\Large \displaystyle = \frac{ n_1 n_2 }{2} \)

\(\Large \displaystyle U_2= n_1 n_2 + \frac{n_2 (n_2+ 1)}{2} -R_2 　\)

\(\Large \displaystyle = n_1 n_2 + \frac{n_2 (n_2+ 1)}{2} - \frac{n_2 (n_1 + n_2 +1)}{2} \)

\(\Large \displaystyle = n_1 n_2 + \frac{n_2 (n_2+ 1)}{2} - \frac{n_2 (n_2 +1) + n_1 n_2 }{2} \)

\(\Large \displaystyle = \frac{ n_1 n_2 }{2} \)

と両者等しく，\(\Large \displaystyle \frac{ n_1 n_2 }{2} \)，となります．

なぜ，\(\Large \displaystyle \frac{ n_1 n_2 }{2} \)，となるのか．．．

もっとも単純な考えは，まず，

n_A=3, n_B=2,を考えます．

マン-ホイットニーの考えは，
　相手に勝った数の総和
なので，
　最大：AAABB=6
　最小：BBAAA=0
となります．この最大値は，n_A×n_Bとなり最小値は０となるので，その期待値は半分のn_A×n_B/2，という考え．

なんとなく合っていそうな気がしますが，本当に半分が期待値になるかはわからないですね．．．

厳密解はわかりませんでしたので，法則性を検討してみました．

ややこしいので，別ページ，にまとめてみました．

・分散値

分散値は，マン・ホイットニーのU値の定義から，

\(\Large \displaystyle U_1= n_1 n_2 + \frac{n_1 (n_1+ 1)}{2} -R_1 　\)

となるので，分散値は，

\(\Large \displaystyle V(U_1)= V \left( n_1 n_2 + \frac{n_1 (n_1+ 1)}{2} -R_1 \right) 　\)

ですが，各項独立なので，

\(\Large \displaystyle V(U_1)= V(n_1 n_2) + V \left( \frac{n_1 (n_1+ 1)}{2} \right) +V \left( -R_1 \right) 　\)

となりますが，第一項，第二項は定数なので，分散値は０．したがって，

\(\Large \displaystyle V(U_1)= V \left( R_1 \right) 　\)

Rは，順位の合計なので，まさしくウィルコクソンの順位和検定で使われているパラメータなので，

\(\Large \displaystyle V(U_1)= V \left( R_1 \right) = \frac{n_1 \ n_2 ( n_1 + n_2 +1)}{12}　\)

分散値が，ウィルコクソンの順位和検定とマン・ホイットニーのU検定で同じとなるので，この二つの検定は同等と言われているのでしょう．

標準正規分布における両側５％の範囲は，こちらに，記載しましたように，±1.96，となるので，

\(\Large \displaystyle -1.96 < \frac{U-E(U)}{\sqrt{V(U)}} < 1.96　\)

つまり，

\(\Large \displaystyle -1.96 < \frac{U-\frac{n_1 n_2}{2}}{\sqrt{\frac{n_1 \ n_2 ( n_1 + n_2 +1)}{12}}} < 1.96　\)

を評価すればよいことがわかります．

タイデータがある場合には，ウィルコクソンの順位和検定と同様に補正が入りますが．．．．導出できませんでした．．．

次に，実際のデータから検定していきましょう．