マン・ホイットニーのU検定 - 期待値と分散値

 

マン・ホイットニーのU検定の期待値と分散値,を検討してきます.

優った数は,U順位の合計は,R,との関係は,

\(\Large \displaystyle U_1= n_1 n_2 + \frac{n_1 (n_1+ 1)}{2} -R_1  \)

\(\Large \displaystyle U_2= n_1 n_2 + \frac{n_2 (n_2+ 1)}{2} -R_2 \)

となります.

 

・期待値

このRの期待値は,こちら,にあるように,

\(\Large \displaystyle E(R_1)= \sum_{i=1}^{n_1} E(R_i) =n_1 \frac{1+2+...+N}{N} = n_1 \frac{N(N+1)}{2} \frac{1}{N} = n_1 \frac{N+1}{2} = \frac{n_1 (n_1 + n_2 +1)}{2} \)

\(\Large \displaystyle E(R_2)= \sum_{i=1}^{n_2} E(R_i) =n_2 \frac{1+2+...+N}{N} = n_2 \frac{N(N+1)}{2} \frac{1}{N} = n_2 \frac{N+1}{2} = \frac{n_2 (n_1 + n_2 +1)}{2} \)

となりますので,

\(\Large \displaystyle U_1= n_1 n_2 + \frac{n_1 (n_1+ 1)}{2} -R_1  \)

\(\Large \displaystyle = n_1 n_2 + \frac{n_1 (n_1+ 1)}{2} - \frac{n_1 (n_1 + n_2 +1)}{2} \)

\(\Large \displaystyle = n_1 n_2 + \frac{n_1 (n_1+ 1)}{2} - \frac{n_1 (n_1 +1) + n_1 n_2 }{2} \)

\(\Large \displaystyle = \frac{ n_1 n_2 }{2} \)

\(\Large \displaystyle U_2= n_1 n_2 + \frac{n_2 (n_2+ 1)}{2} -R_2  \)

\(\Large \displaystyle = n_1 n_2 + \frac{n_2 (n_2+ 1)}{2} - \frac{n_2 (n_1 + n_2 +1)}{2} \)

\(\Large \displaystyle = n_1 n_2 + \frac{n_2 (n_2+ 1)}{2} - \frac{n_2 (n_2 +1) + n_1 n_2 }{2} \)

\(\Large \displaystyle = \frac{ n_1 n_2 }{2} \)

と両者等しく,\(\Large \displaystyle \frac{ n_1 n_2 }{2} \),となります.

なぜ,\(\Large \displaystyle \frac{ n_1 n_2 }{2} \),となるのか...

もっとも単純な考えは,まず,

nA=3, nB=2,を考えます.

マン-ホイットニーの考えは,
 相手に勝った数の総和
なので,
 最大:AAABB=6
 最小:BBAAA=0
となります.この最大値は,nA×nBとなり最小値は0となるので,その期待値は半分のnA×nB/2,という考え.

なんとなく合っていそうな気がしますが,本当に半分が期待値になるかはわからないですね...

厳密解はわかりませんでしたので,法則性を検討してみました.

ややこしいので,別ページ,にまとめてみました.

 

・分散値

分散値は,マン・ホイットニーのU値の定義から

\(\Large \displaystyle U_1= n_1 n_2 + \frac{n_1 (n_1+ 1)}{2} -R_1  \)

となるので,分散値は,

\(\Large \displaystyle V(U_1)= V \left( n_1 n_2 + \frac{n_1 (n_1+ 1)}{2} -R_1 \right)  \)

ですが,各項独立なので,

\(\Large \displaystyle V(U_1)= V(n_1 n_2) + V \left( \frac{n_1 (n_1+ 1)}{2} \right) +V \left( -R_1 \right)  \)

となりますが,第一項,第二項は定数なので,分散値は0.したがって,

\(\Large \displaystyle V(U_1)= V \left( R_1 \right)  \)

Rは,順位の合計なので,まさしくウィルコクソンの順位和検定で使われているパラメータなので,

\(\Large \displaystyle V(U_1)= V \left( R_1 \right) = \frac{n_1 \ n_2 ( n_1 + n_2 +1)}{12} \)

分散値が,ウィルコクソンの順位和検定マン・ホイットニーのU検定で同じとなるので,この二つの検定は同等と言われているのでしょう.

標準正規分布における両側5%の範囲は,こちらに,記載しましたように,±1.96,となるので,

\(\Large \displaystyle -1.96 < \frac{U-E(U)}{\sqrt{V(U)}} < 1.96 \)

つまり,

\(\Large \displaystyle -1.96 < \frac{U-\frac{n_1 n_2}{2}}{\sqrt{\frac{n_1 \ n_2 ( n_1 + n_2 +1)}{12}}} < 1.96 \)

を評価すればよいことがわかります.

 

タイデータがある場合には,ウィルコクソンの順位和検定と同様に補正が入りますが....導出できませんでした...

 

次に,実際のデータから検定していきましょう.

 

 

ltr