マン・ホイットニーのU検定 - 期待値と分散値
マン・ホイットニーのU検定の期待値と分散値,を検討してきます.
優った数は,U,順位の合計は,R,との関係は,
\(\Large \displaystyle U_1= n_1 n_2 + \frac{n_1 (n_1+ 1)}{2} -R_1 \)
\(\Large \displaystyle U_2= n_1 n_2 + \frac{n_2 (n_2+ 1)}{2} -R_2 \)
となります.
・期待値
このRの期待値は,こちら,にあるように,
\(\Large \displaystyle E(R_1)= \sum_{i=1}^{n_1} E(R_i) =n_1 \frac{1+2+...+N}{N} = n_1 \frac{N(N+1)}{2} \frac{1}{N} = n_1 \frac{N+1}{2} = \frac{n_1 (n_1 + n_2 +1)}{2} \)
\(\Large \displaystyle E(R_2)= \sum_{i=1}^{n_2} E(R_i) =n_2 \frac{1+2+...+N}{N} = n_2 \frac{N(N+1)}{2} \frac{1}{N} = n_2 \frac{N+1}{2} = \frac{n_2 (n_1 + n_2 +1)}{2} \)
となりますので,
\(\Large \displaystyle U_1= n_1 n_2 + \frac{n_1 (n_1+ 1)}{2} -R_1 \)
\(\Large \displaystyle = n_1 n_2 + \frac{n_1 (n_1+ 1)}{2} - \frac{n_1 (n_1 + n_2 +1)}{2} \)
\(\Large \displaystyle = n_1 n_2 + \frac{n_1 (n_1+ 1)}{2} - \frac{n_1 (n_1 +1) + n_1 n_2 }{2} \)
\(\Large \displaystyle = \frac{ n_1 n_2 }{2} \)
\(\Large \displaystyle U_2= n_1 n_2 + \frac{n_2 (n_2+ 1)}{2} -R_2 \)
\(\Large \displaystyle = n_1 n_2 + \frac{n_2 (n_2+ 1)}{2} - \frac{n_2 (n_1 + n_2 +1)}{2} \)
\(\Large \displaystyle = n_1 n_2 + \frac{n_2 (n_2+ 1)}{2} - \frac{n_2 (n_2 +1) + n_1 n_2 }{2} \)
\(\Large \displaystyle = \frac{ n_1 n_2 }{2} \)
と両者等しく,\(\Large \displaystyle \frac{ n_1 n_2 }{2} \),となります.
なぜ,\(\Large \displaystyle \frac{ n_1 n_2 }{2} \),となるのか...
もっとも単純な考えは,まず,
nA=3, nB=2,を考えます.
マン-ホイットニーの考えは,
相手に勝った数の総和
なので,
最大:AAABB=6
最小:BBAAA=0
となります.この最大値は,nA×nBとなり最小値は0となるので,その期待値は半分のnA×nB/2,という考え.
なんとなく合っていそうな気がしますが,本当に半分が期待値になるかはわからないですね...
厳密解はわかりませんでしたので,法則性を検討してみました.
ややこしいので,別ページ,にまとめてみました.
・分散値
分散値は,マン・ホイットニーのU値の定義から,
\(\Large \displaystyle U_1= n_1 n_2 + \frac{n_1 (n_1+ 1)}{2} -R_1 \)
となるので,分散値は,
\(\Large \displaystyle V(U_1)= V \left( n_1 n_2 + \frac{n_1 (n_1+ 1)}{2} -R_1 \right) \)
ですが,各項独立なので,
\(\Large \displaystyle V(U_1)= V(n_1 n_2) + V \left( \frac{n_1 (n_1+ 1)}{2} \right) +V \left( -R_1 \right) \)
となりますが,第一項,第二項は定数なので,分散値は0.したがって,
\(\Large \displaystyle V(U_1)= V \left( R_1 \right) \)
Rは,順位の合計なので,まさしくウィルコクソンの順位和検定で使われているパラメータなので,
\(\Large \displaystyle V(U_1)= V \left( R_1 \right) = \frac{n_1 \ n_2 ( n_1 + n_2 +1)}{12} \)
分散値が,ウィルコクソンの順位和検定とマン・ホイットニーのU検定で同じとなるので,この二つの検定は同等と言われているのでしょう.
標準正規分布における両側5%の範囲は,こちらに,記載しましたように,±1.96,となるので,
\(\Large \displaystyle -1.96 < \frac{U-E(U)}{\sqrt{V(U)}} < 1.96 \)
つまり,
\(\Large \displaystyle -1.96 < \frac{U-\frac{n_1 n_2}{2}}{\sqrt{\frac{n_1 \ n_2 ( n_1 + n_2 +1)}{12}}} < 1.96 \)
を評価すればよいことがわかります.
タイデータがある場合には,ウィルコクソンの順位和検定と同様に補正が入りますが....導出できませんでした...
次に,実際のデータから検定していきましょう.