Non_parametric

ウィルコクソンの順位和検定ー期待値・分散値

ウィルコクソンの順位和検定の期待値の導出方法は，こちら，こちら，などいろいろと解説がありますが，主に，中澤港先生のサイトを参考にさせていただきました，ありがとうございます．

二つのグループ，X，Yを考え，
　Xのデータ，x₁, x₂, ......x_m
　Yのデータ，y₁, y₂, ......y_n
とします．それぞれ，m, n，のデータ数があり，総数 N=m+n　となります．

それぞれの順位の合計がいくつになるか？ですが，順位の総合計は，

\(\Large \displaystyle \sum_{i=1}^N i = \frac{N ( N+1)}{2} 　\)

となるので，片方の合計がわかれば，もう片方の合計もわかります．

順位をR_iと書くとXの順位の合計は，

\(\Large \displaystyle R_X = \sum_{i=1}^m R_i \)

となります．ここで，もしXとYに差がなければ（ランダムであれば）

・期待値

\(\Large \displaystyle E(R_X) = \sum_{i=1}^m E(R_i) \)

となります．ランダムであるので，R_iの取る確率はどの順位でも等しいので，１～Nの平均値をｍ回足したものとなります．したがって，

\(\Large \displaystyle E(R_X) = \sum_{i=1}^m E(R_i) =m \frac{1+2+...+N}{N} = m \frac{N(N+1)}{2} \frac{1}{N} = m \frac{N+1}{2} \)

・分散値

これはちょっと複雑です，分散の公式から，

\(\Large \displaystyle Var(R) = E(R^2) - \{ E(R) \}^2 \)

となり，第二項は期待から計算できますが，第一項は，

\(\Large \displaystyle E(R^2) = E \left[ \left\{ \sum_{i=1}^m R_i \right\}^2 \right] = \sum_{i=1}^m E \left[ R^2 \right] + \sum_{i \neq j} E \left[ R_i R_j \right] \)

となります．R_iはそれぞれ独立ではないので．例えば，

\(\Large \displaystyle (a+b)^2 = a^2 +b^2 + 2ab \)

\(\Large \displaystyle (a+b+c)^2 = a^2 +b^2 +c^2 + 2ab + 2ac + 2bc \)

となるように．

まず，簡単な

\(\Large \displaystyle \sum_{i=1}^m E \left[ R^2 \right] = \frac{1^2+2^2+.... +N^2}{N} = m \frac{(N+1)(2N+1)}{6} \)

となります（こちら，の公式）．問題は，

\(\Large \displaystyle \sum_{i \neq j} E \left[ R_i R_j \right] \)

です．

まずは，

\(\Large \displaystyle (1+2+...+N)^2 = \left( \frac{N(N+1)}{2} \right)^2 = \frac{N^2 (N+1)^2}{4}\)

となることを確認しましょう．

\(\Large \displaystyle \sum_{i \neq j} E \left[ R_i R_j \right] \)

は，自分以外の組み合わせとなりますので，総数Nの場合，N(N-１）回となります（二乗の場合には，2abというようにまとめていますが）．

したがって，

\(\Large \displaystyle (1+2+...+N)^2 = ( 1^2+2^2+.... +N^2) + \sum_{i \neq j}^{N(N-1)} E \left[ R_i R_j \right] \)

の関係となることがわかります．したがって，

\(\Large \displaystyle \frac{N(N+1)(2N+1)}{6} = \frac{N^2 (N+1)^2}{4} + \sum_{i \neq j}^{N(N-1)} E \left[ R_i R_j \right] \)

となるので，

\(\Large \displaystyle \sum_{i \neq j}^{N(N-1)} E \left[ R_i R_j \right] = \frac{N^2 (N+1)^2}{4} - \frac{N(N+1)(2N+1)}{6} \)

\(\Large \displaystyle = \frac{3N^2 (N+1)^2 - 2N(N+1)(2N+1)}{12} \)

\(\Large \displaystyle = N(N+1) \frac{3N (N+1) - 2(2N+1)}{12} \)

\(\Large \displaystyle = N(N+1) \frac{3N^2 - N - 2}{12} \)

\(\Large \displaystyle = N(N+1) \frac{(3N + 2)(N-1)}{12} \)

期待値は，総数がN(N+1）個なので，

\(\Large \displaystyle E \left[ \sum_{i \neq j} R_i R_j \right] = \frac{1}{N(N-1)} N(N+1) \frac{(3N + 2)(N-1)}{12} = \frac{(3N + 2)(N+1)}{12}\)

その結果を，m(m-1)回加算するので，

\(\Large \displaystyle \sum_{i \neq j}^m E \left[ R_i R_j \right] = m(m-1) \frac{(3N + 2)(N+1)}{12}\)

となります，まとめると，

\(\Large \displaystyle Var(R) = E(R^2) - \{ E(R) \}^2 \)

\(\Large \displaystyle = \sum_{i=1}^m E \left[ R^2 \right] + \sum_{i \neq j} E \left[ R_i R_j \right] - \left( m \frac{N+1}{2} \right)^2 \)

\(\Large \displaystyle = m \frac{(N+1)(2N+1)}{6} + m(m-1) \frac{(3N + 2)(N+1)}{12} - \left( m \frac{N+1}{2} \right)^2 \)

計算が複雑になるので，ｍの項目で分類してみます．

\(\Large \displaystyle m^2 : \frac{(3N + 2)(N+1)}{12} - \left( m \frac{N+1}{2} \right)^2 = \frac{N+1}{12} \left\{ (3N+2)-3(N+1) \right\} =-\frac{N+1}{12}\)

\(\Large \displaystyle m : \frac{(N+1)(2N+1)}{6} - \frac{(3N + 2)(N+1)}{12} = \frac{2(N+1)(2N+1) - (3N + 2)(N+1)}{12} \)

\(\Large \displaystyle = \frac{4 N^2 + 6N +2 - (3N^2 + 5N +2)}{12} = \frac{N^2 + N}{12} = \frac{N(N+1)}{12} \)

まとめると，

\(\Large \displaystyle - m^2 \frac{N+1}{12} + m \frac{N(N+1)}{12} = \frac{m(N+1)(N-m)}{12} =\frac{mn(N+1)}{12} =\frac{mn(m+n+1)}{12}\)

となります．