ウィルコクソンの順位和検定ー期待値・分散値
ウィルコクソンの順位和検定の期待値の導出方法は,こちら,こちら,などいろいろと解説がありますが,主に,中澤港先生のサイトを参考にさせていただきました,ありがとうございます.
二つのグループ,X,Yを考え,
Xのデータ,x1, x2, ......xm
Yのデータ,y1, y2, ......yn
とします.それぞれ,m, n,のデータ数があり,総数 N=m+n となります.
それぞれの順位の合計がいくつになるか?ですが,順位の総合計は,
\(\Large \displaystyle \sum_{i=1}^N i = \frac{N ( N+1)}{2} \)
となるので,片方の合計がわかれば,もう片方の合計もわかります.
順位をRiと書くとXの順位の合計は,
\(\Large \displaystyle R_X = \sum_{i=1}^m R_i \)
となります.ここで,もしXとYに差がなければ(ランダムであれば)
・期待値
\(\Large \displaystyle E(R_X) = \sum_{i=1}^m E(R_i) \)
となります.ランダムであるので,Riの取る確率はどの順位でも等しいので,1~Nの平均値をm回足したものとなります.したがって,
\(\Large \displaystyle E(R_X) = \sum_{i=1}^m E(R_i) =m \frac{1+2+...+N}{N} = m \frac{N(N+1)}{2} \frac{1}{N} = m \frac{N+1}{2} \)
・分散値
これはちょっと複雑です,分散の公式から,
\(\Large \displaystyle Var(R) = E(R^2) - \{ E(R) \}^2 \)
となり,第二項は期待から計算できますが,第一項は,
\(\Large \displaystyle E(R^2) = E \left[ \left\{ \sum_{i=1}^m R_i \right\}^2 \right] = \sum_{i=1}^m E \left[ R^2 \right] + \sum_{i \neq j} E \left[ R_i R_j \right] \)
となります.Riはそれぞれ独立ではないので.例えば,
\(\Large \displaystyle (a+b)^2 = a^2 +b^2 + 2ab \)
\(\Large \displaystyle (a+b+c)^2 = a^2 +b^2 +c^2 + 2ab + 2ac + 2bc \)
となるように.
まず,簡単な
\(\Large \displaystyle \sum_{i=1}^m E \left[ R^2 \right] = \frac{1^2+2^2+.... +N^2}{N} = m \frac{(N+1)(2N+1)}{6} \)
となります(こちら,の公式).問題は,
\(\Large \displaystyle \sum_{i \neq j} E \left[ R_i R_j \right] \)
です.
まずは,
\(\Large \displaystyle (1+2+...+N)^2 = \left( \frac{N(N+1)}{2} \right)^2 = \frac{N^2 (N+1)^2}{4}\)
となることを確認しましょう.
\(\Large \displaystyle \sum_{i \neq j} E \left[ R_i R_j \right] \)
は,自分以外の組み合わせとなりますので,総数Nの場合,N(N-1)回となります(二乗の場合には,2abというようにまとめていますが).
したがって,
\(\Large \displaystyle (1+2+...+N)^2 = ( 1^2+2^2+.... +N^2) + \sum_{i \neq j}^{N(N-1)} E \left[ R_i R_j \right] \)
の関係となることがわかります.したがって,
\(\Large \displaystyle \frac{N(N+1)(2N+1)}{6} = \frac{N^2 (N+1)^2}{4} + \sum_{i \neq j}^{N(N-1)} E \left[ R_i R_j \right] \)
となるので,
\(\Large \displaystyle \sum_{i \neq j}^{N(N-1)} E \left[ R_i R_j \right] = \frac{N^2 (N+1)^2}{4} - \frac{N(N+1)(2N+1)}{6} \)
\(\Large \displaystyle = \frac{3N^2 (N+1)^2 - 2N(N+1)(2N+1)}{12} \)
\(\Large \displaystyle = N(N+1) \frac{3N (N+1) - 2(2N+1)}{12} \)
\(\Large \displaystyle = N(N+1) \frac{3N^2 - N - 2}{12} \)
\(\Large \displaystyle = N(N+1) \frac{(3N + 2)(N-1)}{12} \)
期待値は,総数がN(N+1)個なので,
\(\Large \displaystyle E \left[ \sum_{i \neq j} R_i R_j \right] = \frac{1}{N(N-1)} N(N+1) \frac{(3N + 2)(N-1)}{12} = \frac{(3N + 2)(N+1)}{12}\)
その結果を,m(m-1)回加算するので,
\(\Large \displaystyle \sum_{i \neq j}^m E \left[ R_i R_j \right] = m(m-1) \frac{(3N + 2)(N+1)}{12}\)
となります,まとめると,
\(\Large \displaystyle Var(R) = E(R^2) - \{ E(R) \}^2 \)
\(\Large \displaystyle = \sum_{i=1}^m E \left[ R^2 \right] + \sum_{i \neq j} E \left[ R_i R_j \right] - \left( m \frac{N+1}{2} \right)^2 \)
\(\Large \displaystyle = m \frac{(N+1)(2N+1)}{6} + m(m-1) \frac{(3N + 2)(N+1)}{12} - \left( m \frac{N+1}{2} \right)^2 \)
計算が複雑になるので,mの項目で分類してみます.
\(\Large \displaystyle m^2 : \frac{(3N + 2)(N+1)}{12} - \left( m \frac{N+1}{2} \right)^2 = \frac{N+1}{12} \left\{ (3N+2)-3(N+1) \right\} =-\frac{N+1}{12}\)
\(\Large \displaystyle m : \frac{(N+1)(2N+1)}{6} - \frac{(3N + 2)(N+1)}{12} = \frac{2(N+1)(2N+1) - (3N + 2)(N+1)}{12} \)
\(\Large \displaystyle = \frac{4 N^2 + 6N +2 - (3N^2 + 5N +2)}{12} = \frac{N^2 + N}{12} = \frac{N(N+1)}{12} \)
まとめると,
\(\Large \displaystyle - m^2 \frac{N+1}{12} + m \frac{N(N+1)}{12} = \frac{m(N+1)(N-m)}{12} =\frac{mn(N+1)}{12} =\frac{mn(m+n+1)}{12}\)
となります.