ウィルコクソンの順位和検定ー期待値・分散値

 

ウィルコクソンの順位和検定の期待値の導出方法は,こちらこちら,などいろいろと解説がありますが,主に,中澤港先生のサイトを参考にさせていただきました,ありがとうございます.

二つのグループ,X,Yを考え,
 Xのデータ,x1, x2, ......xm
 Yのデータ,y1, y2, ......yn
とします.それぞれ,m, n,のデータ数があり,総数 N=m+n となります.

それぞれの順位の合計がいくつになるか?ですが,順位の総合計は,

\(\Large \displaystyle \sum_{i=1}^N i = \frac{N ( N+1)}{2}  \)

となるので,片方の合計がわかれば,もう片方の合計もわかります.

順位をRiと書くとXの順位の合計は,

\(\Large \displaystyle R_X = \sum_{i=1}^m R_i \)

となります.ここで,もしXとYに差がなければ(ランダムであれば)

 

・期待値

\(\Large \displaystyle E(R_X) = \sum_{i=1}^m E(R_i) \)

となります.ランダムであるので,Riの取る確率はどの順位でも等しいので,1~Nの平均値をm回足したものとなります.したがって,

\(\Large \displaystyle E(R_X) = \sum_{i=1}^m E(R_i) =m \frac{1+2+...+N}{N} = m \frac{N(N+1)}{2} \frac{1}{N} = m \frac{N+1}{2} \)

 

・分散値

これはちょっと複雑です,分散の公式から,

\(\Large \displaystyle Var(R) = E(R^2) - \{ E(R) \}^2 \)

となり,第二項は期待から計算できますが,第一項は,

\(\Large \displaystyle E(R^2) = E \left[ \left\{ \sum_{i=1}^m R_i \right\}^2 \right] = \sum_{i=1}^m E \left[ R^2 \right] + \sum_{i \neq j} E \left[ R_i R_j \right] \)

となります.Riはそれぞれ独立ではないので.例えば,

\(\Large \displaystyle (a+b)^2 = a^2 +b^2 + 2ab \)

\(\Large \displaystyle (a+b+c)^2 = a^2 +b^2 +c^2 + 2ab + 2ac + 2bc \)

となるように.

まず,簡単な

\(\Large \displaystyle \sum_{i=1}^m E \left[ R^2 \right] = \frac{1^2+2^2+.... +N^2}{N} = m \frac{(N+1)(2N+1)}{6} \)

となります(こちら,の公式).問題は,

\(\Large \displaystyle \sum_{i \neq j} E \left[ R_i R_j \right] \)

です.

まずは,

\(\Large \displaystyle (1+2+...+N)^2 = \left( \frac{N(N+1)}{2} \right)^2 = \frac{N^2 (N+1)^2}{4}\)

となることを確認しましょう.

\(\Large \displaystyle \sum_{i \neq j} E \left[ R_i R_j \right] \)

は,自分以外の組み合わせとなりますので,総数Nの場合,N(N-1)回となります(二乗の場合には,2abというようにまとめていますが).

したがって,

\(\Large \displaystyle (1+2+...+N)^2 = ( 1^2+2^2+.... +N^2) + \sum_{i \neq j}^{N(N-1)} E \left[ R_i R_j \right] \)

の関係となることがわかります.したがって,

\(\Large \displaystyle \frac{N(N+1)(2N+1)}{6} = \frac{N^2 (N+1)^2}{4} + \sum_{i \neq j}^{N(N-1)} E \left[ R_i R_j \right] \)

となるので,

\(\Large \displaystyle \sum_{i \neq j}^{N(N-1)} E \left[ R_i R_j \right] = \frac{N^2 (N+1)^2}{4} - \frac{N(N+1)(2N+1)}{6} \)

\(\Large \displaystyle = \frac{3N^2 (N+1)^2 - 2N(N+1)(2N+1)}{12} \)

\(\Large \displaystyle = N(N+1) \frac{3N (N+1) - 2(2N+1)}{12} \)

\(\Large \displaystyle = N(N+1) \frac{3N^2 - N - 2}{12} \)

\(\Large \displaystyle = N(N+1) \frac{(3N + 2)(N-1)}{12} \)

期待値は,総数がN(N+1)個なので,

\(\Large \displaystyle E \left[ \sum_{i \neq j} R_i R_j \right] = \frac{1}{N(N-1)} N(N+1) \frac{(3N + 2)(N-1)}{12} = \frac{(3N + 2)(N+1)}{12}\)

その結果を,m(m-1)回加算するので,

\(\Large \displaystyle \sum_{i \neq j}^m E \left[ R_i R_j \right] = m(m-1) \frac{(3N + 2)(N+1)}{12}\)

となります,まとめると,

\(\Large \displaystyle Var(R) = E(R^2) - \{ E(R) \}^2 \)

\(\Large \displaystyle = \sum_{i=1}^m E \left[ R^2 \right] + \sum_{i \neq j} E \left[ R_i R_j \right] - \left( m \frac{N+1}{2} \right)^2 \)

\(\Large \displaystyle = m \frac{(N+1)(2N+1)}{6} + m(m-1) \frac{(3N + 2)(N+1)}{12} - \left( m \frac{N+1}{2} \right)^2 \)

計算が複雑になるので,mの項目で分類してみます.

\(\Large \displaystyle m^2 : \frac{(3N + 2)(N+1)}{12} - \left( m \frac{N+1}{2} \right)^2 = \frac{N+1}{12} \left\{ (3N+2)-3(N+1) \right\} =-\frac{N+1}{12}\)

\(\Large \displaystyle m : \frac{(N+1)(2N+1)}{6} - \frac{(3N + 2)(N+1)}{12} = \frac{2(N+1)(2N+1) - (3N + 2)(N+1)}{12} \)

\(\Large \displaystyle = \frac{4 N^2 + 6N +2 - (3N^2 + 5N +2)}{12} = \frac{N^2 + N}{12} = \frac{N(N+1)}{12} \)

まとめると,

\(\Large \displaystyle - m^2 \frac{N+1}{12} + m \frac{N(N+1)}{12} = \frac{m(N+1)(N-m)}{12} =\frac{mn(N+1)}{12} =\frac{mn(m+n+1)}{12}\)

となります.

 

 

 

lt