全体のばらつきからの決定係数の求め方

再び,同じグラフを表示します.

yiのばらつき加減は,yiの
 全体のばらつき = 平均値からのばらつき + 回帰直線からのばらつき

一般的には,

 全変動 = 回帰変動 + 残差変動

の和になると考えましょう.その証明は,ここ,で.
なので,
 (平均値からのばらつき)/(全体のばらつき)=1-(回帰直線からのばらつき)/(全体のばらつき)
が1に近づくほど回帰直線によく一致することとなります.

全体のばらつきは, 各データから平均値を引いたものとなりますので,

\( \Large \displaystyle \sum_{i=1}^n (y_i - \overline{y} )^2 \)

となります.従って,

\( \Large \displaystyle =\sum_{i=1}^n (\hat{y_i} + e_i - \overline{y} )^2 \)

\( \Large \displaystyle =\sum_{i=1}^n \{(\hat{y_i} - \overline{y}) + e_i \}^2 \)

\( \Large \displaystyle =\sum_{i=1}^n \{(\hat{y_i} - \overline{y})^2 +2 e_i (\hat{y_i} - \overline{y}) + e_i^2 \} \)

となります.
ここで,第二項は0となります(計算は,ここ,をごらんください).
従って,

\( \Large \displaystyle \sum_{i=1}^n (y_i - \overline{y} )^2 =\sum_{i=1}^n (\hat{y_i} - \overline{y})^2 + \displaystyle \sum_{i=1}^n e_i^2 \)

となり,

 左辺:全体のばらつき(全変動
 右辺第一項:平均値からのばらつき (回帰変動
 右辺第二項:回帰直線からのばらつき (残差変動
となります.

従って,

\( \Large \begin{eqnarray} R^2 &=& \frac{\displaystyle \sum_{i=1}^n (\hat{y_i} - \overline{y})^2 }{\displaystyle \sum_{i=1}^n (y_i - \overline{y} )^2} \\
&=& 1 - \frac{ \displaystyle \sum_{i=1}^n e_i^2 }{\displaystyle \sum_{i=1}^n (y_i - \overline{y} )^2} \\
\end{eqnarray} \)

を求めることができます.

ここで,回帰直線からのばらつき (残差変動)は,
 回帰直線と実際の値との差
となります,回帰直線を,

\( \Large f_i = f(x_i) = a x_i + b \)

と書き表すと,

\( \Large R^2 = 1 - \frac{ \displaystyle \sum_{i=1}^n (y_i - f_i)^2 }{\displaystyle \sum_{i=1}^n (y_i - \overline{y} )^2} \)

となります.

次に,共分散からの決定係数の見積もりを考えましょう.

l t r