二つの方法は一致するか?-01
まずは,ばらつきから求めた決定係数を考えます.
これを書き直すと,
\( \Large \begin{eqnarray} R^2 &=& \frac{\displaystyle \sum_{i=1}^n (\hat{y_i} - \overline{y})^2 }{\displaystyle \sum_{i=1}^n (y_i - \overline{y} )^2} \\
&=& \frac{ S_{\hat{y}}^2 }{S_y^2} \\
\end{eqnarray} \)
と簡単に書くことができます,便利ですねえ...
また,共分散から求めた決定係数は,
\( \Large \displaystyle R_{xy}^2 = \frac{S_{xy}^2}{S_x^2 \cdot S_y^2} \)
となるので,両者が等しくなるためには,
\( \Large \displaystyle \frac{S_{xy}^2}{S_x^2 \cdot S_y^2} =\frac{ S_{\hat{y}}^2 }{S_y^2} \)
\( \Large \displaystyle \frac{S_{xy}^2}{S_x^2 } = S_{\hat{y}}^2 \)
が成り立てばいいことになります.
まずは,右辺を書き直してみましょう.
\( \Large \begin{eqnarray} \displaystyle S_{\hat{y}}^2 &=& \frac{ \displaystyle \sum_{i=1}^n (\hat{y_i} - \overline{y} )^2}{n} \\
&=&
\frac{ 1}{n} \displaystyle \sum_{i=1}^n (a x_i + b - \overline{y} )^2\\
&=&
\frac{ 1}{n} \displaystyle \sum_{i=1}^n (\frac{S_{xy}}{S_x^2} x_i + \overline{y}- \frac{S_{xy}}{S_x^2} \overline{x} - \overline{y} )^2\\
\end{eqnarray} \)
この最後の式の変換は,ここ,をご覧ください.
さらに続けると,
\( \Large \begin{eqnarray}
&=&
\frac{S_{xy}}{S_x^2} \frac{ 1}{n} \displaystyle \sum_{i=1}^n ( x_i - \overline{x} )^2 \\
&=&
\frac{S_{xy}}{S_x^4} S_x^2 \\
&=&
\frac{S_{xy}}{S_x^2} \\
\end{eqnarray} \)
となり,無事,両者が一致することとなります.
つまり,ばらつきから求めた決定係数と共分散から求めた決定係数は一致する,と言うことになります.
ただし....直線近似のみ適用できることになります.もう一度見直してみると,
全体のばらつきからの見積もり
\( \Large R^2 = \frac{\displaystyle \sum_{i=1}^n (\hat{y_i} - \overline{y})^2 }{\displaystyle \sum_{i=1}^n (y_i - \overline{y} )^2} = 1-\frac{\displaystyle \sum_{i=1}^n e_i^2 }{\displaystyle \sum_{i=1}^n (y_i - \overline{y} )^2} \)
共分散の見積もり
\( \Large \displaystyle R_{xy}^2 = \frac{S_{xy}^2}{S_x^2 \cdot S_y^2} \)
となり,
全体のばらつきからの見積もり : 近似曲線を用いた計算
であるのに対して,共分散からの見積もりはあくまで,平均値からのずれ,の計算に過ぎず,近似曲線に依っていません.
さらに,式の変換(詳しくは,ここ,参照)においては,a,bの変換を直線近似に従って計算しており,ほかの近似曲線,指数,べき数などでは成り立たないのです.
つまり,決定係数が二つの方法で一致するのはあくまで直線近似によるものであることがわかります.