直線近似における決定係数の変化

決定係数の見積もり方として,両者とも,yの平均値からのずれを考慮に入れてますね.
となると..直線近似において傾き,a,が変わると同じばらつきを持つデータでも決定係数が変わってしまうのではないか... という不安が出てきました.
そこで,エクセルで調べてみましょう.
まず,二つのデータセットを用意します.

x y1 y2
1 2.2 2.2
2 2.8 3.8
3 4.2 6.2
4 4.8 7.8
5 6.2 10.2
6 6.8 11.8
7 8.2 14.2
8 8.8 15.8
9 10.2 18.2

これは,単に,y1=x+1,y2=2x+1,に,0.2,-0.2を交互に足したものです.
従って,二乗和は,0.22=0.04(実際には,近似では切片が1.0222となり,分散値は0.355555556となるが)となり両者とも一致します.

実際にエクセルで直線近似を行うと,R2の値が異なることがわかります.
これは,全体のばらつき(平均値に対しての)に対して,各データのばらつきの割合が異なることが理由と思われます.

さらに,切片をかえるとどうなるでしょう?.

これは,y=x+5, x+1,における直線近似です.
両者とも決定係数が一致することがわかります.
つまり,切片を変えてもyの平均値とyiとの差分は変化しないことによることからですね.

決定係数,なかなか簡単なようで,複雑な問題ですね.
さらに自由度の調整などややこしい問題もありますが,それはまた後日にしましょう.

ほかの関数,指数,などの近似はどうするか....それは,
 ここ
をご覧ください,詳しく書いてあります.

l t