直線近似における決定係数の変化
決定係数の見積もり方として,両者とも,yの平均値からのずれを考慮に入れてますね.
となると..直線近似において傾き,a,が変わると同じばらつきを持つデータでも決定係数が変わってしまうのではないか... という不安が出てきました.
そこで,エクセルで調べてみましょう.
まず,二つのデータセットを用意します.
x | y1 | y2 |
1 | 2.2 | 2.2 |
2 | 2.8 | 3.8 |
3 | 4.2 | 6.2 |
4 | 4.8 | 7.8 |
5 | 6.2 | 10.2 |
6 | 6.8 | 11.8 |
7 | 8.2 | 14.2 |
8 | 8.8 | 15.8 |
9 | 10.2 | 18.2 |
これは,単に,y1=x+1,y2=2x+1,に,0.2,-0.2を交互に足したものです.
従って,二乗和は,0.22=0.04(実際には,近似では切片が1.0222となり,分散値は0.355555556となるが)となり両者とも一致します.
実際にエクセルで直線近似を行うと,R2の値が異なることがわかります.
これは,全体のばらつき(平均値に対しての)に対して,各データのばらつきの割合が異なることが理由と思われます.
さらに,切片をかえるとどうなるでしょう?.
これは,y=x+5, x+1,における直線近似です.
両者とも決定係数が一致することがわかります.
つまり,切片を変えてもyの平均値とyiとの差分は変化しないことによることからですね.
決定係数,なかなか簡単なようで,複雑な問題ですね.
さらに自由度の調整などややこしい問題もありますが,それはまた後日にしましょう.
ほかの関数,指数,などの近似はどうするか....それは,
ここ
をご覧ください,詳しく書いてあります.