5 回帰直線(1)
今まで学習しましたことを,一般的な問題に拡張してみましょう.つまり,観測点が n 個ある場合を考えます.
そこで,最初に,説明するために必要な記号の表現を定義します.
|
|
(1) n 個の観測点を順に (x1,y1 ),(x2,y2 ),… ,(xn,yn ) とする. (2) 回帰直線上の点を とする.
(3) 上の3点の y に関する平均値を |
【回帰直線の一般的な求め方】
求め方は,点の個数は3個から n 個になったものの,2.回帰直線(具体例1)で解説した方法と同じです.すなわち,「失われた情報(lost information)を最小にする」直線の方程式を求めます.
求める直線の方程式(回帰直線)を y = a0 + a1x とする.このとき,
式5.1
とおき,この値が最小となる a0 ,a1 を求める.そこで,a0 ,a1 について微分すると,
式5.2
となる.
ここで,上記2つの式を連立させると,
となる.(要するに,a0 ,a1 について解けばよい!) よって,
式5.3
となる.一方,上式において左辺の係数と右辺は,
左辺の係数
右辺
となるので,式5.3へ代入すると,
式5.4
となります.よって,
式5.5
より,求める直線の方程式は,
式5.6
となります.
例題1 問題1において(3点 A(2,2), B(4,5), C(8,6) が与えられたとき),式5.5を用いて回帰直線を求めよ.
[解答] それぞれの値を代入すれば,簡単に求めることが可能です. 最初に,x,y の平均値を求めます.
よって,a1, a0 は,
と求められます.ゆえに,y = 0.607x+1.5.
この式を用いると,表計算ソフトなどを用いて簡単に回帰直線の方程式を求めることができます.
さて,この直線が求められることを考えたとき,私たちは先に定義した
全情報 説明できている情報 失われた情報
を用いて,得られた観測値と回帰直線の評価を行なうことが可能となります.すなわち,
回帰直線によって,全情報のうちどれくらい説明することができているのか
その比を計算することにより評価することが可能です.そこで,その比のことを 決定係数 R2(decision coefficient)と呼び,
式5.7
で表します.
左のグラフを見て下さい.x-y平面上で,10回マウスをクリックしてみて下さい.すると自動的に,10個の観測値が得られます.10この観測値が表示されると,自動的に回帰直線の方程式が表示されます.また,その下には,決定係数の値も表示される仕組みになっています.
与えられる観測値によって,回帰直線が吸収する情報量の大きさが異なっていることに気がつくことでしょう.つまり,吸収する割合(決定係数)が大きければ,回帰直線に近い点の集まりとなっていて,逆に,吸収する割合の大きさが小さければ,回帰直線より離れたところに観測値があります.