14 回帰分析の流れのおさらい

 最初に,回帰直線を求めていく流れのおさらいをお話しし,そして,考え方について述べます.

 そこで,独立変数が1つの場合の例を取り上げます.

 今,阪神の10人の年棒と打点のデータが得られたとします.このとき,年棒( y:目的変数 )と打点( x:説明変数 )の間にどのような関係があるのか,できたら打点が得られれば,年棒も計算できるようにしたいですね.

Step.1 y と x の間に,

式14.1

という関係が成り立つことを仮定します.

Step.2 そして,式14.1Table 6.14.1の観測値を代入します.すると,

Table 6.14.1
  選手 年棒 打点
1 金本 26000 125
2 赤星 13000 38
3 シーツ 20000 85
4 今岡 25000 147
5 鳥谷 2000 52
6 矢野 17000 71
7 藤本 4700 36
8 桧山 12000 40
9 スペンサー 7000 33
10 関本 3000 24

式14.2が得られます.

式14.2

Step.3 これを行列で表現すると,

式14.3

となります.

Step.4 とにかく回帰係数 β0 と β1 を求めればよいのですから,少しテクニカルなのですが 式14.3 の両辺に 式14.3 の第一項の転置行列を掛けます.

式14.4

Step.5 これを計算しますと,

式14.5

 となります.

Step.6 式14.の両辺に逆行列を掛けると,

式14.6

が求まります.よって,回帰直線 y = 883.8 + 185.66 x が求まります.上の,アプレットで確かめてみてください.決定係数は R2=0.774 となり,相関はありそうです.この方法を単回帰分析と呼びます.

 上の例では,説明変数が1つ(打点)だけでしたが,複数の場合でも同じように求めることが可能です.それを,重回帰分析と呼びます.実際に,説明変数を上の例に増やしてみましょう.

Step.7

 上の説明変数は,打点だけでしたが,Table 6.14.2のように,年齢,試合という項目を追加してみることにします.上と同じように計算すればよいわけですが,逆行列を求めることなど,計算が大変です.そこで,下のアプレットを利用して計算することにします.観測値の個数は10個,説明変数は3とします.

 
Table 6.14.2
  選手 年棒 打点 年齢 試合
1 金本 26000 125 37 146
2 赤星 13000 38 29 145
3 シーツ 20000 85 34 137
4 今岡 25000 147 31 146
5 鳥谷 2000 52 24 146
6 矢野 17000 71 37 138
7 藤本 4700 36 28 119
8 桧山 12000 40 36 119
9 スペンサー 7000 33 33 108
10 関本 3000 24 27 97
Step.8 

  Table 6.14.2の観測値を,右のアプレットへ代入すると,回帰直線

y = -31554+130x1+844x2+72x3
が得られます.このときの決定係数は,
R2 = 0.927
となります.しかし,3つの変数がどれだけ寄与しているのか,調べる必要があります.

Step.9 

  上のアプレットの t-検定 のタブを押して調べてみます.
「打点」有意確率 = 0.01
「年齢」有意確率 = 0.013
「試合」有意確率 = 0.365

となります.このことより,「試合」の有意確率より,その偏回帰係数は意味を持たないことを意味しています.

Step.10 

  では,「年棒」,「打点」と「年齢」に関し,上のアプレットを利用して重回帰分析を行ってみましょう.すると,
y = -22172+798x1+152x2

が得られます.

 このときの決定係数は,R2 = 0.916 となります.また,t-検定の結果は,

「打点」有意確率 = 0.012 「年齢」有意確率 = 0.002

となり,「年棒」は,「打点」および「年齢」と相関があることがいえます.