13 重回帰分析の仕組み(どの説明変数を取ればいいの?)

 この章では,重回帰分析において,どの偏回帰係数を採用するとよいか,それを決定するための流れについて説明することにします.

 10 重回帰(説明変数が複数個)の場合 で示したように,偏回帰係数は式10.11によって求めることができます.一般の観測には,必ず誤差が含まれているものと考えます.したがって,その誤差は観測のたびに異なる値をとります.そこで,求めた偏回帰係数も変数と考え,それを,a1,a2,…,ap の代わりに,,…, で表します.一方,実際に求めた値を代入した偏回帰係数を と表します.

 そして,決定係数も定まります. ところが,この決定係数がくせものなのです.ランダムな数の「説明変数」を増やしても,また,「説明変数」の種類に対し,データ数が少ない場合でも大きな値が出てしまいます.その結果,相関が高いと誤解が生じてしまいます.

Fig. 6.13.1
Fig. 6.13.2
Fig. 6.13.3

 では,本当に,回帰直線に寄与している偏回帰係数は,どのような基準で採用すればよいのでしょうか? その選択する方法を,これから紹介します.そこで,

真の回帰直線  
重回帰分析より求めた回帰直線 

とおくことにします.ここで,,…,は真の偏回帰係数(神のみぞ知る値です!), は実測値を重回帰分析に掛けて得られた偏回帰係数(実数値)です.したがって,真の回帰直線 y の各βi (i=1,2,…p)の中へ,計測した説明変数に対する値から得られた実数値を代入した式が となります.

 本当は,真の偏回帰係数 ,…, の中には,ある の値が 「0」 で に全く貢献していない偏回帰係数であるにもかかわらず, (i=1,2,…,p)がある実数値となって,誤差を伴って意味のない数値となって出てくる場合があります.そこで,重回帰分析を行い,求められた偏回帰係数の中から,本来, (i=1,2,…,p)の値が「0」であるべきものを除外する必要があります.すると,

の値がどのくらいであれば「0」とみなすせば良いのか

ということが問題となってきます.詳細は,15章で述べますが,その基準を,

とします.とてもややこしい式が出てきました.でも,余り気にしないでください.特に分母は,ややこしいですね.ここで, は偏差平方和・偏差積和の逆行列の対角要素を表しています.第2項目は,この観測値全体の分散(誤差)を表しています.この分母全体は,その全体の分散に に関する分散の割合だと考えて)が掛けられていますので,感覚的に, に関しての本来ある誤差の範囲だと考えてください.そして,分子は,実際に得られた値なので,上式はその割合を意味しています.

 したがって,この値がとても大きな値であれば「 (i=1,2,…,p)を0と見なすことはできないよ」,もし小さければ,「 は余り全体に寄与していないから,説明変数から取り除いておこう」と考えます.

 このことを,図で示しますと,Fig. 6.13.1Fig. 6.13.3となります.この基準をもとに,偏回帰係数の値が 0 (全体に影響をおよぼしているか), 0 でない(全体に影響をおよぼしていないか)判断します.そこで,12 重回帰分析の使用上の注意 で利用した性質3を例にとって,「どの説明変数がでたらめ?」か確かめることにしましょう.

Step 1 次に示すTable. 6.13.4のようなデータを得たことにします.年棒を目的変数 ,説明変数として年齢 x1,打点 x2 は本来のデータで x3 は,でたらめに増やした数値です.

Table 6.13.4 タイガースの年棒と成績
  選手 年棒 年齢x1 打点x2 3
1 金本 26000 37 125 4
2 赤星 13000 29 38 7
3 シーツ 20000 34 85 6
4 今岡 25000 31 147 0
5 鳥谷 2000 24 52 6
6 矢野 17000 37 71 4
7 藤本 4700 28 36 6
8 桧山 12000 36 40 3
9 スペンサー 7000 33 33 1
10 関本 3000 27 24 5

Step 2 そこで,説明変数と目的変数の間に, という関係が成り立つと仮定します.このとき,真の偏回帰係数 (説明変数が目的変数に寄与しているかどうかなので, は含まれていません) に関し検定(t-検定)を行います.この検定に関する詳細については,次の章で説明しますが,「とにかく流れだけで十分だ」と思う方は,読まなくてもかまいません. 

 では,最初に説明変数 x1 は目的変数に寄与しているのかどうか調べることにします.そこで,

と仮定します. 

Step 3 では,Table. 6.13.4 のデータを次のアプレットに入力してみましょう.目的変数を 10,説明変数を 3 としてデータを入力してみてください.

Step 4  そして,「共分散」というタブを押すと,Table 6.13.5 の左上部のように決定係数 0.935 と表示されます.また,「t-検定」のタブを押すと,左下部のようなグラフ(t分布)が表示されます.このt-分布を基準にし,両側の確率(面積)が 5% のところに測定された値(上記公式で求めた値に対するt-分布の値,t-値と呼びます)が入れば,「めったに起こらない(大変珍しい)ことが起こった」と判断し,β1=0 ではないと判断します.つまり,誤差として扱うことができない範囲を表示していることになります.言い換えますと,「y軸が β1=0 を表していますので,95% の範囲にt-値があるようなとき, β1 = 0 とみなしましょう」と判断します.

 左のグラフ(1)において,t-value[1] = 3.843 は t-値 を意味し,有意確率は 0.01 となりますので,

説明変数 x1 は β1≠0 である

と判断します.このことを,「Hは棄却される」といいます.

 同様に,他の説明変数 x2,x3 に関しても検定を行った結果が(2),(3)に表示されています.この結果,説明変数 x3 は,でたらめに付け加えた変数なので,当然,β3 = 0 と判定されることが理解できます.

 そこで,今度は,説明変数を「年齢」と「打点」の2つに絞って,重回帰分析を行ってみましょう.説明変数を「年齢」と「打点」の2つにしますと,両者とも有意と判定されます.したがって,決定係数の値は小さくなっているものの,β1,β2 はともに有意となり,β1 ≠ 0,β2 ≠ 0 となり,「年齢」と「打点」の偏回帰係数は目的変数に寄与していると判定されます.このように,「どの説明変数を選択するか」ということは,最終的には,決定係数を見ながら,理論的に納得がいくものを選択することになります.

Table 6.13.5