12 重回帰分析の使用上の注意

 もう一度,前章のタイガースとジャイアンツの年棒を例にとり,重回帰分析にどのような性質があるのか,また,どのような点に気をつければよいか,説明していくことにします.

Table 6.12.1 タイガースとジャイアンツの主な選手の年棒と成績
  選手 年棒 年齢 打点 年数 打率 試合 打数 安打 HR   選手 年棒 年齢 打点 年数 打率 試合 打数 安打 HR
1 金本 26000 37 125 14 327 146 559 183 40 1 二岡 14000 29 58 7 301 139 539 162 16
2 赤星 13000 29 38 5 316 145 601 190 1 2 安部 12000 26 86 5 300 130 476 143 26
3 シーツ 20000 34 85 3 289 137 560 162 19 3 清水 18000 32 50 10 300 127 490 147 15
4 今岡 25000 31 147 9 279 146 559 156 29 4 小久保 24000 34 87 12 281 142 524 147 34
5 鳥谷 2000 24 52 2 278 146 572 159 9 5 仁志 20000 34 45 10 269 128 484 130 11
6 矢野 17000 37 71 15 271 138 499 135 19 6 ローズ 54000 37 70 10 240 101 379 91 27
7 藤本 4700 28 36 5 249 119 357 89 1 7 高橋 34000 30 41 8 298 88 325 97 17
8 桧山 12000 36 40 14 270 119 302 84 8 8 清原 38000 38 52 20 212 96 321 68 22
9 スペンサー 7000 33 33 1 243 108 276 67 9 9 矢野 804 25 14 3 281 85 203 57 7
10 関本 3000 27 24 9 297 97 229 68 0 10 江藤 15500 35 4 17 172 81 93 16 0

 ここでも,前章で用いたアプリケーションを利用します.

性質1 決定係数は変数の単位に影響されない

 Table 6.12.2は,Table 6.12.1から「年棒」,「年齢」,[打点],「打率」に着目し,そのデータを抽出したものです.Table 6.12.2の「打率」はTable 6.12.3の「打率」の 1000 倍とされています.このように,単位を変化させたとき,偏回帰係数と決定係数にどのような影響を及ぼすのか,計算してみましょう.

 面倒ですが,一度,自分で入力してみましょう.

Table 6.12.2 タイガースの年棒と成績 Table 6.12.3 タイガースの年棒と成績
  選手 年棒 年齢 打点 打率   選手 年棒 年齢 打点 打率
1 金本 26000 37 125 327 1 金本 26000 37 125 0.327
2 赤星 13000 29 38 316 2 赤星 13000 29 38 0.316
3 シーツ 20000 34 85 289 3 シーツ 20000 34 85 0.289
4 今岡 25000 31 147 279 4 今岡 25000 31 147 0.279
5 鳥谷 2000 24 52 278 5 鳥谷 2000 24 52 0.278
6 矢野 17000 37 71 271 6 矢野 17000 37 71 0.271
7 藤本 4700 28 36 249 7 藤本 4700 28 36 0.249
8 桧山 12000 36 40 270 8 桧山 12000 36 40 0.270
9 スペンサー 7000 33 33 243 9 スペンサー 7000 33 33 0.243
10 関本 3000 27 24 297 10 関本 3000 27 24 0.297

 そうすると,以下の結果を得ます.

Table 6.12.4 タイガースの年棒と成績の重回帰分析結果 Table 6.12.5 タイガースの年棒と成績の重回帰分析結果

 これらは,全て10 重回帰(説明変数が複数個)の場合で学習した式を利用して計算しています.そこで,決定係数に注目してください.とても,都合が良いことに,打率の単位が変化しても決定係数は変化していません.ただ,x3 の偏回帰係数だけが変化しています.しかし,この値も良く似ている値で,Table 6.12.5の x3 の値は,Table 6.12.4の x3 の値を 1000 倍したものとなっていることに気がつきます(この例において,入力時若干の誤差が生じているため,完全一致になっていないのですみません).

 なぜ,単位が変化しても,決定係数が等しくなるのでしょうか? Table 6.12.3の独立変数を x1, x2, x3 とし,求める回帰直線を,

式12.1

と表.ここで,改めて,x'1 = x1, x'2 = x2, x'3 = x3/1000 とおくと,式12.1は,

式12.2

と表すことが可能です.よって,式12.2式と10 重回帰(説明変数が複数個)の場合で定義された式10.12

式12.3

より,決定係数は単位の変化に影響がないことが理解できます.

性質2 偏回帰係数の大きさの与える影響について

豆知識

 上の回帰直線を見ると,独立変数を x1, x2, x3 の単位あたりの変化に対し,偏回帰係数の大きさが大きければ大きいほど y への影響は大きいように思えます.しかし,y への影響はあくまで,a1x1, a2x2, a3x3 という積なので,偏回帰係数が大きいから影響が大きいとはいえません.そこで,偏回帰係数を見て y への貢献度が多くあるかを知るためには,もともとのデータを標準化しておきます.標準化されたデータは,平均 0 ,標準偏差 1 となります.このようなデータから得られた偏回帰係数を,標準偏回帰係数といいます.

 このようにしておくと,偏回帰係数の大きさで,どれだけ y に影響を及ぼしているのか知ることが可能です.しかし,標準偏回帰係数の値が大きいから y に対する変動が大きい,上手く説明していると言えますが,どれくらい重要であるか,全く基準が設定されていません.その基準を与えてくれるのが,次の章の t値 です.

性質3 説明変数を増やせば決定係数は増加する

 基本的に,各項目は独立変数となるようにとることに注意します.今回の例では,「年齢」と「打点」が独立であると仮定しています.このとき,適当に説明変数を加えたとき,決定係数はどのように変化していくのか見てみましょう.

 Table 6.12.6は前章でも扱った基本形です.その表に,適当な説明変数を1つ加えたものが表5,もう一つ適当な説明変数を加えたものが表6となっています.このとき,各表に対する決定係数を求めるため,一つずつ入力して求めることとします.

Table 6.12.6 タイガースの年棒と成績 Table 6.12.7 タイガースの年棒と成績 Table 6.12.8 タイガースの年棒と成績
  選手 年棒 年齢 打点   選手 年棒 年齢 打点 3   選手 年棒 年齢 打点 3 4
1 金本 26000 37 125 1 金本 26000 37 125 4 1 金本 26000 37 125 4 1
2 赤星 13000 29 38 2 赤星 13000 29 38 7 2 赤星 13000 29 38 7 2
3 シーツ 20000 34 85 3 シーツ 20000 34 85 6 3 シーツ 20000 34 85 6 3
4 今岡 25000 31 147 4 今岡 25000 31 147 0 4 今岡 25000 31 147 0 4
5 鳥谷 2000 24 52 5 鳥谷 2000 24 52 6 5 鳥谷 2000 24 52 6 5
6 矢野 17000 37 71 6 矢野 17000 37 71 4 6 矢野 17000 37 71 4 6
7 藤本 4700 28 36 7 藤本 4700 28 36 6 7 藤本 4700 28 36 6 7
8 桧山 12000 36 40 8 桧山 12000 36 40 3 8 桧山 12000 36 40 3 8
9 スペンサー 7000 33 33 9 スペンサー 7000 33 33 1 9 スペンサー 7000 33 33 1 9
10 関本 3000 27 24 10 関本 3000 27 24 5 10 関本 3000 27 24 5 10
Table 6.12.9 Table 6.12.6の計算結果
Table 6.12.10 Table 6.12.7の計算結果
Table 6.12.11 Table 6.12.7の計算結果

 計算結果は左のようになります.それぞれの決定係数に着目してください.

適当な数値を説明変数として加えても,決定係数は増加する

ので注意が必要です.

 また,

サンプル数が少ないのに説明変数が多い場合

にもこのような傾向があります.

 このように,決定係数の値だけを見て,「相関関係がある」とか「相関関係がない」とか議論することは非常に危険なことだと言えます.

性質4 ダミー変数にも利用することが可能

 今回は,レギュラー選手に的を絞ったデータを扱いましたが,代打で登場する選手もいます.このような時,レギュラー選手は「1」,代打選手は「0」として重回帰分析を行うことも可能です.

 この「1」と「0」は,別にどのような値であっても,識別できれば利用することが可能です.また,単位は性質1で述べたように,決定係数に影響を及ぼさないので気にせずに取り扱うことができます.

 このように,重回帰分析を行う上で注意しなければならないことは,単純に,

与えられたすべての説明変数に着目し,決定係数に着目してはならない

ということです.前述しましたように,標準偏回帰係数の大きさは,確かに,目的変数に大きく影響を及ぼすこととなりますが,その説明変数が重要であるかに関しましては,今のところ一切基準が設けられていません.したがって,

どの説明変数を採用すればよいのか

全く分かっていません.そこで,合理的な基準を設け,その基準によって重要であるのか,無いのか判断することとします.数学的な背景は,後述することとして,とにかく,次の章では,その手法について説明したいと思います.