8 相関係数(の式の由来)

 多くのテキストでは,「相関係数を次のように定めます」と述べるところから始めていますが,どうしてそのように定めるのか,いつも不思議に思っていました.そこで,今までのべた「情報」をもとにして,「なぜ,そのように決められるのか」ということにしぼって,話を進めていきたいと思います.

 ここで,話を 5.回帰直線(1) で学習しました 決定係数 の話に戻します.5.回帰直線(1)では,

全情報 説明できている情報 失われた情報

を用いて,得られた観測値と回帰直線の評価を行なうことが可能となります.すなわち,

回帰直線によって,全情報のうちどれくらい説明することができているのか

その比を計算することにより評価することが可能です.そこで,その比のことを 決定係数 R2(decision coefficient)と呼び,

と定義しました.

 ここで,決定係数に着目し,少し式の変形を加えてみましょう.

 回帰直線は,

式8.1

と表現されます. は,回帰直線上の値なので,上式は,

式8.2

となります.回帰直線の係数がややこしいので,

式8.3

とおくと,

式8.4

となりますから,決定係数は,

式8.5

と表すことができます.そして,この平方根をとった値,

式8.6

相関係数 R(correlation coefficient) と呼びます.これで,決定係数と相関係数の関係を理解することができます.すなわち,

式8.7

という関係が成り立っています.よく,教科書では,相関係数が定義されている場合が多いですが,「どうして,相関係数をそのように定義しているのか」疑問に思っていたのですが,上のような関係を考えますと,そのように定義した理由がよく理解されます.

R > 0

R < 0

R 〜 0

 ここで,右のアプレットを見て下さい.5 回帰直線(1)と同じように扱います.このアプレットでは,決定係数だけではなく,相関係数も表示されています.10個の観測値を入力することにより,それに対する相関係数が分かります.いろいろな点を入力し,確かめてみることにしましょう.

 いかがでしょうか? いろいろと試行しているうちに,グラフと相関係数の関係に着目すると,右のような場合に分類することができます.

● R > 0 のとき x と y は 正の相関を持つ

● R < 0 のとき x と y は 負の相関を持つ

● 相関係数のめやす

 相関関係のめやすは一般的に以下のように表されます.

相関係数 相関関係
0.0〜±0.2 ほとんど相関がない
±0.2〜±0.4 やや相関がある
±0.4〜±0.7 相関がある
±0.7〜±0.9 強い相関がある
±0.9〜±1.0 きわめて強い相関がある

練習問題1 0 R2 1 であることを示せ(等号が成立するときはどのような時か). 

 以上で,根本的な回帰分析の解説を終えますが,次の主成分分析も含め,「射影(内積)」 というキーワードに着目し,統一した考え方でこれらの分析をまとめていきたいと考えています.

 すなわち,私たちは,分析の根底には,

最初に観測値を得て,その情報をなるべく損失(誤差)の無いように,視覚的に容易に捉えることのできる平面でそれらの情報を表現して行こう

という考え方にがあるのです.その点に注意して,統計的分析を見て行きますと,今までと異なった見方ができてきます.単純に,表計算ソフトを用いて数値だけを求めるのではなく,一度は,このような根本的なことを知った上で,統計分析を行なうことも必要であると考えます.

 もう一度,回帰直線の求め方の流れをまとめておくことにします.