2 もう少し「主成分分析って何?」

 もう少し,主成分分析の特徴を述べます.

表 2.1
No 国語 数学 合計
1 45 55 100
2 35 90 125
3 15 80 95
4 45 90 135
5 20 45 65
6 55 85 140
7 5 95 100
8 65 35 100
9 25 100 125
10 90 25 115
平均 40.0 70.0  

  表2.1 は,10人の国語と数学の得点結果です.これを見て,あなたは,どのように分析しますか?

 たいていの場合,個人の合計点を求めるか,平均を求め,並べ替えを行い,グラフを書きます.そして,「No.6のは,総合的に良くできる」,「No.5は,両科目とも苦手である」,「No.10 は国語が得意」,「No.7は数学が得意」などと判断します.

 しかし,国語の平均は数学の平均と比較し極端に低いことに注意しなければなりません.つまり,このやり方は,国語の45点と数学の45点を同じ努力点とみなしているからです.やはり,教育上,この点は区別してあげたいですね.

 また,この方法では,個人の教科ごとの特徴を表すことが可能ですが,2つの教科をあわせた特徴を表現することができていません.もし,この2教科に英語が加わり3教科では,もはや,総合的に判断することは難しくなってしまいます.これらの情報をあわせて表現する方法はないでしょうか?

ミックスジュース

 その一つの方法が 主成分分析 なのです.

 あるテレビ番組で,「関東の喫茶店では,ミックスジュースがない」と言っていました.関西では,超人気商品なのですが,自宅でもミキサーさえあれば簡単にできますので,主成分分析の概略を述べる前にその方法を先に述べます.

 バナナ1本と缶みかん一缶を用意し,ミキサーに入れ,そこへお好みにあわせミルクと氷(やや多め)を入れて,かきまわせば出来上がります.結構,夏の暑い日はこれがお勧めです.

 この表現をもう少し正確に言うと,バナナの量とみかんの量は「本」と「缶」で比較することができませんので,重さで統一します.その割合は,最高の味が引き出せるものにしなければなりません(先に言った割合は,あくまで私が良いと思った量です).主成分分析では,人によって異なってはいけませんので,もっと,普遍的な手法が要求されます.そして,その割合が決まれば,混ぜ合わせます.この流れを,主成分分析の手法に対応させますと,以下のようになります.

手法 単位の統一 割合の検討 完成!
ミックスジュース    バナナ,みかん 最高の味を引き出す割合の検討,混ぜ合わせ ミックスジュースの出来上がり!
主成分分析    標準化 分散・共分散行列,固有値,固有ベクトル(後述します) 主成分分析のグラフの出来上がり

 このようにしてみますと,主成分分析は,ミックスジュース流に言うと,

いかに食材の持つ性質を上手く引き出し,混ぜ合わせることができるか

と言うことになります.

 しかし,「どのようにすれば良いのか」,「よく利用しているが,途中の計算が全く見えていない」と言う方が多いと思います.そこで,途中の計算も分かるようなアプレットを作成しましたので,表2.1のデータを利用して,主成分分析を行ってみましょう.

表2.2
No 国語 数学 合計

1 45 55 100
2 35 90 125
3 15 80 95
4 45 90 135
5 20 45 65
6 55 85 140
7 5 95 100
8 65 35 100
9 25 100 125
10 90 25 115

Step.1 上のテキストボックスに,データを入力します.それぞれの値を入力した後,必ず,リターンキーを押してくださいね.

 行数 → 10, 列数 → 2

 そして,右の表を見ながら,データを入力して下さい.もし,途中で,入力ミスをしても,適当な数値(0でも,適当な数値で良い)を入力し,最後まで入力してください.そして,編集する場合は,となりのテキストボックスに移り,そこで,訂正を加えてください.

Step.2 次にデータを標準化します.この方法は良く知られた手法で,以下のように変換すると,

平均 0,標準偏差 1 となります.ここで,m は元データの平均,σは元データの標準偏差 (ここでは,偏差平方和を数 10 で割っています) を表しています.すると,表2.3右のような結果となります.

表 2.3 (右は入力結果です)

 標準化されたデータ表の上には,平均と標準偏差が表示されています.これで,国語と数学の得点が標準化されました.この標準化されたデータを利用して,どの教科をどれだけ加えると良いか考えます.

Step.3 その割合を決定するため,分散・共分散行列を求め,固有値と固有ベクトルを求めます.ここは,ボタンを押すだけです.フレームは左上に,重なって表示されますので,適当に移動させてください.

表 2.4
(下の図は結果です) (下の図は結果です)

 分散・共分散行列を用いて,固有値・固有ベクトルが求まります(これらの意味については,後述します).固有値で一番大きな値を第 1 主成分,次に大きな値を第 2 主成分と呼んでいきます.固有ベクトルの大きさは 1 になっています.

Step.4 (このグラフを表示するには,必ず,固有値・固有ベクトルのボタンを押してください!!) 求めた固有ベクトルの第 1 主成分を x 座標,第 2 主成分を y 座標にして固有ベクトルをプロットします.すると,[1]の座標は (0.7071068, 0.7071068), [2]の座標は (-0.7071068, 0.7071068) なので,

表 2.5 (右の図は結果です)

となります.このとき,第1主成分の固有値は第2主成分の固有値に比べ,かなり大きな値をとっています.このような時,x 軸に情報が吸収されていると考えます.そこで,[1],[2]の x 座標に着目しますと,符号が正反対となっていますので,x 軸の正の方向は言語能力負の方向は数理能力を表していると言えます.

また,第2主成分は,国語と数学で共に正で同じ位置を占めているので,y 軸の正の方向は総合能力が優れ負の方向は劣っていると言えます.

Step.5 具体的に,与えられた割合(固有ベクトル)で,標準化されたデータをプロットされ,

表 2.6 (右の図は結果です)

となります.表2.6 において,x 軸より上の部分は総合能力に優れていて,x 軸の正の方向は言語能力,負の方向は数理能力に優れた点がプロットされていると考えられます.

 では,この教科にもう一つ英語を加えた場合どのようになるのか,見てみることにしましょう.データを打ち込む作業が,少し手間ですが,方法は同じです.自分で行いながら,その流れをつかみましょう.