4 分散とは?

 「簡潔に,そしてもっとも具体的に言えば,統計的方法の目的はデータの縮約 reduction of data である」とフィッシャーは述べています。

 データが持っている情報を「いかに損なうことなく,うまく引き出すことができるか」が統計であるように思います。



 そこで,そのデータの特徴を引き出す代表的な値,第1章で学習しました 代表値 をもう一度思い出して下さい(何度も繰り返しますので,一度に理解できなくてもかまいませんよ)。その代表値には,平均値,中央値,最頻値などがありましたね。その中で,よく用いられる平均として,算術平均がありました。それを紹介します。

 ある地域の1ヶ月間の1日ごとの交通事故の件数,また,1ヶ月ごとの年間にわたる病院に運ばれる緊急患者の件数のように,集団に属する個々のもののある特性を表す数量を 変量 と呼ぶ。このうち,気温のように連続的な値をとると考えられる変量を 連続変量 といい,患者件数のようにとびとびの値しかとらない変量を 離散変量 という。まず,離散変量についての平均を定義しましょう。



 上の平均値を,特に,算術平均と呼びます。しかし,この平均値だけだと困ったことが起こります。左の2つの図を見て下さい。

 2つのグラフは同じ平均値をもつにもかかわらず,全く構造が異なっています。上のグラフは,平均値からたがいに離れ,下のグラフは,平均値に近いところで集まっています。

 この2つの状況を区別してくれるのが,分散,または,標準偏差となっています。

 分散とは,それぞれのデータが平均値を中心として,どれだけ離れているか,その距離の2乗した値の平均となっています。散らばり具合を見る目安となっています。それにルートをつけたものが,標準偏差となっています。

 計算がし易いのは分散で,目で確かめ易いのが標準偏差だと考えて下さい。



 左のシミュレーションを見て下さい。数直線上の任意のところにマウスを持ってきて,クリックしてみて下さい。2回目から,平均値が登場します。


 いかがですか? いろいろと試行してみて下さい。これで気がつくことは,Fig.1 では,平均値の周りに変量がかたまっているのに対し,Fig.2 では,平均値から遠く離れています。


 このように,私たちは,データがどのくらい平均値の周りに散らばっているのか,知りたいときがあります。ここで,その散らばり具合の違いを表現するため,新しい量 分散 を考えることにします。

             Fig.1

             Fig.2



 また,分散 σ2 は変量 の平均値であるから,変量 x の測定単位が,たとえば cm であるとき,分散の単位は cm2 になってしまいますので,単位を一致させるために,分散の正の平方根 σ を取り,これを変量 x の標準偏差と言います。


 私は,「一体,分散や標準偏差ってのは,どのような意味があるのか?」とよく思っていました。しかし,徐々に勉強しているうちに,それらは,データを特徴づけるのにとても役に立つものであることに気が付いてきました。


 今のところ,それらを次のように考えておきましょう。

 要は,標準偏差とは,「平均値からの誤差を表している」と考えていて下さい。人生でいうと,浮き沈みというところでしょうか? この考えは,後の章にも登場します。この章で最も言いたいところです。覚えておくことにしましょう。