5.チェビシェフの不等式

 今までの項目の中で,大切なキーワードをまとめますと,面積,分布,平均,分散(標準偏差)となります。

 ここで,一体,それらの間にどのような関係があるか見てみましょう。

 前章で述べましたように,分散(標準偏差)は各データが,平均からどれだけ離れているか,誤差の基準を与えるものだということを述べました。分布と面積の関係が必要です。



 今,確率密度関数を y=f(x) (0 x ∞) とし,平均を ,標準偏差を σ とします。グラフで見ますと,右のようになります。

 これらの情報から,皆さんが考えられることをすべてあげてみて下さい。どうでしょうか?

であることは,基礎編で学習しました。他,どのようなことが挙げられるでしょう。実は,

が成り立ちます。これは,どのような分布(離散でも連続)でも成立するところが特徴です。

 証明する前に,意味を考えてみましょう。P(|Xーμ|≧kσ) とは,X の値が平均 μ との隔たりが,標準偏差 σ の k 倍以上になる確率,すなわち,上の図において水色のところの面積は,1/k2 以下になるということを意味します。ここで,離散的な分布について証明しておきますが,連続的な分布でも同様に証明することができます。

[証明]


 
 次の章で説明します正規分布において,本当に成り立っているか,左のシュミレーションで確かめてみることにしましょう。

 数直線の上にある,指を右へドラッグすることにより,標準偏差の係数 k の値を変化させることができます。たとえば,k=1 とすると,P(|X-μ|σ)=0.3125 という意味は,紫色の部分の面積が 0.3125 であるということですから,1/k2=1 であるから,不等式は成り立っていることがいえます。

 k をいろいろと動かすことにより,すべての k で成り立っていることが分かります。ここで,0k1 では,明らかに成り立っているので,実際には役に立ちません。

 ここで,チェビシェフの不等式の両辺に,P(|Xーμ|kσ) を加えると,

となります。左辺は 1 なので,

となりますので,整理しますと,

となります。この式は,たとえば,平均より標準偏差の2倍以内に入る確率は,1-(1/2)2=0.75 となることを意味します。特に,ε=kσ と置きますと,

となります。

 このように,分散は一つの目安となります。次に,先に出てきました正規分布について説明を行ない,その後,このチェビシェフの不等式に基づいた,大数の法則を紹介することにします。