1 標準偏差は誤差を表す

 少し,面白くないところになります。具体的な例題はこの後に出てきますので,その例題で何を行なうか見てからこの章を読んでも構いません。文章が多くなります。

 §2の中心極限定理で述べたように,母集団から生成される大きさ n の標本の平均は母集団がどのような分布であっても,正規分布となります(中心極限定理についてはここをクリック)。それを詳しく述べますと,

定理 xが平均μ,標準偏差σの正
規分布にしたがうならば,大きさnの
無作為標本に基づく標本平均 は,
均μ,標準偏差 の正規分布
したがう。
中心極限定理 xが平均μ,標準偏差σ
のあ
る分布にしたがうとき,大きさnの無
作為標本に基づく標本平均 は,nが
限に大きくなるとき,平均μ,標準
偏差
の正規分布に近づく。

 となります。このことは,中心極限定理というこうでシミュレーションしましたので,理解できていると思いますが,ここで,具体的にどのように利用するか,もっと分かりやすくしましょう。

 標本平均を得るための過程を図で表しますと,右の図のようになります。一般に母集団は,無限個の大きさを持っていて,その平均値は分かっていません。このとき,標本平均は,母集団が正規分布であっても,任意の分布であっても,取出す個数を大きくするとすべて標本の平均は,正規分布にしたがうということです。
 
 注意してほしいことは,正規分布にしたがうものは,平均であるということです。標本の分布が,正規分布になるのではありません。
 
 次に,分散という値は一体何者なのか,その説明をしましょう。余りなじみがない言葉ですね。これは,標準偏差を2乗した値(本来,逆で,標準偏差は分散の平方根)を意味しています。数学的にいうと,平均からどれだけ各データが離れているか,判定する量だと思って下さい。

 例えば,山の高さを測定するとき必ず誤差を伴い,富士山が3776mと言っても測定のたび毎に高さは異なっています。厳密に言えば,測定した平均値といえます。5cmの石が一つあっても変化します。その誤差は,各測定値と平均の差を表しますが,計算処理を行ない易くするため,その差の2乗和を標本数で割った値で表します。その値を分散と呼びます。


 
分散の平方根を標準偏差と呼びます。なかなか理解しにくいですが,標準偏差とは誤差
だと思って下さい。

 ここで一般に,母平均が分からないとき,それを標本平均を用いて推定する方法について考えてみましょう。

  中心極限定理により,母平均μ,母標準偏差σを持つ母集団から,大きさ n の無作為標本を抽出するとき,標本平均 は,n が大きいとき,近似的に正規分布 N(μ,) に従います。このとき, は近似的に標準正規分布 N(0,1) に従います。よって,任意の正の数 c に対し

 

が成り立ちます。正規分布は,平均を軸に左右対称なので,p(c)=2P(0Zc) となります。よって,

 と変形できます。ここで,既知の値は,標本平均値 ,母分散 σ,標本の大きさ n で,未知の値が母平均値 μ です。

 仮に,2p(c)=0.95 とするならば,p(c)=0.475 となるので,正規分布表より c の値は,c=1.96 なので,上式は,

  となります( 99% のときは,c=2.58とすれば良いですねっ!!)。この意味は,標本から得られた平均の左右 の範囲に,「本物の平均,母平均が潜む確率は,0.95% になりますよ」,と言うことを表しています。また,区間

を,母平均 μ に対する 信頼度 95% の信頼区間 といいます。

 右のアプレットは,上段に N(μ,σ2) の正規分布を持つ母集団(本来無限個ですが,大きさを 1600 としています)で,標準偏差は下段に表示されています。その母集団から,大きさ 50 の標本を 100 回取り出したときの信頼区間が描かれています。その信頼区間の中に,本当の平均が含まれていない回数を表示するようにしました。

 これで一段落。次の例題で,確かめてみましょう。

例題1 ある養鶏場で 400 個の卵を無作為に抽出して重さを計ったところ,平均値は 38.5 であった。出荷された卵の平均重量を,信頼度 95% で推定せよ。ただし,母標準偏差 σ の値は σ=3.1g であるとする。

[解答] 標本平均の値は =38.5,母標準偏差は σ=3.1,標本の大きさは n=400 なので,95% の信頼区間は,

すなわち [38.2, 38.8] ←38.2g以上 38.8g以下の中に,卵全体の平均が 95% の確率で入っていることを表しています。

 徐々に理解ができてきますので,あきらめないでいきましょう。次の章で,もう少し具体的な例を用いて説明しましょう。