正規分布( normal distribution )

ブログ

毎年1回、人間ドックに行くのだが、目やら耳やら内臓やら、色んなところの測定値で「アラート」(悪い数値だとか要再検査だとか)が表示されてうんざりしてしまう。それでもどうにか生きているのだからありがたいというべきなのかもしれない。

測定器も色々と機械化が進んでおり、身長と体重は1つの測定器で一緒に測定するのがどうやらスタンダードになったようだ。体重計機能付きのボードに両足を乗せると同時に上からバーが降りてきて頭に触れた瞬間に身長が自動測定される。人間が目で目盛りをみて測定していた時代よりもはるかに精度が良くなっているような気がする。

私の身長はどうやら167cmあるかどうか微妙なところに“真値”があるらしく、2年に1度は167cmを超えるのだが、今年は167cmに届かず、これで2年連続167cm未満となった。加齢とともにひょっとしたら背が低くなったのかもしれない。トホホ。

正規分布という言葉を聞いたことが無い人はほぼ皆無だろうが、では正規分布とは何かという定義について正確に話が出来る人もまた皆無とは言わないがかなり人数が少ないという、ちょっと不思議な存在といえるかもしれない。私も実はよくわかっていない一人だ。

ウィキペディアをみると、「平均値と中央値と最頻値が同じ値」というのと、「左右に全く同じすそのが延びる」分布といった説明があり、まあそれはそれとして正しいのだが、このような特徴の分布で正規分布ではないものもたくさんあるので、せいぜいが必要条件を説明しているといったところだろう。

ちゃんとした理解をしていないにも関わらず、統計解析のお仕事をしている私としては様々に正規分布のお世話になっている。何より得られたデータの“出所”が正規分布しているという情報があると、有意差検定等々、極めてシャープにデータ特性の分析が出来る。

それどころか、データの“出所”がどんな分布をしているのかわからなくても、例えばそこから5つの標本を取り出し平均値を求めてからその標本を元に戻す。これを100回、1000回、10000回と繰り返してみるとその平均値は正規分布するのだからすごい。この性質は中心極限定理という名前がついているのだが、私にはどうして“出所”の分布がめちゃめちゃでも、得られる平均値の分布が何故に正規分布するのかよくわからない。

身長の測定もそうだ。人間が目で目盛りをみていた時代も、今のように機械が自動的に測定する時代であっても精度のレベルは違えども、そのような身長測定を100回、1000回、10000回と繰り返すと、これまた不思議、測定のブレ、誤差の様が正規分布になる。

正規分布を“発見”したのは天才数学者ガウスなので、正規分布はガウス分布とも呼ばれる。彼の出身大学であるゲッティンゲン大学の学長さんが「わが大学には2種類の生徒がいる。一方はガウスで、もう一方はそれ以外の学生だ」と言ったとか何だとか。

カッコ良い。言われてみたい。ガウス自身は人類の正規分布でいうところの中心とはおよそほど遠く、人類としてはかなりの異質、外れ値だったに違いない。

以上

コメント

タイトルとURLをコピーしました