要約統計量( summary statistic )

ブログ

私の故郷は新潟県なのだが、この新潟県、「何地方?」という質問がネット上でバズったらしく、「新潟県民ですら知らない」ということが多いのだそうだ。

もちろん「北陸地方ですか?」ならば「はい、そうです」だし、「関東甲信越地方ですか?」でもやはり「はい、そうです」となる。問題は「東北地方ですか、それとも中部地方ですか?」という問いに対しての正解を「新潟県民ですら知らない」ということのようだ。

住んでいた私の肌感覚では東北地方の文化に近いのだが、東北地方なのか中部地方なのかという問いに対しては中部地方とする方が“多勢”らしい。“多勢”としたのはどうも「公式な区分は特にない」というのが新潟県庁の公式見解らしいからだ。要するに、公式な区分が無くても特に困ることはないということなのだろう。誰も困らない。

統計学、といえばゴリゴリのサイエンス分野であり、数字で物事を語るのでさぞ様々な定義もハッキリしているのだろうと思っていたのだが、どうもそうでもないところがあってそれが代表値(represeitative value)だ。

代表値に属するものとしてどうやら平均値、中央値、最頻値は確実にメンバーらしいのだが、最大値や最小値となるとこれを代表値に入れる/入れないの流儀がわかれてくる。四分位点なんかもそうだ。分散や標準偏差となると、これらも確かに集団を代表する値ではあるのだが、集団の散らばり具合を表す指標として別途「散布度」という言葉もあるらしく(私はこの用語を使ったことがないのだが)、結果として(?)代表値の仲間ではないとするのが多勢なようだ。

「統計学ともあろう学問が、そのように曖昧でどうする」というお叱りも聞こえてきそうだが、新潟県の区分よろしく、まあ特に誰も困らないから、というのがこの曖昧さをそのままにしてある背景事情なのだろう。

その点、こうした統計的な値は総じて「要約統計量(summary statistic)」という言葉があるので、普段の会話の中ではこの要約統計量という言葉を使っておけば、平均値も中央値も標準偏差やレンジ、突度などもみんな仲間に入るので便利だ。

私はどちらかというと基本統計量(basic statistics)という言葉の方をよく使うのだが、「basic」とすると、ちょっとマニアックな第二四分位点だとか歪度、突度とかは入らない雰囲気になる。やはりこの辺りも明確な定義がされていなくても困る人がいない、自然語の類といったところだろうか。

まあ、最近は多様性の尊重とか社会的包摂の大切さが叫ばれてもいるので、誰も困らないならばかならずしもスパッと線を引かなければならないということもあるまい。

ところで、三重県というのは東海地方なのだろうか、それとも近畿地方なのだろうか。

以上

コメント

タイトルとURLをコピーしました