持病があり数ヶ月に一度は病院で血液検査をするのだが、昨年は腫瘍マーカーの値が正常範囲を大きく逸脱したことから「部位はわからないけれど、おそらく癌でしょう」と医師に言われ、そこから様々な精密検査を行うことになった。結果的には「どこにも癌はない」ということになり、数ヶ月後の検査では腫瘍マーカーの値は正常値に戻ったので胸をなで下ろしたところである。
正規分布というデータの分布は「正規(ノーマル)」というからして、様々な標本の分布で発現する。特に高い精度を求められる製品の開発工場においてはその測定を幾度も行えば真値を中心に大小、均一な裾野(すその)の正規分布となることが常だ。
一方、医療系データを分析するという私の職務においては様々な患者さんのデータを集計して正規分布になったということはほとんど記憶がなく、大抵において大きい方の数字に長い裾野の分布になることが多い。例えば投与期間の分布であるとか、総投与量の分布、併用薬の数の分布などはボリュームゾーンの値からかなりかけ離れた人がいるのが普通だ。
また、個人的な経験からしても冒頭のようなことは幾度か経験しており、特に30代の時はアミラーゼの値が正常値の数百倍だ、などと言われ緊急入院したことを記憶している。おそらく臨床検査値の多くはこのように値が倍倍と大きくなるものが多く、およそ正規分布とはかけ離れている分布であることも多いのだろう。
標本を小さい方から順番にヒストグラム(件数を棒状に描写したもの)にしてみると、このように右側に裾野が長い分布となることも多く、それが「長い尻尾(しっぽ)」のようであることから最近はロングテールと呼称されることも増えたようである。
特に有名なのは「日本人の貯蓄」だろう。「2017年の二人以上世帯における平均貯蓄」*は1812万円ということだが、この値はどうも代表値というにはあまり日本の世帯を代表している感じにはならない。それはロングテール(桁違いの大金持ち)の人たちが平均値を引っ張っているからだ。統計局の報告書では平均値よりも低い貯蓄額の世帯が3分の2だという記載もある。このような場合は、小さい値から大きい値に順番に並べて、その真ん中の世帯の値、つまり中央値を代表値とした方が“代表”っぽくなる。貯蓄ナシの世帯も合わせるとその値は1016万円、平均値の1812万円よりはかなりダウンサイジングする。
この「ロングテール」という呼称は、実は科学の用語ではない。出所を調べてみたところ、どうやら2004年にアメリカで書かれた記事「The Long Tail」が“起源”のようであり、マーケティング分野の用語としてとらえられている。
従来の商品販売ではどうしてもお店の広さが影響してたくさんの商品を陳列することが出来ないため、小さい店舗ではボリュームゾーン、つまり“平均的な”商品しか陳列出来ないという限界があった。これに対しインターネットが普及した今、ECサイトと呼称される“バーチャル店舗”が作られるようになり、そこではあまり売れない色や大きさの商品も併せて無限大に多数の商品を陳列することができる。
売り上げ個数の大きい順番に左から並べていくと、多くの「あまり売れない商品」が右側に長い裾野を描くことになり、これが王道の「ロングテール」である。ボリュームゾーンの商品ではなく「あまり売り上げ数が大きくない、たくさんの商品」を販売する戦略は「ロングテール戦略」と呼ばれる。
それにしても昨年の腫瘍マーカーの異常値、あれは何だったのだろう。医師に聞いてもはっきりとはわからないらしく、「たまにそういうことがある」ということであった。ただ、このような異常値から入院、そして臨終を迎えるというルートで生涯を終えるという未来は突然死よりもむしろ“ノーマル”だろう。その際の心の持ちようの予行演習が出来たな、と思っている。
以上
https://www.stat.go.jp/data/sav/sokuhou/nen/pdf/h29_gai2.pdf
コメント