外れ値( outiler )

ブログ

メジャーリーグで活躍する大谷選手の活躍は「まさか」の連続である。投手と打者の両方で活躍するという「まさか」に限定されているとてっきり思い込んでいたので、投手をしない今年に関してはその「まさか」は無いものと信じ込んていた。それが50-50、つまりホームランと盗塁をどちらも50以上達成するという史上初の記録を打ち立てるなどとは、恐らく誰も想像すらしていなかったことだろう。

まさしく異次元の活躍であり、地球上の野球リーグではなくもう一段上のレベルの宇宙野球リーグ辺りでプレーするのが相応しいだろう。もちろん、そのようなリーグは無さそうであるが。

医療データの分析の仕事をしていると、医師に記入してもらうタイプの調査においては、患者さんの体重欄には53だとか84だとかいった値がズラリと集められる。医療者が必ず測定していないせいなのかどうかわからないのだが、50だとか60だとかキリのいい数字が多くなったりもするし、空欄のデータも多くなる。

一方、医薬品の中には体重の違いによって処方する量が違うというタイプのものがあり、業界人はこれを“パーキロ”などと呼称するのだが、要するに単位が「mg/kg」、つまり体重1kgあたりに処方する医薬品の量(mg)が決まるので、こうした医薬品の調査にあっては体重欄が空欄ということはほとんどない。まあ、当たり前といえば当たり前だろう。

中には3000とか5000といったデータが混ざることがあるのだが、患者さんの生年月日からしてこれは赤ちゃんであって、本来ならば3kg、5kgということで3や5が記入されるべきところ、医師が記入欄の単位に「kg」とあることに気付かないで「g(グラム)」で記入したのであろうことはほぼ明らかである。

この「ほぼ」というのが厄介であり、調査実施側がこれを勝手に3000→3とか、5000→5と修正するのはあたかも捏造のような行為であってご法度である。医師に問い合わせなおして修正してもらうより他はない。

困るのがこうした再調査が不調に終わったときだ。医師が異動されてもはや不在となったりして集計解析のタイミングに間に合わないと3000kgとか5000kgといった、およそ人類とは思えない数字でデータが固定されてしまったりもするのである。アホらしいと思うかもしれないが、それほどまでに調査実施者によるデータ修正は許されない行為なのである。

結果として3000とか5000といった値は「外れ値」として処理される。外れ値は統計学用語なのだが、明確な定義があるわけでなく「分布のボリュームゾーンから大きく外れる値」のことである。

さすがにこのデータをそのまま使って全体の平均体重を求めたりするのは有り得ないことであり、例えば「体重500kg以上の値を外しました」「体重1000kg以上の値は単位ミスであったとみなして1000で割り算をしました」といった特別処理を明記した形で集計することになる。それでも元データはそのままにしておくのがデータマネジメント(データ管理)の標準的対応だ。

こうした外れ値はおそらく単位違いだろうことがわかるのでよいのだが、実際に正しいデータかもしれない外れ値は厄介である。たとえば身長欄に200という数字があったり、生年月日から調査票記載日を引いて年齢を求めてみたら110歳であったりすることはこれまでにも幾度か経験している。前述した体重のような処理がはばかられるのは、メジャーリーグの大谷選手のような「まさか」は100%有り得ないとは言えないからだ。

大谷選手と度々、比較されるベーブルースのデータをみても、彼は1918年にホームラン11本で初めてホームラン王を獲得している。今とは違い、ホームランというのが稀な出来事であり、11本も打てばリーグNo.1だったという時代である。

ついで翌年は29本、翌々年の1920年は54本で3年連続ホームラン王となったのだが、この1920年においても、2位の選手のホームラン数は19本であったそうで、54という数字はまさに外れ値といえるだろう。

外れ値が悪いわけではない。大谷選手にはケガには気を付けたうえで、来年も再来年もどんどんホームランを打って、たくさん盗塁をして欲しいし、投手として復活して欲しい。

以上

コメント

タイトルとURLをコピーしました