ネットを通じた求人が当たり前のことになって久しい。気軽にバイトが出来るといったメリットもある一方で、昨今では強盗やオレオレ詐欺の手助け作業員として闇バイトなる求人も利用されているらしく、良いことばかりでもなさそうだ。
仮に横軸に「スマホの普及率」、縦軸に「闇バイトによる犯罪検挙数」をとった散布図をとったら、キレイな直線関係ができることだろう。スマホの普及はおよそ闇バイト増加の一助になっているだろうことが容易に想像できるからだ。
「平均寿命」と「高齢者による交通事故」もまた同じような関係性がありそうで、こちらも散布図を作るとキレイな直線が描かれそうだ。「経済成長率」と「二酸化炭素の排出量」なんかも同じだろう。
このように、直線関係が描かれる様のことを「相関がある」といって、算術上は相関係数にてその関連の強さを定量値として示すことも出来る。しかしながらこの相関というのは因果関係とは似て非なるものであり、どうにもこの点が社会全体として理解浸透されていない様子が伺える。
「スマホの普及率」「闇バイトによる犯罪検挙数」「平均寿命」「高齢者による交通事故」「経済成長率」「二酸化炭素の排出量」。これら全て時代の推移、時間の推移によって増えてきたものだ。こうした数字のどれを横軸に、どれを縦軸にとってもその散布図は直線を描く。例えば「スマホの普及率」と「平均寿命」でも直線が描かれる。
この相関関係というのがクセ者である。実は何ら関係がなくても時代の推移によって増えたもの同士は全て相関関係があるからだ。たとえば「フィギュアスケートのファン数」、あるいは「女性の芸人数」や「腕組みをするラーメン屋の店主の写真数」などなど、時間とともに増えたもの同士は全て相関するのだ。
前述した「スマホの普及率」と「平均寿命」の散布図を見たとき、ひょっとしたら私たちは何らかの理由をつけて「スマホが普及すると、これこれがこうだからして、それで平均寿命が延びるのでは」などといった怪しげな仮説を思い描いたりはしないだろうか。
スマホと平均寿命くらいならばどうにか屁理屈は付けれるとしても、さすがに「女性の芸人数」と「二酸化炭素の排出量」なんて組み合わせにしたら、たとえ散布図が直線関係を描いたとしても屁理屈はちょっと思いつかないだろう。
これは何が起きているのだろうかといえば、「時間」といういわば“真犯人”がいて、あたかも無関係な両者をまるで強い関係性があるかのように“演出”してしまっているというわけである。ここでいう「時間」のことを疫学分野では交絡(こうらく)という。
交絡の代表的な説明に使われる例は、少し時代遅れ感があるが「コーヒーをよく飲む人は肺癌になる」というものだ。数十年ほど前は喫茶店といえばタバコを吸う人が上客としてよく立ち寄る場所であったこともあり、コーヒーをよく飲む人はタバコを吸う人の割合がかなり多かったことからこの例が使われていたと思われる。
つまり、コーヒーを飲むことは肺癌のリスクには全く関係なく、タバコがその“真犯人”であったとしても「コーヒーを飲む頻度」と「肺癌の発症」は相関関係をもつというわけだ。この場合、「煙草を吸う」を交絡因子という。
散布図が描くところの、あたかも因果関係があるかのような“まやかし”に騙されたりはしていないだろうか。女性の芸人が増えることと高齢者による交通事故数が増えることは相関するが因果性は説明できない。
相関が強くてもこのように交絡が有りえること、あるいはサンプルが少ないことによる偶然、そしてまた原因と結果が逆転しているなども可能性として踏まえるべきである。散布図の妙な説得力に騙されてはいけない。
自身の周りや政府の政策、経済アナリストの考察において、相関関係の強さを根拠におかしな打ち手を提案している人がいないかどうかくれぐれも注意したい。案外と、高齢者による交通事故数を減らすために、女性の芸人を減らすようなおバカな政策が世の中にはびこっているのである。
以上
コメント