検出力（power）

なかやまきんに君は芸人として大成したとはちょっと言えないとは思うのだが、そのキャラクターが愛され、また昨今の筋トレブームやYouTubeといった媒体の浸透などがあり、「売れっ子」となった。

彼のネタは何らかの質問を自身の筋肉に問いかけ、最後は「パワー！」と叫ぶのがオチとなっている。医薬品として承認してよい効き目なのかどうかを判定するtestは、日本語では有意差検定と翻訳されるが、このtestにおけるpowerとは、実際に差がある場合において、「その通り、差があります」という正しい判定を下す“能力”のことであり、検出力と翻訳される。

医薬品が「効く」というのはご存じの通り100人に処方したら100人全員が治るというのを保証するものといったものではない。それどころか疾患領域においては医薬品を処方することでむしろ副作用で死んでしまうことがあっても医薬品として承認されることもある。そのような商品は他の分野ではちょっと考えにくことだろう。「ふぐ」なんかはそうかもしれない。

では何故に承認されるかといえば、それまでの治療方法と比べて勝るからだ。今までの治療では100人中10人しか治すことができないとすれば、100人中30人を治せる可能性があるならば、多少の副作用がおきるとしても患者にしてみれば是非とも処方して欲しいハズだ。

それ故にどの程度の有効率ならば医薬品として承認してよいかどうかは病気の種類によって千差万別ではある。しかしながら「従来の治療と比べて勝るならば」、承認してよいとするアルゴリズムは全ての病気にとって基本的には共通ということになる。

つまり、これまで一切の手の打ちようがなかった病気ということであれば、比較対象は無治療、効き目0％との比較ということになる。一方、従来の標準治療がたとえば50％、2人に1人を治すとしたならば、60％の効き目であっても承認してよいとなる。副作用のリスクが同程度という前提となるが。

それどころか、50％に勝るならば60％といわなくても51％でもよいという理屈になる。究極的には50.1%でも50.01%でもよいのだが、その程度の差だとすれば果たしてその違いを人類が認識できるかどうかはちょっと難しそうだ。

Power(検出力)というのはこのように差異が60%vs50%のときと51%vs50%のときとでは当然、違ってくる。60％vs50%のときであれば、候補物質群200例と、既存治療群200例の計400例もあれば有意差検定では「有意差アリ」と判定することができるが（カイ2条検定）、51%vs50%ということになると、たかだか400例くらいではその差を統計学的には確認することは不可能だ。

では、51%vs50%くらいの僅差の有効性の場合、その程度の差をもって「有意差アリ」とできるPowerはどれくらいかというと、手元の計算では両群19,500例の計39,000例ほどの被験者(test参加者)が必要になってしまう。こんなtestはやりたくもないし、患者として参加したくもないだろう。

逆に80％vs50%ほどの圧倒的な差が見込まれている場合は両群20例の計40例もあれば「有意差アリ」となって、簡単に医薬品として承認される。有意差検定における検出力というのはこのように「期待される差」の大きさとtestの参加人数に左右される。

もちろん、有効率が80％だからといって、あなたにこの医薬品が処方されたとして必ずしも効くとは保証されない、20％は効かないということになる。人類が出来る最善策は「平均治療効果を既存の治療と比べる」くらいしかない。「もっと良い手はないの？」という声が聞こえてきそうだ。それが出来るならば当然、有意差検定などは無用なのだが。

以上