渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

シュートを外した後で、ゴールポストを動かして「入っていた」ということにしてはいけない

先日こんなことをコメントしたら、思ったよりも反応が多くて「皆さん同じことを思っていたのかな」と感じたのでした。

要はこれは再現性問題の典型例だという話なんですが、近年あれだけ再現性問題が騒がれた割には意外と未だに世間的にはあまり広く知られていないのだろうか、という気もしています。

このブログでも再現性問題については一通り論じたことがありますが、ちょうど良い機会なので改めてこの手のQRPs (Questionable Research Practices)とはどういうものかという話を書いてみようと思います。

なぜ仮説検定の際にサンプルを選別してはいけないのか


これは単純に図示してみれば分かりやすいと思います。ここでは、ヒトのある健康指標に対して何がしかの介入の効果があったかどうかを仮説検定で明らかにしようとしているものとします。


例えばxが介入群、yが対照群として、本来はこのような分布だったとします。全体としては「差がない」というケースを想定しています。


上図の分布から仮にランダムにサンプリングしたとすると、このような分布になるはずです。これはわざわざ仮説検定するまでもなく、「有意差は得られず」という結果になるであろうことは明白でしょう。


ところが、ある基準s(ここでは上位10%)を上回ったxと、ある基準t(ここでは下位10%)を下回ったyだけを選んでくると、こんな感じになります。驚くなかれ、これだとどこからどう見ても互いに全く重なりがなくなってしまい、仮説検定すればぶっちぎりで「有意差あり」という結果になることが見込まれます。これはp-hackingであると同時にcherry-pickingでもあるんですが、いずれにせよQRPsのど真ん中を行く行為です。


ということで、仮説検定の類は「データを恣意的に選別すればいかようにでも狙った結果を出せる」代物であるということが、これでお分かりいただけたかと思います。今回話題になったケースではここまで極端ではなかったようですが、上記の例でいうところの介入群xの方の下位何%かをカットしたのと同じ状況であり、基本的にはQRPsと認められる操作です。


どれほど正当な理由があったとしても、データの選別は事後的にやってはいけない


とは言え、様々な事情からやむなくデータの選別を行わなければならないケースというのは、実験科学では数多いです。代表例としては「そもそも実験操作が完遂できなかったサンプル」がそれで、これはデータとしては意味をなさないので除去しなければなりません。実際、厳密なRCTが行われる新薬治験の世界ではこれは普通に行われる選別行為です。


しかし、ここに一つ重要なポイントがあります。それは「データの選別基準は『事前に』定めておかなければならない」ということです。即ち、新薬治験であれば「治験終了時にAという条件を満たさない」「新薬の適用条件Bを満たさない」サンプルであると判明した時点で分析対象から除外されるわけですが、それは「実験が終わって分析する前」でなければならない、ということです。もしそうでなく事後にデータを選別してしまうと、「分析した後になってから『都合が悪いから』という理由で選別されるのと傍目には区別がつけられない」からなんですね。「シュートを外した後で、ゴールポストの側を動かして『入っていた』ということにしてはいけない」というこの記事のタイトルは、このことを表しています。


ちなみに実験計画法のテキストでよく言及されるITT (Intetion To Treat)は、あえて新薬治験の対象から外れた(その結果治験対象の新薬ではなく従来薬に戻ってしまった)被験者をそのまま介入群の側に残すことで、「新薬の効果を過大評価しないように抑える」という狙いがあったりします。言い換えると、あえて「本当に物凄く効果があるのでもない限りは有意差が出にくい」ようにしているんですね。新薬審査の慎重姿勢がどれほどのものであるかを物語る一例だと思います。



では、どうするべきだったのか


仮に「介入群xと対照群yとを比べた結果、ある要因fが介入の効果を妨げていると分かったので再解析したい」となったとしましょう。その場合、どうすれば良いのでしょうか?


これは単純で「要因fでフィルタリングした新たな介入群x2と対照群y2とを集めてきて、もう一度新しく同じ実験を行う」のが適切だと思われます。これならば、元々あったデータx & yに対して「事後的に選別している」ことにはならず、「事前に選別した上で同じ実験を実施した」ことになるからです。つまりサンプル選別の恣意性がないという状態を作ることができる、ということです。


勿論、元々の実験と同じ結果が2回目の実験でも得られる可能性は往々にしてあると思います。ですが、だからと言って「だったら最初から元々の実験のデータに対して要因fでカットオフしてそのまま再解析すれば良い」とはならない点に注意が必要です。言わずもがなですが、毎回2回目の実験で同じ結果になるとは限りませんし、そもそもそうであるかどうか分からないからこそ実験をして分析するわけですから、そこからは極力恣意性を排除するべきなのです。


そして、それはとりもなおさず「別の第三者が同じ実験をするのと同様のシチュエーションを自ら作り出す」アプローチでもあるんですよね。とりわけ、特に何の利害もなく、介入群xが対照群yに対して有意差が出て欲しいという願望も持ち合わせない第三者でも、同じ結果が得られるかどうかは非常に大切なことです。それが「再現性」ということだと個人的には思いますし、例えばそれをより強力に担保するために「二重盲検」(double-blind)という実験手続きもあるのだと考えています。