「ダメな科学」を見分けるための大まかな指針」のポスター解説(6)対照群がない/盲検試験が行われていない

2016.4.1 追記
いろいろなご意見をいただいておりますが、この解説シリーズは以下の記事が元になっております。まずこちらの記事をご覧の上でお読み頂ければ、と思います。

他の解説記事へのリンクもこちらに掲載しています。
また「このポスターが分かる奴はそもそも騙されない」「素人向けではない」「絶対基準なのか」というご意見に対する回答もこちらで。

この記事を読んで「自分は読んで理解した。でもこれがわからない人もいるだろう」と思った方には、身近な人に説明する一助としてご利用いただければ、と思います。



2016.3.30追記
ブコメにいくつか頂いているので、「科学の基礎がない人、あまり勉強したくない人向け」に作成した記事もありますよ、ということで載せておきます。


8. 対照群がない

臨床試験においては、試験の対象となる物質を投与した「実験群」と、投与しない「対照群」の結果を比較しなければなりません。また、実験群と対照群は、無作為に割り付けなければなりません。一般的な実験では、変数をすべて統制したものを対照実験とします。

9. 盲検試験が行われていない

バイアスを排除するために、自分が実験群なのか対照群なのかを被験者に知らせてはいけません。二重盲検試験では、研究者でさえも、試験終了までは、どの被験者がどちらの群かを知りません。(注意)盲検試験が必ずしも実現可能、あるいは倫理的でないことがあります。

対処法の例:「実験」結果を見るときは、適切な対照と比較しているか、実験の参加者や実験者にバイアスがかかる情報が知らされていないかに注意する。





田口たつみさんとのコラボ記事第6弾です。田口さん、いつも素晴らしいイラストありがとうございます!!

健康食品や化粧品、ダイエット食品の広告などで「使用実験結果」が載せられていることがあります。広告ですからもちろん、「効果があった」という結果になっています。実験結果が捏造でないとしたら、この商品の効果は「科学的に証明された」といえるのでしょうか?また、医薬品の承認のために行われる治験と、このような実験では何が異なるのでしょうか。





「科学的に証明」するには客観性が必要

「科学的である」ということを厳密に定義しようと思うとけっこう難しいです。Wikipediaの「科学的方法」を見ると、「科学的方法(かがくてきほうほう、英語:scientific method)とは、物事を調査し、結果を整理し、新たな知見を導き出し、知見の正しさを立証するまでの手続きであり、かつそれがある一定の基準を満たしているもののことである」とあります。

少なくとも、実験によって「科学的に検証する」場合、「(できうる限り)客観的である」ことが求められます。それは、臨床試験(ヒトを対象とした研究)でも同じです。客観的に評価するために必要不可欠なのが、基準となるものや他のものと比較することです。「いいかわるいか」「効いたかどうか」を「試した人がどう思ったか/どう見えたか」で決めるのではなく、「基準より上か下か」を客観的に示すのです*1。では、「比較したデータ」があればOKなのか、と言えば、そうとも言い切れません。何と何をどうやって比較するかによって、客観性やバイアスのかかり方に差が出るからです。

広告などで見る「実験」の例として、ダイエット食品の効果を証明することを考えてみましょう。よくあるのが、同じ人の「使用前」と「使用後」の比較です。しかし、これでは不十分です。

ダイエット食品の試験に参加する(試験参加者を『被験者』といいます)ことを想像してみてください。「これを食べると痩せるかどうか調べます」と言われて試験に参加すると、どうしても行動に影響を受けると思います。例えば、暴飲暴食を避けたり、いつもより全体の食べる量を減らしたり、無意識にしてしまうかもしれません。ですから、「使用前・使用後」の比較では不十分なのです。そのような影響を除いて、ダイエット食品自体の効果を知るには、同じように実験に参加していながら、ダイエット食品は食べていない、という人と比較する必要があります。これが<対照群との比較>です。「ダイエット食品を食べた人」と「食べていない人」など、実験上分けられたグループのことを、『群(ぐん)』と呼びます。

このとき、

調べたい薬や食品などを投与した人たちの集団=実験群
調べたい薬や食品などを投与していない人たちの集団=対照群

といいます。

(ポスターの、「一般的な実験では、変数をすべて統制したものを対照実験とします」というのは、実験で効果を調べたい操作の影響を一切受けない(変数をすべて統制)ものを対照として、それと比較するという意味です。)

ただし、二つの群の年齢や性別、普段の食生活などが偏っていると、正しく比較できません。例えば、どちらの群に入るか、参加者の希望で選んでもらうと、「ダイエットの意思がより強い人がダイエット食品群に集まる」などの偏りが生じます。ポスターの文章の「実験群と対照群は、無作為に割り付けなければなりません」というのは、このような偏りをなくすために、どちらの群に誰を入れるかはランダムに(例えばくじ引きなどで)決める必要があるという意味です。

しかし、まだ問題はあります。この実験で自分が「ダイエット食品を食べる群」か「食べない群」のどちらか、知っていれば、やはり行動に違いが出そうです。ダイエット食品を食べた人たちだけ、全体の食事量を制限したとか、運動したとかになると、正しく比較できなくなります。また、実験をする側(例えば医師やメーカー)が、実験群の被験者にのみ、運動するよう指示する可能性もあります。そういった影響を極力除くためには、誰がどちらの群か、被験者や実験者にわからないようにする必要があります。これを<盲検試験>といいます。





以下で、「対照群との比較」及び「盲検試験」について、詳しく紹介します。

対照群との比較

ある製品の効果を客観的に評価するには、「その製品を使わなかった場合」と比較しなければなりません。比較による客観的な評価方法については、菊池誠先生のこれが参考になります。

では、たまたまではないことをどうやって確認するのか。病気の原因を調べる疫学の考え方が役に立ちます。一番の基本は「2かける2表」を作ることです。たとえば、お祈りの効果を知りたいとしたら、お祈りをした場合やしなかった場合の結果をたくさん集めて、以下の A から D を埋めます (何回ずつあったかを書けばよい)。

体験談は A だけです。でも、もしかすると A と B は同じくらいの数かもしれない。それならお祈りに効果はありません。あるいは、A は B の二倍くらいだけど、C も D の二倍くらいかもしれない。そうだとすると「効果あり」が多いのはお祈りの効果ではないわけです。もちろん、自分でこの表を埋めるのは難しいでしょう。でも、「効果があった」という体験談を見聞きしたら、いったいこの表がちゃんと埋まっているのかどうかを考えてみてください。だいじなのは、A にどれだけたくさんの数字が書かれていても、B から D までに数字がはいっていなければ無意味だということです

上の例は「お祈り」ですが、これが健康食品や薬の評価でも同じです。

薬の臨床試験ならば、「調べたい薬(健康食品)を投与した人たち」と、「投与しない人たち」について、他の条件はできるだけ揃えた上で、「症状が改善した人」と「改善していない人」の割合を比較します。そうすれば、上の4x4の表を埋めることができます*2。


盲検試験

盲検試験とは、「実験群か対照群かがわからない状態でやる試験」を指します。「薬を飲んでいる」と知っていること自体が体調に影響することがありますし、行動にも影響する可能性があります。こういった影響を除くためには、被験者に自分が「実験群が対照群か」を知られないようにする必要があります。もし「薬を投与しない群」に本当に何も投与しなければ、自分がどちらの群かすぐ分かってしまいます。そこで、「プラセボ(偽薬、プラシーボとも)」が使われます。「対照群」に、見た目は薬だが、有効成分は含まないニセの薬、「プラセボ」を飲んでもらうのです。

実は、プラセボを飲む群と、まったく何もしない群を比較しても、結果に差が出ることが知られています。プラセボを飲んだ場合でも、「自分は薬を飲んでいる(かもしれない)」と被験者が考えることの影響自体があるのです。このような影響を「プラセボ効果」といいます。

ここで注意が必要なのは、「プラセボ効果」そのものは、実際の薬を飲んだときにもあることです。「プラセボ効果」は薬の効き目のうちの「下駄」のようなものであって、薬効成分の評価はこの「下駄」を脱がした状態で(=プラセボを投与した群との比較により)調べる必要があるのです。

実はこの「プラセボ効果」も、けっこう奥が深い話だったりします。もっとくわしく考えてみたい方にはこのページが面白いかもしれません。

実験をする側(医師)も、本物の薬かプラセボか知らない状態で行う試験を「二重盲検試験」と言います。医師といえども人間ですから、効果が期待される患者に対して処置を実施するなどの故意が生じたり,処置を実施したのだから効果があるはずといった先入観が評価に反映される可能性があるので、その影響を覗くために二重盲検試験が行われます*3。

ただし、二重盲検試験はできなかったり、倫理的に不適切な場合があります。たとえば、比較したいのが「注射と錠剤」のばあい、本来ならどちらの群にも注射と錠剤の両方を投与する(ただし片方の薬はプラセボ)ことになりますが、例えば無駄に毎日注射をすることになると被験者はかなり痛い思いをします。

また、すでに確立された治療法があったり、薬を与えないことで重篤な結果になったりする場合には、プラセボを用いた対照試験を行うことは倫理的に不適切と考えられる場合があります。薬の臨床試験では、新薬と現在の標準的な治療を比較することが多いようです。

「RCT(ランダム化比較試験)」は最強の臨床試験

「ランダムにグループ分けした被験者の集団同士を比較する試験」を「RCT」といいます。日本語では「ランダム化比較試験」です。

Randomized(ランダム化):ランダムにグループ分けする
Controlled:比較対照群(プラセボまたは他の薬、治療法など)と比較する
Trial(試験)
Evidence Based Medicine(EBM, 根拠に基づく医療)という言葉を聞いたことがあるかもしれません。EBMでは、治療法のエビデンス(根拠)を研究デザインの質で格付けしています。その一位は「複数の質の高い研究の結果を合わせて解析したもの(システマティック・レビューメタアナリシス)」で、その次が「一つ以上のRCT」となります。つまり、単独の試験としてはRCTが最強(もっとも質が高い)と言えます。

基本的には,真実に最も近い結果が得られる研究デザインが上位に格付けされます.例えば,最も交絡やバイアスなどの影響が少ない研究デザインはランダム化比較試験(RCT)です。したがって,多数のRCTに基づいたシステマテックレビュー(メタアナリシス)が最も真実を示す可能性が高いものとして位置づけられています。ついで,単独のRCT,非ランダム化比較試験,観察研究と続き,最も下に位置づけられているのが患者データに基づかない専門家委員会や専門家個人の意見となります。
 以下に治療の有効性においてエビデンス・グレーディングが高い順に研究デザインを並べます(引用:財団法人厚生統計協会:図解 国民衛生の動向,p12,2000)。

エビデンス・グレーディング

  1. システマテック・レビューまたはメタ・アナリシス
  2. 1つ以上のランダム化比較試験による
  3. 非ランダム化比較試験による
  4. 分析疫学的研究(コホート研究や症例対照研究)
  5. 記述研究(症例報告や症例集積)
  6. 患者データに基づかない,専門委員会や専門家個人の意見


エビデンス・グレーディング:研究デザインの重要性, Study Channel

なお、「動物実験による結果」のエビデンスとしてのランクは低いです。動物とヒトでは結果が同じとは限らないからです。上記のリストには動物実験は含まれていませんが、一般的には最下位の「専門家の意見」等と同ランクに分類されることが多いようです。「動物でのデータしかない」ものは、「かなり根拠が薄い」と考えるほうがよいと思います。

「なんちゃって実験」は科学的証拠にならない

薬が承認されるまでには、原則として二重盲検のRCTによる臨床試験を行い、統計的に「効果あると言えるかどうか」を調べます。

しかし、広告などに出てくる「実験」を見てみると、対照がなかったり、盲検試験でなかったり…といろいろと問題があることがほとんどです。科学的な実験にも、信頼性のレベルがいろいろと存在しているのです。まして、科学的と言えないレベルのなんちゃって「実験」では、客観的な証拠とは言えません。

*1:その過程でしばしば「数値化」が重要になります。

*2:実際の臨床試験では、「薬を投与した人」と「していない人」の間で、症状が改善した/しなかったの比が本当に異なるのかどうかを、偶然やバラつきも考慮して確認するために、統計を使います。

*3:二重盲検試験, 薬学用語辞典