「ダメな科学」を見分けるための大まかな指針」のポスター解説(5)小さすぎるサンプルサイズ/代表的でないサンプル

6. 小さすぎるサンプルサイズ(難易度☆☆☆☆☆)

試験では、サンプルサイズが小さくなるほど、得られる結果の信頼性が低くなります。サンプルサイズが小さくなるのを避けられない場合もありますが、そこから導き出された結論については、上記のことを念頭に置いて検討するべきです。サンプルサイズを大きくすることが可能なのにそれを避けている場合には、疑念を抱く理由になるかもしれません。

7. 代表的でないサンプル(難易度☆☆☆☆)

ヒトを対象とした試験において、研究者は、母集団を代表するような個人を抽出するように努めています。もしサンプルが母集団全体と異なるものであれば、試験の結論もたぶん異なってしまうでしょう。

対処法の例:「アンケート結果」「調査結果」は、どういう集団に調査をするかで結果が変わることを意識し、調査対象や調査方法に気を付けてデータを見るように心がける。




このシリーズですが、ここからはいわゆる「ニセ科学」の世界にとどまらず、「科学的な研究の質を見抜く」領域に足を踏み入れることになりますので、少し難しいかもしれません。ただ、ニセ科学と呼ばれるもの、また誇大な広告等では、「極端に質の低い科学研究」を持ってきて「科学研究の結果だから事実である」というように扱うことがあります。実際には科学研究の結果と言ってもピンキリで、質の低い研究や、再現性が確認されていない研究では、信頼性は高くない、ということを知っておくことで、このような騙しのテクニックに載せられにくくなるのではないでしょうか。

さて、今回の項目にはいくつか専門用語が出てきます。統計の用語です。統計学、というとすごく難しそうで腰が引ける人も多いのではないでしょうか。うさじまも実はそうです。数学がとても苦手なのです。なので、統計の具体的手法ではなく、統計を使わなければ知ることができないのはななにか、という観点から、ここに出てくる用語(つまり、統計学で用いられる概念)を説明してみたいと思います。



母集団とサンプル(標本)

統計調査でいちばん身近なものの一つが視聴率調査だと思います。

視聴率調査でいちばん有名なやつは、ビデオリサーチ社という企業がやっています。コストやいろいろな理由から、全世帯に対して調査をすることはできません。なので、一部の世帯を対象として調査を行い、そこから全体の値を推定して発表しています。このように、全体の一部を調査して、そこから全体の値を推定するときに、統計学が使われます。

視聴率調査を例に、「母集団」と「サンプル」を説明してみます。

視聴率調査では、「世帯視聴率」と「個人視聴率」を調べています。一般的に言われる視聴率は「テレビ所有世帯のうち、どのくらいの世帯がテレビをつけていたかを示す割合」だそうです。このとき、本当に調査したい対象は「テレビ所有世帯」すべて、ということになります。しかし、全世帯に対して調査することはできないので、何らかの方法で調査する世帯を選び、その世帯に対する調査結果から、全世帯での視聴率を推定します。この時、調査対象の世帯を選ぶことを「サンプリング」、選ばれた世帯を「サンプル(標本)」といいます。この「サンプル」という言葉は、「全体(母集団)」に対して、「全体から抽出された集団」という意味を持ちます。サンプル(調査対象)を選ぶ時に、偏りがあると(例えば、高齢者ばかり選んでしまうとか、女性ばかり選んでしまうなど)、正しく全体の値を推定することが難しくなります。なので、できるだけ、全世帯と同じような人口構成になるように、偏りなく、調査対象を選ぶ必要があります。つまり、「ランダムに抽出する」わけです。上記の「サンプリング手法」のページに、詳しい方法が書いてあります。

まとめると、

  • 視聴率調査で知りたいこと=テレビ所有世帯のうち、どのくらいの世帯がテレビをつけていたか
  • テレビを所有する全世帯=本来知りたい集団=母集団
  • テレビ所有世帯全体から、実際調査を行う対象となる世帯を選ぶ操作=サンプリング(標本抽出)
  • 視聴率調査の対象となった世帯の集団=サンプル(標本)

人間を対象とした研究(臨床試験や健康調査など)でも、本当に知りたいのが、例えば「日本人の喫煙率(日本の成人のうちどのくらいの人がタバコを吸うか」だったとして、全成人を対象に調査することはできませんから、ランダムに抽出して調査し、その結果から、日本全体の結果を推定するわけです。

「母集団」、「標本(サンプル)」を簡単な図にすると以下のようになります。

統計調査の質を決める「標本(サンプル)」

全体を調べることができない、調べるのが妥当でない場合(研究のほとんどがそうです)、その質を決めるのに大きな役割を果たすのが「適切なサンプリング」です。「適切なサンプリング」とはすなわち「十分ランダムに」「十分なサンプルサイズ」でサンプリングすることなのです。

  • 統計調査の目的は、「母集団の一部(サンプル)を調べて、母集団の性質を推定すること」です。
  • 「サンプルサイズ」とは、サンプルの個数(人数)のことです。調べる対象の数が多い(サンプルサイズが大きい)ほど、調査の精度が高くなります。
  • サンプリングの際に大切なのは、母集団の性質を反映するような、つまり「代表性をもった部分」を標本として全体から抽出することです。
  • 疫学第4回:標本抽出法/誤差とその制御, 中澤 港

サンプルサイズは大きい方がいいといいますが、じゃあ実際どういう調査をするのにどれくらいの人数を調べたらいいのか。それを考えるには、統計学の知識が必要になります。具体的には、母集団内のばらつきや、どの程度の精度で結果がほしいのか等を考慮します。ですから、「この研究のサンプルサイズは小さすぎる!」というツッコミを素人が入れる、のは実際かなり難しいと言えます。例え統計の知識があっても、調査のやり方や疫学の知識が相当ないと、難しいのです。例えば「視聴率調査って言うけど、これだけの世帯数しか調べてないなら、本当のことはわかんないじゃん」というツッコミが妥当かどうかを真面目に考えようとすると、実は相当な知識が必要になります。

もう一つ、サンプルの代表性を高めるのに必要なのが、できるだけランダムに対象を選ぶことです。選ぶ人の主観が入ったり、特定の性質を持った人が選ばれることがないようにする必要があります(例えば、ランダムに固定電話に掛けて質問する方法のアンケートでは、『日中家にいる人』や『固定電話を持っている人』が選ばれやすくなる、つまり比較的高齢な人の数が多くなる傾向にあります)。

これまで、ヒトを対象とした統計調査の話として書いてきましたが、サンプリングの重要性については、一般的な科学実験や、アンケート調査についても同様のことが言えます。



あやしいサンプリングの例

科学論文のサンプリングにツッコムほど賢くないうさじまですが、世の中にはかなり警戒して見なければいけない「調査結果」があるな、と思います。

  • ウェブ等のアンケート…話のタネとしては面白いですが、どういう人を対象に、どういう質問で調査するか等が適当なことが多いです。「回答者がどういう人か、何人に聞いたのか、どういう媒体で聞いたのか、等を確認してから参考にするほうがいいでしょう。
  • 化粧品や健康食品の広告にありがちな「使用者の○○%が満足しています」…満足している人だけが「使用者」としてカウントされていないでしょうか?
  • テレビの「世論調査」…固定電話にランダムで掛ける、という手法は現代ではかなりバイアスのかかるサンプリング方法ではないかと思います。