と。

統計学は趣味、マーケティングは義務。

統計的検定とか有意とか考えれば考えるほど何もわからない

統計学はやはり人類には早いと思う

仕事で数理統計学を勉強していて、趣味で統計検定1級を取ろうとしているのですが、 今日は統計的検定の話をしようと思っています。
というのも、これが僕の無知によるものなのか、それとも世間一般に言われる誤解なのかはわからないんですが、 統計的検定ってそもそも一体何であるのかについて、よく理解できた形で 議論をしている場面に出会ったことがあまりないと思ったからです。
この記事ではどうにか「検定するには母集団に対する仮説を持つことが重要ですよ」とか「仮説がふんわりしたところで検定すると危ないですよ」とか話しますが、 具体的に「母集団に対する仮説を雑に決めたことで大きな損失を得た事例」をよく知らないので、 説得力に欠ける話になっています。大きな損失を得た事例持ってる方いたら教えてくだし。

どこまでを話すか?

実際、統計的検定や、その結果の判断軸などについては完成した合意があるわけではなく、ここ数年でも国内外でいろいろと議論が行われています。
代表的な例で、アメリカ統計協会では2016年に統計的有意性の指標の1つである「P値」についての懸念 を声明として上げています。
統計的検定に関する議論は、突き詰めると簡単に僕の知識や技量を越えてしまいそうなので、 議論の範疇は教科書にある範疇、つまり「そもそも統計的検定は何をしているのか」 ということの整理に努めたいと思います。
「実際に使うときにどのような誤解があり、どう回避するべきか」は、今の僕が書ける気がしないので、また記事を改めます。

「教科書にあることを書くだけじゃ意味がないのでは?」と思う方もいると思いますが、 このブログはそもそも自分本意な記事で、Rで分析してみたり 過去の自分が未来の自分に残している要素が強いので、誤解や無理解が残ったまま書き進めようと思いました。
もし「明らかにお前は分かっていない」という記述を見つけたら優しく教えてください。

前提とする理解

確率変数、及び確率分布に関する理解を前提にします。
理解の深さについては、以下に示している参考文献に記載されている範疇で十分です。 つまり測度論的な理解やマイナーな確率分布については一切出てこないのでごあんしんください*1。

参考文献

あらかじめ、参考としている文献はここに書いておきます。
記事の性質上、数式と解説のバランスが取れている方が重要だなと思い、
基本的な文献を挙げています。

結局検定では何を「テスト」しているのか??

僕の仕事ではよく「平均値の差の検定」とか「比率の差の検定」などを実施することが多いです。
もちろん、僕自身が実施することもなくはないですが、今やExcelでも検定はできちゃう時代なので、社員が独自に実施することも多いです。
それ故に、その検定結果が何を意味しているのかについて十分な検討がなされていないまま、拡大解釈の上で使われてしまっているケースもよくありますし「検定って何やっているんですか?」という質問に答えられないまま仕事として進める場面も多くあります。これはもったいないなあと思っています。

統計的検定は、久保川によれば「統計的推測」の一つです。竹村によれば「統計的決定理論」の枠組みで論じられます。いくつか分解の流儀があるようですが、ここでは以下のようにまとめてみます。

  • 統計的決定理論
    • 許容性
    • 統計的推測
      • 統計的推定
      • 統計的検定
        • 片側検定
        • 両側検定

統計的決定理論は、統計的推定や統計的検定の理論と方法について、統一的な議論ができるように整理された諸概念の集合であると理解していて、数式による定式化に加え「分析者の意思決定」という部分にも踏み込んでいます。
今回の関心は「統計的検定」にあるので、決定理論全般について深い議論をすることはしませんが、 適宜必要な概念は導入していきます。

さて、統計的検定では結局なにを「テスト」しているのかについてですが、教科書に準じれば「統計的仮説」 をテストしているという答えにいきつきます。 ここで言う統計的仮説は「母集団の分布やパラメータに関する仮定・記述」を意味します。 母集団とはいわば「興味のある対象全体」であって、例えば日本社会を興味の対象とする場合は「日本に在住する人々」であったり、ビールを買う人を興味の対象とする場合は「20歳以上の男女」だったりします。
こういった対象に関する情報をすべて測定することができれば、そもそも検定や推測をする必要はありません。 いわゆる「記述統計」で問題ないと考えます。Webサービスやアプリでのデータ分析で想定したい母集団はサービスのユーザであり、ユーザの情報が測定できているのであれば、検定・推定の活用場面はよく考える必要があります。なぜならば手元にあるデータこそが「母集団」であり、その構造は平均や分散などの記述統計から十分に理解できるからです*2。

一方で、「将来的にユーザになってくれそうな人」も対象として含めたり、そもそもユーザに関する情報が多い、「日本人全体」など、母集団として設定する対象が複雑・大規模であったり、ブランドの「認知・関心」のように、そもそも行動から測定しづらい要素であったりする場合、検定・推測は強力な道具となると思います。
こういった場合、我々は母集団に関する構造を把握することは原理的にはできません。であればせめて、手元にある限りのデータ(=標本)から母集団の構造に関する情報をできるだけ得たい、という欲望に駆られます。 ただ、どうしても母集団の構造を標本で完全再現することは難しく、何らかの「ずれ」が生じ得ます。統計学ではこうした「ずれ」を確率的に評価しようと試みます。検定は「母集団の分布パラメータは、標本から計算したパラメータと同じ」という仮説を評価していると理解して良さそうです。この仮説が「統計的仮説」の1形態です。

結局「有意」とは何なのか??

統計的検定は、母集団に関する仮説を検証することであることがふんわり分かったところで、 よくよく議論されている「有意性」について、軽く触れようと思います。 母集団に関する仮説について考えるために、標本から母集団の「平均」を推定することを考えます。 この検討は例えば回帰分析における回帰係数の有意性の検定にも近いかと思います。 標本平均を$\mu$とおいて、母集団の平均を$\mu_0$とおきます。$\mu_0$は知りようがないのですが、 母平均と等しいかどうかの検定の場合、後述する検定統計量はz値で、検定統計量の従う分布は標準正規分布なので、 $\mu_0 = 0$と仮定することができます。
検定には「検定統計量」を用います。いろいろあるので詳細は割愛しますが、上記はどの検定でも類似の考え方だと思いたいです。
検定統計量は必ず何らかの確率分布に従うことが理論的に保証されており、検定統計量の実現確率は数値的に計算ができます。
上記の統計的仮説に戻れば、「母集団の平均を0と仮定したときに、標本平均$\mu$は$\mu_0$と等しいと言えるかどうか」を考えます。
この際、「対立仮説」と「帰無仮説」を設定します。上記の確認について「等しいといえる($\mu = \mu_0$)」という仮説と「等しいとはいえない」という仮説に分解して考え、
一方を帰無仮説(今回は前者)、もう一方を「対立仮説」と設定します。
この時、分解した仮説のどちらを帰無仮説にするべきかは、「否定したい方を帰無仮説に設定する」ことになります。 久保川本によれば「理論上もしくは経験上当然成り立っていると予想される仮説や否定したい仮説を帰無仮説にとることになる」と記述していて、
「何を否定したいのか」を明確にしておいたほうが良さそうです。そこで、あえて「帰無仮説」が正しいと考えたときに、得られた検定統計量(よりも極端な値)がどの程度起こりうるのかを評価することで、
「帰無仮説を棄却できるかどうか」を検討しようとします。その際に計算される「帰無仮説が正しいとしたら、得られた統計量はどの程度起こりうるのか」の指標がp値となります。 さて、後述するようにp値については僕の無理解を全世界に公開していました。直す前の僕は

「どれくらい高い確率であればよいのか?」という閾値が有意水準、すなわちp値です。p値が5%であれば95%以上の確率で「等しい」といえる、というように理解します。

と記載していましたがこれは全く誤りで、こういった誤りが跋扈するがゆえに記事を書いていたのにその目的を果たしていなかったのでもうダメです。
具体的には有意水準とp値の記述が混同しています。本当に良くない。反省します。

まず、指摘いただいた通りの記述をすれば、「帰無仮説のもとで(帰無仮説が正しいと仮定したとき)、計算して得られた統計量よりも極端な値が出る確率」が、p値と呼ばれる指標です。
上記では帰無仮説は$\mu = \mu_0 (= 0)$でした。 帰無仮説は「否定したい仮説」です。例えば上記の例が塾に通うことで学力が向上したことを示したいという状況のもとで設定されたとすれば、 塾に通っている生徒のテストの点数は、全国の平均点より「高く」あってほしいだろうと思います *3。 こうした状況設定の場合、帰無仮説が正しいとしたらその統計量が実現する確率が「めったに起こらない」ことを根拠にして、帰無仮説を棄却します。
どの程度「めったに起こらない」かを決める水準が「有意水準」です。大学でも「p値と有意水準は違うんだぞ」ということを耳にタコができるレベルでいわれたのに、
今それを思い出すようでは世も末っすね。ちなみに有意水準は慣例的に5%であることが多いですが、有意水準の設定は分析側が設定するべき水準です。

【2022年3月21日更新】 Sugiyamaさん、Ken McAlinnさんより以下のように指摘いただいた上で、上記の記述を修正しています。
なお、記述については完全に僕の責任で、問題の設定なども僕が作っているので、妥当性及び正しさの責任は僕にあります。

無理解・誤解持ち続けるよりかは指摘されたほうが何倍もマシ……ありがとうございます……。

母集団に対する仮定に理論的根拠は設定されていない

さて、仮説検定では対立仮説と帰無仮説の二者択一というお話ですが、上記では$\mu_0$を0と「仮定」していました。
母集団に関する仮定について、僕は数理統計学からは何も言及できないと理解しています*4。

母集団に関する仮定については、適用する分野・領域に根ざした学術理論を根拠にして、妥当な仮説を設定することが望ましいと思います。例えば物理量などは非常にわかりやすいですが、インタビューなど定性的な示唆から仮説に落とし込めるのであれば、それでも良いでしょう。
ただ、定性的な示唆を使って仮説を構成する際は、検定結果に合うような仮説を誘導しない心の強さが必要です。

母集団の構造に対する仮定は、まず検定統計量の算出前に設定するべきですが、検定統計量を先に計算し、それを元に母集団の構造の仮定を置くことで、検定結果を自身の都合の良いように設定することも可能ではあります。
倫理上、そういうことはしないようにしようね、という話ですが、結局こうした仮定は統計学の外の話になるので、検定を行うときは「母集団に対してどういう仮定を置くべきか?」をしっかり考える必要があります。
こうしたことにならないようにするには、母集団に関する仮定に根拠を設定する必要があります。

また、例えば検定で「有意ではない」という結果が得られた場合、慎重な分析者は「差がないとはいえない」という判断に留め、「違う」と言い切ることはあまり多くないと思います。
ここは、分析者が負うリスクという話で、竹村本5章に概略があるので、そこを確認ください。
今の所、僕の理解では1度の検定の結果から「違う」と言い切ることは、偶然「違う」という結果が得られた可能性を完全に除外できない点で過剰な評価をしていることになり、追試などを通して同様の検定を繰り返すことで、どの程度「違いうる」のかを評価しなければならないというところに落ち着いています。

まとめ

  • 統計的検定は「母集団の構造」について、標本から推測した結果の妥当性を考えること
  • 統計的仮説は「数理」で決まらない部分があり、そこの悪用も活用も人次第。
  • 良い仮説を設定して、シビアに慎重に検定結果を考えよう

Todo

有意性に関する記述はあまり考えずに書いたので、そのうち推敲すると思います。

*1:そもそも特定の確率分布についての議論はあまりしないと思いました。

*2:決して「まったくない」わけではなく、例えばA/Bテストのような因果推論のフレームは、母集団(あるいはその標本)を2つに分割して実施することが多く、パラメータや分布に関する推測・検定が有効になると思います。

*3:より厳密には、ランダム化比較試験として「生徒をランダムに『通塾させる群』と『通塾させない群』に割り当て、成果を比較する」ような設計が必要になりますが、
実務でこうした設計をする余裕がない場合、次善策として母集団との比較という考えは一定の合理性を持つかなと考えています。

*4:だからこそ検定は難しいなあとも思います。とはいえ母平均との差の検定は標準正規分布を元に行うので、母平均が0であるという仮定は帰無仮説に落とし込む上では妥当です