
あのチームは「私が見ていると負ける」のか?
こんにちは。メディア研究開発センターの太田です。
今回は、スポーツ観戦にまつわるジンクスにデータで向き合おうと思います。
[はじめに] 見ていると負けるから見ない
贔屓のチームは自分が見ていると負ける気がする——
こんな感覚に覚えのある人は少なくないのではないでしょうか。中には、願掛けとして大事な試合は見ないという選択をする人もいるとか。
これ以上ジンクスに振り回されないために、データで解き明かしましょう。あのチームは本当に「私が見ていると負ける」のでしょうか。
[準備] ちょうどいいデータがあった
まずはデータを用意します。
チームの勝敗は公式記録を使うとして、観戦有無はどうやったらわかるのでしょうか?
——ありました。

こんなこともあろうかとプライベートで長年つけている"カレンダー日記"です。Googleカレンダーに自分の行動を手入力で記録しています。この"カレンダー日記"から、観戦にあたるイベントを抽出します。
私が応援するプロ野球・横浜DeNAベイスターズ(以下ベイスターズ)は、2024年シーズンに157試合(ポストシーズン14試合を含む)を戦いました。そのうち私が現地またはテレビ等(*1)で観戦したのは80試合。勝敗記録と合わせて集計表を作りましょう。なお、勝敗の扱いを簡単にするために引き分けの3試合を除きます。

……早くも意外な傾向が見えてきた気がしますが、果たして。
[分析] 私は統計的に疫病神なのか
シンプルな統計的検定
2つの検定を設定します(有意水準 $${\alpha=0.05}$$ )。
検定 $${T_a}$$ :観戦の有無とチームの勝敗は関係ない(帰無仮説 $${H_{a0}}$$)かどうか − カイ二乗検定
検定 $${T_b}$$ :観戦したときの勝率と観戦しなかったときの勝率は同じ(帰無仮説 $${H_{b0}}$$)かどうか − z検定
$${T_a}$$
scipy.statsのchi2_contingencyを使います。分割表のデータを与えると、カイ二乗統計量 $${Z=5.7476}$$ 、p値 $${p_a= 0.016512}$$ と求まりました。
さっそく $${p_a<\alpha}$$ と有意な結果が出ました。$${H_{a0}}$$は棄却され、『観戦の有無とチームの勝敗には関係がある』と言えるようです。まさか。
$${T_b}$$
z統計量を求めます。 $${p}$$ を勝率、 $${n}$$ を標本数として、以下のように求まりました。
$${z=\dfrac{p_{観戦有}-p_{観戦無}}{\sqrt{p(1-p)(\frac{1}{n_{観戦有}}+\frac{1}{n_{観戦無}})}}=2.5589}$$
さらに、scipy.statsのnormを使ってp値を求めると、 $${p_b=0.010500}$$ 。
$${\alpha}$$ を下回ったことで $${H_{b0}}$$ は棄却され、『観戦したときの勝率と観戦しなかったときの勝率には差がある』と言えるようです。
なお、勝率は下表の通り観戦したときのほうが約20%高くなっています。怖くなってきました。

統計的に『観戦の有無とチームの勝敗には関係(*2)があり』、『観戦したときの勝率は観戦しなかったときの勝利より高い』と言えてしまいました。
私は「見ていると負ける」どころか、「見ていると勝つ」福の神だったようです。
潜在的な因子を探る
好ましい結果は疑ってみましょう。
私の場合は主にテレビで観戦するため、地元テレビ局で放送される割合が高いホームゲームの観戦数がビジターと比べて多くなっています。スポーツチームはホームでの勝率が高くなることがあり、「ホームかビジターか」は潜在的な因子として怪しいかもしれません。
変量を1つ加えて、さらに2つの検定を行なってみます。
検定 $${T_c}$$ :観戦の有無、ホームゲームかどうか、それらの交互作用項はそれぞれチームの勝敗と関係がない(帰無仮説 $${H_{c0}^1〜 H_{c0}^3}$$)かどうか − ロジスティック回帰分析
検定 $${T_d}$$ :ホームとビジターそれぞれについて見たとき、全体として観戦の有無はチームの勝敗と関係がない(帰無仮説 $${H_{d0}}$$)かどうか − マンテル・ヘンツェルの検定(層別解析)
分割表はこちら。

$${T_c}$$
statsmodelsを使います。
「観戦の有無」と「ホームゲームかどうか」を説明変数にとると、オッズ比とp値は下表の通り求まりました。

観戦の有無についてのみp値が $${\alpha}$$ を下回りました。$${H_{c0}^1}$$ が棄却され、『観戦の有無と勝敗にはやはり関係がある』と言えるようです。いよいよ追い込まれてきました。
$${T_d}$$
分割表をホームゲームとビジターゲームそれぞれの2x2分割表に分けます。
各セルの値を左上から横書きの順に $${a,b,c,d}$$ 、合計を $${n}$$ とすると、マンテル・ヘンツェル検定を行うための「共通オッズ比 $${OR_{MH}}$$ 」は次の通り求まりました。
$${ OR_{MH} = \dfrac{\sum_{s \in \{\text{home}, \text{visitor}\}} \dfrac{a_s \cdot d_s}{n_s}}{\sum_{s \in \{\text{home}, \text{visitor}\}} \dfrac{b_s \cdot c_s}{n_s}}=3.023 }$$
さらにp値は $${p_d=0.01000}$$ と求まり、$${\alpha}$$ を下回ったことで $${H_{d0}}$$ も棄却されました。
そもそも2024年シーズンのベイスターズは、ホームで負けてビジターで勝つチーム(*3)だったので、福の神っぷりが余計際立つ結果となりました。
統計的に『ホームゲームかどうかに関わらず、私が観戦したときの勝率は観戦しなかったときの勝率より高い』らしいです。なんということでしょう。
[おわりに] これからも試合を見よう
とはいえ“本当に”「私が見ると勝つ」(*4)とは思えません。こうして統計のおもしろさを目の当たりにすることができました。
今回の結果を受けて「なぜ私が見ていると勝つのか」という新たな分析のスタート地点に立たされたようですが、それはまた別のお話。「擬似相関」の一言で片付けるのはもったいない、興味深いストーリーが待っていそうです。
少なくとも「見ると負ける」という心配は捨てて、”統計的に”安心して観戦を続けたいと思います。
(メディア研究開発センター・太田幸一)
*1 現地観戦は6試合で、4勝2敗でした。
*2 ここで「因果関係」は示されていません。また、「因果関係がない」ことも示されていません。
*3 たとえば日本シリーズではホーム2連敗からビジター3連勝。
*4 逆の「勝つときに見ている(ことにしている)」も、Googleカレンダー日記を意識して機械的につけているため、あまり考えられない印象です。