見出し画像

あのチームは「私が見ていると負ける」のか?

こんにちは。メディア研究開発センターの太田です。
今回は、スポーツ観戦にまつわるジンクスにデータで向き合おうと思います。


[はじめに] 見ていると負けるから見ない

贔屓のチームは自分が見ていると負ける気がする——
こんな感覚に覚えのある人は少なくないのではないでしょうか。中には、願掛けとして大事な試合は見ないという選択をする人もいるとか。
これ以上ジンクスに振り回されないために、データで解き明かしましょう。あのチームは本当に「私が見ていると負ける」のでしょうか。

[準備] ちょうどいいデータがあった

まずはデータを用意します。
チームの勝敗は公式記録を使うとして、観戦有無はどうやったらわかるのでしょうか?
——ありました。

Googleカレンダーの画面キャプチャ。18時から22時ごろの予定が3日分並んでおり、2つのイベントに「野球」というタイトルが記されている。

こんなこともあろうかとプライベートで長年つけている"カレンダー日記"です。Googleカレンダーに自分の行動を手入力で記録しています。この"カレンダー日記"から、観戦にあたるイベントを抽出します。

私が応援するプロ野球・横浜DeNAベイスターズ(以下ベイスターズ)は、2024年シーズンに157試合(ポストシーズン14試合を含む)を戦いました。そのうち私が現地またはテレビ等(*1)で観戦したのは80試合。勝敗記録と合わせて集計表を作りましょう。なお、勝敗の扱いを簡単にするために引き分けの3試合を除きます。

2x2分割表。ラベルは縦が観戦有無、横が勝敗で、各セルに試合数が示されている。値は左上から横書きの順に読んで50、30、31、43。

……早くも意外な傾向が見えてきた気がしますが、果たして。

[分析] 私は統計的に疫病神なのか

シンプルな統計的検定

2つの検定を設定します(有意水準 $${\alpha=0.05}$$ )。
検定 $${T_a}$$ :観戦の有無とチームの勝敗は関係ない(帰無仮説 $${H_{a0}}$$)かどうか − カイ二乗検定
検定 $${T_b}$$ :観戦したときの勝率と観戦しなかったときの勝率は同じ(帰無仮説 $${H_{b0}}$$)かどうか − z検定


$${T_a}$$
scipy.statsのchi2_contingencyを使います。分割表のデータを与えると、カイ二乗統計量 $${Z=5.7476}$$ 、p値 $${p_a= 0.016512}$$ と求まりました。
さっそく $${p_a<\alpha}$$ と有意な結果が出ました。$${H_{a0}}$$は棄却され、『観戦の有無とチームの勝敗には関係がある』と言えるようです。まさか。


$${T_b}$$
z統計量を求めます。 $${p}$$ を勝率、 $${n}$$ を標本数として、以下のように求まりました。
$${z=\dfrac{p_{観戦有}-p_{観戦無}}{\sqrt{p(1-p)(\frac{1}{n_{観戦有}}+\frac{1}{n_{観戦無}})}}=2.5589}$$
さらに、scipy.statsのnormを使ってp値を求めると、 $${p_b=0.010500}$$ 。
$${\alpha}$$ を下回ったことで $${H_{b0}}$$ は棄却され、『観戦したときの勝率と観戦しなかったときの勝率には差がある』と言えるようです。
なお、勝率は下表の通り観戦したときのほうが約20%高くなっています。怖くなってきました。

観戦有無ごとの勝率表。ラベルは上から「観戦有」「観戦無」。2つのセルの値は0.6250、0.4189。

統計的に『観戦の有無とチームの勝敗には関係(*2)があり』、『観戦したときの勝率は観戦しなかったときの勝利より高い』と言えてしまいました。
私は「見ていると負ける」どころか、「見ていると勝つ」福の神だったようです。

潜在的な因子を探る

好ましい結果は疑ってみましょう。
私の場合は主にテレビで観戦するため、地元テレビ局で放送される割合が高いホームゲームの観戦数がビジターと比べて多くなっています。スポーツチームはホームでの勝率が高くなることがあり、「ホームかビジターか」は潜在的な因子として怪しいかもしれません。
変量を1つ加えて、さらに2つの検定を行なってみます。

検定 $${T_c}$$ :観戦の有無、ホームゲームかどうか、それらの交互作用項はそれぞれチームの勝敗と関係がない(帰無仮説 $${H_{c0}^1〜 H_{c0}^3}$$)かどうか − ロジスティック回帰分析
検定 $${T_d}$$ :ホームとビジターそれぞれについて見たとき、全体として観戦の有無はチームの勝敗と関係がない(帰無仮説 $${H_{d0}}$$)かどうか − マンテル・ヘンツェルの検定(層別解析)
分割表はこちら。

3元分割表。ラベルは縦1列目が観戦有無、2列目がホームかビジターか、横が勝敗。値は左上から横書きの順に読んで、27、23、23、7、8、16、23、27。

$${T_c}$$
statsmodelsを使います。
「観戦の有無」と「ホームゲームかどうか」を説明変数にとると、オッズ比とp値は下表の通り求まりました。

ロジスティック回帰分析の結果を示す表。ラベルは縦が因子を表し、上から観戦有無、ホーム・ビジター、その交互作用。横が統計量で左からオッズ比、p値。値は左上から横書きの順に読んで3.857、0.009、0.587、0.303、0.609、0.497。

観戦の有無についてのみp値が $${\alpha}$$ を下回りました。$${H_{c0}^1}$$ が棄却され、『観戦の有無と勝敗にはやはり関係がある』と言えるようです。いよいよ追い込まれてきました。


$${T_d}$$
分割表をホームゲームとビジターゲームそれぞれの2x2分割表に分けます。
各セルの値を左上から横書きの順に $${a,b,c,d}$$ 、合計を $${n}$$ とすると、マンテル・ヘンツェル検定を行うための「共通オッズ比 $${OR_{MH}}$$ 」は次の通り求まりました。
$${ OR_{MH} = \dfrac{\sum_{s \in \{\text{home}, \text{visitor}\}} \dfrac{a_s \cdot d_s}{n_s}}{\sum_{s \in \{\text{home}, \text{visitor}\}} \dfrac{b_s \cdot c_s}{n_s}}=3.023 }$$
さらにp値は $${p_d=0.01000}$$ と求まり、$${\alpha}$$ を下回ったことで $${H_{d0}}$$ も棄却されました。


そもそも2024年シーズンのベイスターズは、ホームで負けてビジターで勝つチーム(*3)だったので、福の神っぷりが余計際立つ結果となりました。
統計的に『ホームゲームかどうかに関わらず、私が観戦したときの勝率は観戦しなかったときの勝率より高い』らしいです。なんということでしょう。

[おわりに] これからも試合を見よう

とはいえ“本当に”「私が見ると勝つ」(*4)とは思えません。こうして統計のおもしろさを目の当たりにすることができました。
今回の結果を受けて「なぜ私が見ていると勝つのか」という新たな分析のスタート地点に立たされたようですが、それはまた別のお話。「擬似相関」の一言で片付けるのはもったいない、興味深いストーリーが待っていそうです。
少なくとも「見ると負ける」という心配は捨てて、”統計的に”安心して観戦を続けたいと思います。
(メディア研究開発センター・太田幸一)


*1 現地観戦は6試合で、4勝2敗でした。
*2 ここで「因果関係」は示されていません。また、「因果関係がない」ことも示されていません。
*3 たとえば日本シリーズではホーム2連敗からビジター3連勝。
*4 逆の「勝つときに見ている(ことにしている)」も、Googleカレンダー日記を意識して機械的につけているため、あまり考えられない印象です。