実験スピリッツ

なんでも挑戦!なんでも実験!

スポンサーリンク

回帰分析×競馬で金儲けができるのか。

f:id:yw555201:20150829011115j:plain

先日、たまたま映画「男はつらいよ」を鑑賞しました。私はその劇中で寅さんが競馬で大勝している姿を目撃しました。勝因はなんと「馬が語りかけてきやがった」というものです。

なるほど、それでは本当に馬が語りかけてきて勝利を導いてくれるものなのか実践してみたいと思います。

データ分析でやってみる

本当に馬が喋ってくるはずがないのでデータを分析します。

しかし、私は競馬のド素人でどうやって勝馬を予想すればいいのか分かりません。ここはデータ分析の出番です。さすが大人気のギャンブルである競馬には様々なデータが提供されており、血気盛んに分析が行われているようです。

今回は、ロジスティック回帰分析を用いて予測モデルを作成し、対象レースの出走馬の勝ち馬を調べることにします。(難しい説明は省きますが、R言語を使えばやること自体は簡単です。データを集めるのが大変でしたが。。)

勝馬を求めるモデル式には、

・対象馬の過去2年間の出走レースのうち3着以内に入る確率

・対象騎手の過去2年間の出走レースのうち3着以内に入る確率

という値を変数として用いるのが良いようです。

まずはそれらを求める為に、各データを集めました。今回は日本中央競馬会が公開している過去のレースデータをお借りします。

対象となるデータは、期間を2015年1月1日~2015年7月30日、新潟競馬場、ダート、1800mを条件にしています。

結果として、以下のモデル式ができました。(太字の係数を回帰分析で求めました。)

(ある馬が2着以内の確率)=(-3.3797)+(対象馬の過去2年間の出走レースのうち3着以内の比率)×(1.5665)+(対象騎手の過去2年間の出走レースのうち3着以内の比率)×(4.7882)

実際に予想してみた。

このモデル式に従って、8月29日の新潟競馬場、「11R BSN賞」の出走馬について検討します。各馬のデータから得られる変数を先ほどのモデル式に代入し、2着以内に入る可能性が高い順に馬を並べてみます。

その結果、以下のような予想が立ちました。

1位アジアエクスプレス 2位フィールザスマート

3位トウショウフリーク 4位ストロングサウザー

5位ヴォーグトルネード 6位ダノンリバティ

7位サンマルデューク  8位ダブルスター

9位ダイヤノゲンセキ  10位トウシンイーグル

11位ベルゲンクライ   12位ナリタポセイドン

13位ツクバコガネオー  14位オメガブレイン

うーん、ほんとにこれで大丈夫なのかな?

全然、馬が語りかけてこないじゃん!!!

実際に買ってみた

実はちょっと前にやってみた話なのでタイムリーな話じゃなくて申し訳ありません。8月29日に近所の馬券場に行ってきました。回帰分析の予想を手に意気揚々と乗り込みました。

しかしまず、行ってみて気が付いたのは、来場者は競馬新聞をどこかで買ってから来ているということです。新聞も持たずに来るなんて素人丸出しです。そんな人間はどこにもいません。

いやいや、いいのです。1レース必勝なのだから。新聞なんてアテにしてるようじゃ甘いぜ。

馬券戦略

しかし、次に気が付いたのは、馬券戦略を立てていなかったということ。
あー忘れてた!馬券の買い方には、単勝、複勝、馬単、馬連など様々な選択が可能です。
うわうわ、どうしよう。。レースまで時間がないぞ。。。
落ち着いて下さい!!!
私が使っているモデル式は対象馬が2位以内に入る確率を計算したものでした。
つまり、馬単(1位と2位を順番通り的中させる)で買えば問題ないでしょう。なるほどなるほど。
では予想ではじき出した上位4頭を選び、全ての組み合わせ(4×3=12通り)で100円ずつ購入します。これでひと安心。
しかしまだまだ素人への洗礼が続きます。マークシートは色んな種類があって、どれを使えば良いのかよくわからずフラフラ。馬券を購入するのも、どこにマークシートを挿入すれば良いのか分からず自動発券機の前でおろおろ。横ではあちらこちらでテレビ中継を見守るオーディエンスがガヤガヤ。
f:id:yw555201:20150829131352j:image
これらの問題をなんとかクリア。どうにかこうにかレースに間に合い、馬券を購入できました。

f:id:yw555201:20150830222710j:plain

っていうか、マークミスで②-⑩ダブって買ってるし。。まあいいでしょう!
さあ、いよいよ荒稼ぎへのステップを踏み出す瞬間です!よろしく頼むよ!アジアなんとか君!ストロング…君!フィールドなんちゃら!トウショウフリーク!

レース結果

f:id:yw555201:20150830224143p:plain

…このおおばか野郎!おれっちがなあ、この分析に何時間かけたと思ってやがるんでい!(寅さん風)

気が済んだので、レースの内容の報告をします。アジアエクスプレスがレースを引っ張る展開でしたが、ゴール間際に力尽き大きく順位を落としました。予想では6着だったダノンリバティが一気にまくる展開で着順1位。唯一救いだったのは、トウショウフリークの健闘です。なんとか2着以内に入ってくれました。

反省会

次があるかどうかは置いといて、反省会を開きます。失敗こそ成長への第一歩です。

とにかく予想がひどい。2着予想のフィールザスマートはなんと最下位に沈むなど、全然ダメです。まずは、予想の順位と当日の着順で相関を調べてみます。

f:id:yw555201:20150831153750p:plain

簡単に説明すると赤い直線が約45度の角度で右肩上がりになっていれば、モデルの精度が良いということです。

もう少し詳しく説明してみると、回帰モデルの精度を表現する指標として重相関があります。それは、赤い直線の傾きで表されます。

1に近ければ精度が良くなり、0に近ければ精度が悪くなるという指標ですが、今回はこれが0.257!めちゃくちゃ精度わる!予想と結果でやや相関がある程度です。たった1回の試行回数とはいえ、ここまでひどいとは。。

まとめ

これでは荒稼ぎなど夢のまた夢。馬は生き物ですからあらゆる不確定要素が重なったのかもしれません。競馬には様々な分析要素があります。馬場の状態、芝orダート、体重、調子、平均タイムなどなど。過去の実績のみではなくて、もう少しモデル式に変数を加えてみても良いのかもしれません。

もう少し検討してみたいところですが、今回はこの辺で。

てやんでいばーろー!

2016 中央競馬全重賞データバイブル (メディアックスMOOK)

2016 中央競馬全重賞データバイブル (メディアックスMOOK)

Â