2009年10月17日土曜日

競馬の投票の時系列データの可視化



来月の国際会議Complex09で競馬の話をするので、そのネタに画像を作ってみました。英語の能力不足をカバーするには、派手な画像とかアニメーションとか、見るだけでわかるもの、楽しめるのものを使うのがいいので。

この画像の赤のドットが勝ち馬、青のドットが負け馬を表し、縦軸が時間軸で一番下が投票の開始、一番上が投票の終わり。馬は2008年にJRAで走った馬から500頭の勝ち馬、負け馬(計1000頭)をランダムにチョイス。横軸は得票率を表し、左が得票率が高く、右が低く、馬をその得票率(オッズの逆数)の順番で並べる。一番下の状態は投票データの第一回目に発表されたもので、約70票の投票後に馬を並べた状態。ほとんどランダムに並んでいます。そして、投票が進む(上側に)につれて、勝ち馬と負け馬が相分離し、投票の最後の方では得票率軸上で青と赤が分離している様子が確認できると思います。ちなみに、黄色いドットは、負け馬からランダムに一頭を選び、その時間変化の様子をプロットしたもの。

最終的には勝ち馬が左の得票率の高いほうに集中、負け馬は右の人気のないほうに集まるのですが、右端にも結構勝ち馬が存在していることがわかります。これが、「万馬券のスケール不変性」と呼んでいる現象です。それを説明する確率モデルや、その極限として現れる「完全にスケール不変なグラデーション」、競馬ファンの勝馬予想の精度がどのように変化し、それから何がわかるのか、を会議では話す予定。上の図を見せて、投票で馬が混ざる様子のアニメーションを見せ、式変形で完全なグラデーションを導く、まではいいとして、競馬ファンがどう予想を行うのかについて語るのは難しいかも。そもそも私が競馬をしないし。

0 件のコメント: