スタッツボムカンファレンスまとめ: アーセナルのデータ分析の最前線
毎年オプタと並んで世界最大手のスポーツデータ会社の一つであるスタッツボムが主催のスタッツボムカンファレンス、というのが実施されているのですが、今年はそこにアーセナルのデータサイエンティストの方が登壇しており、アーセナル、そして欧州の最先端でのデータの活用のイメージが窺える非常に興味深い内容だったので、そもそもその事前情報として必要になると思われるトラッキングデータとは何か、という部分も合わせて紹介します。
実際にアーセナルではどのようにデータを使っているのか?という部分だけ読みたい方は『アーセナルでのデータ活用例』の見出しから読み始めても十分概要は伝わるかと思います。
登壇したアーセナルのデータサイエンティスト、シンさんのツイッターアカウント
じつはシンさんにはアーセナルで働き始める前に許可をいただいて、ディアハトで記事を訳させていただいたこともありました。
最近The Athleticなどのメディアでちらほら使われ始めている、xGやxAに次ぐ期待値系のサッカーのデータ分析の指標であるxTの解説記事です!多分xTはこれが日本初上陸のはず!https://t.co/L9pG3WPJmY
— 山中拓磨(Takuma Yamanaka) (@gern3137) December 3, 2021
その際の記事は、xT(Expected Threat)という、最近はすっかりおなじみになっているスタッツ用語の一つであるxGをより幅広くピッチ上全体に拡張して、シュートと直接関係ないアクションがどれだけ得点の可能性を高めているかを計測する、という話だったのですが、シンさんの専門分野はトラッキングデータの活用法とのことで、今回の講演ではトラッキングデータに関してと、実際にアーセナルでそれをどのように活用しているのか、という話がメインでした。
スタッツのタイプは違いますが、xTもトラッキングデータの活用も、既存のデータでは計測できないような数字を測れるするためのものである、という点では考え方は共通しているように感じられます。
トラッキングデータとその種類
トラッキングデータとは
トラッキングデータとは、簡単に言えば、ピッチ上の選手の(ボールを持っていない際も含めた)位置情報やその移り変わりを時間とともにトラッキングしたものです。
例えば、タックル数、シュート数、などといったデータでは選手の活躍は実際にボール周辺で行われたアクションしか測定することができませんが、トラッキングデータを用いれば、シュートブロックやタックルには至らなかったものの、相手がシュートコースを防がれたため、パスを選択した、のような相手の攻撃の芽を未然に摘むようなアクションであったり、ボールは届かなかったがスペースに素晴らしい走り込みを見せた、のようなプレイも図ることができます。
反比例するデータ精度とデータの手に入りやすさ
このように、トラッキングデータがあればいわゆるイベントデータと呼ばれる、従来型のボールに関連したアクションにフォーカスしたスタッツよりもはるかに情報量が多く、精度の高い情報が得られるものの、問題となるのはその情報量の多さゆえの取得の難しさです。
例えば、サッカーの放送でボールが映っていないことはほとんどないため、仮にリアルタイムでイベントデータが取得されていなかったとしても、映像さえあれば、例えば何十年も前のW杯であったり、そこまで設備が整っていない下部リーグの試合であっても、データを取得することは可能です。
ただ、完全な形でのトラッキングデータはそのための設備が必要となるため、現状基本的にはプレミアリーグの試合のもののみしか取得できず、分析には使えるが、スカウティングなどに用いるのは難しいそうです。
AIを活用した解決策
また、少し話が前後しますが、これと並行して、データ分析において課題となっていたのが、様々な指標のモデルが乱立しており『Aの選手はこの場面でどこにパスを出すべきか?』という問いに関しては①のモデルを用い、『Bの選手がこの場面で見せた裏へのランはどれくらい価値があるのか?』という問いに関しては②のモデルを用いて計測する、のような作業が必要となっていたことだったそうです。
そして、上のトラッキングデータに関して注目すべきは、TV放送には22人全員のポジショニングが映っていることはほとんどないものの、ボール周辺の4-5人などであれば映像に記録されているという点で、イベントデータと同様に、映像さえあればある不完全ではあるもののある種のトラッキングデータは取得できる、ということです。
ただし、完全なトラッキングデータと映像から算出した限られたトラッキングデータを同列に扱うのは難しく、かつ上述の通り、もともと様々な指標が乱立していたため、これらを解決するために、ChatGPTのもととなっているTransformerと呼ばれるLLM(大規模言語モデル)を活用し(GPTはGenerative Pre-trained Transformer: 生成型事前学習済みTransformerの略)、一つの統合モデルを作成、そのモデル一つを用いるだけで様々な形式の入力データから、様々な形でのデータを出力できるような仕組みを構築したのだそうです。
アーセナルでのデータ活用例
バーチャル戦術ボード
例えばxTのような指標を用いて、このブレントフォード戦でのこの形では失点の可能性が〇%、このカウンターが成立する可能性は●%のようなデータを表示できる。
さらに、これはインタラクティブなボードで、このボード上で守備側の選手のポジションを変えたりすることで、『もしこの時にこの選手Aが5m後ろにいれば、カウンターが成立する可能性を□%下げることが出きた』のように自由に試すことができる。
リアルタイムでのデータ分析
基本的には試合のリアルタイムの展開から30秒遅れでその試合のデータは出力されている。
相手はローブロックを敷いている、ハイプレスを仕掛けている、アーセナルの攻撃が右サイドに偏っている、相手の攻撃は右のハーフスペースからが一番多い、などの情報をほぼリアルタイムで知ることが可能。
シチュエーション別検索
統合モデルを用いて管理しているので、関連性のある情報を検索するのが用意。例えば、明日の対戦相手の左サイドバックはAがプレイしそうだ、どう対応すべきか、ということを知りたい場合に、過去の選手Aがアーセナル相手に左サイドからクロスを上げようとし、それに成功したケースと失敗したケース、また逆に選手は違うがほとんど同じような状況でサイドを攻略されてしまったケースの映像、などを探すことができる。
まとめ
最後のシチュエーション別検索というのは非常にAIっぽいというのか、AIを活用したモデルならではの機能だな、という気がしました。
もちろん無料で公開されているデータだけでもかなり精度が高く、様々な分析が行われているくらいなので、実際のトップクラブレベルではそのはるかに先を行っているのだろうな、とは思っていましたが、こうやって具体的に示されると少し圧倒されるようにすら感じられます。
もちろん、これはあくまでデータ部門ではこれくらいのことは出来る、という話にすぎないので、例えばリアルタイムに出力されるデータを監督やコーチがどれくらい見ているのか、選手のスカウティングにどこまでデータが活用されているのか、などに関してはわからないわけですが、こうしてみると以前報じられたエドゥが人間のスカウトを削減して、よりデータに重点を置いたアプローチに切り替える方針を採用した、という話なども、アーセナルがデータ分析においては他のクラブよりも先を行っているという自信があったからこそのものだったのかな(勝手な想像にすぎませんが)、と少し納得がいきました。
ディスカッション
コメント一覧
私たちにとってもたいへんで
大量の情報を管理できずに衰退していったひとたちがaiでは可能になるし、
いと的なデータばかり集めたらaiはどうなんの
現状はツールですけどそのうち何でも答えてギャリーネビルでも監督ができる日がくるかもしれない
そしたら逆にデータないことやってトミーをゴール前に!