• 0

  • 724

Футбол больших данных. Как продвинутая статистика влияет на игру и трансферы

4 августа 2020, 20:52

Что такое xG, xA и что оно нам дает? Как мы создаем наши инфографики? Как продвинутая футбольная аналитика повлияла на современный футбол? Кто ее использует? 

Сезон 2017/18 в исполнении Карима Бензема оставлял желать лучшего. Всего 5 голов в 32 матчах Лиги, два из них с пенальти, и критика в его адрес была ожесточенной. Болельщики просили у Флорентино Переса купить нового центрфорварда и немедленно продать Карима, считая его виновным, в частности, в неудачной игре команды в чемпионате Испании.

Всего два года спустя Карим Бензема — лучший игрок «Реал Мадрида», больше которого в Испании забивает только Месси. За два сезона Карим забил 42 мяча в чемпионате Испании и отдал 14 голевых.

Так чем же объясняется тот неудачный сезон французского нападающего? Спадом в игре, иным стилем «Мадрида» при Криштиану или просто банальной неудачей?

Правильный ответ оказался ближе к третьему варианту, и мы смогли получить его, заглянув в продвинутую футбольную статистику. Например, изучив показатели Бензема в графе «Ожидаемые голы» или xG, — одной из метрик в статистике. Анализом xG теперь занимаются не только футбольные блогеры, мы с вами здесь на форуме, но и все клубы высших лиг Европы.

Что такое xG?

xG («expected goals») – это показатель ожидаемых голов. Условно говоря, каждому удару присуждается коэффициент опасности. xG одного удара варьируется в зависимости от оценки ситуации от 0 до 1. Он высчитывается на основании массы показателей: расстояние до ворот, тип удара, позиция для удара, способ и место передачи под удар, учитывается даже где было начало атаки, скорость атаки, дистанция, преодоленная с мячом, действия перед ударом (обводка, удар в одно касание), текущий счет поединка, помехи со стороны защитников, количество защитников перед бьющим и тд.

Коэффициент по зоне, с которой наносился удар

У xG есть недостатки. Во-первых, у каждой статистической конторы, которая предоставляет информацию по xG, своя методика подсчета и данные Opta будут немного отличаться от данных StatsBomb.

Во-вторых, методология может отличаться от сезона к сезону, потому что с каждым разом в коэффициент добавляются новые переменные и все становится сложнее и точнее, словом, футбольная статистика ведет себя как и все технологии. Например, 31 июля 2020 года StatsBomb обновили свою методологию xG и теперь учитывают и высоту точки, с которой наносится удар.

Если раньше этот удар (на gif ниже) по методике StatsBomb считался бы за xG 0.65 (очень явный голевой момент), то с новой поправкой на высоту Shot Impact Height (SIH) он будет считаться за 0.35. А это существенная разница, не так ли?

Также стоит понимать, что суммарный xG за матч не обязательно будет таким же, как результат поединка. Но он покажет нам сколько опасных моментов было создано и сколько должно было быть с них голов в матче. Обычно картинка выглядит вот так: «Реал Мадрид» нанес 25 ударов (общая сумма xG 2.8), а Валенсия 7 (xG 1.0), но счет 2:2, а должен был быть ~3:1. Кстати, довольная частая картина в матчах с «Валенсией».

Иногда методологии подсчета xG могут быть очень сложными.

Вот, например, этот же Сальвадор Кармона, чью картинку мы показали выше — бывший аналитик портала fivethirtyeight.com. В свое время он говорил, что портал собирает два вида xG —  «shoot-based» основанные на ударах, которые должны были стать голами, а также «non-shot», которые рассчитываются по другим действиям вблизи ворот, например, игрок не попал по мячу, или ему не дали пробить защитники, но это тоже был опасный момент у ворот соперника, который мог завершиться голом. Так вот, сам Кармона для подсчета использовал оба значения и высчитывал среднее.

Как данные помогают нам лучше понять игроков?

Очевидно, что у удара в пределах штрафной больше шансов стать голом, чем у такого же удара с 30 метров. При пенальти вероятность гола составляет 80%, в то время как при ударе из-за пределов штрафной всего навсего 2%. Но модель xG уже давно выходит далеко за рамки только лишь такой простой характеристики: вероятность того, что один удар закончится голом высчитывается на основе изучения даже исторических данных, анализирующих забитые голы с учетом различных факторов. Что же касается Бензема, то в 2018 году его xG понимающим людям говорил: «Кариму лучше остаться».

 

Интерфейс StatsPerform от OptaPro

В том сезоне француз провел на поле 2156 минут, его xG был 9, если не считать пенальти, однако забил всего три, если не считать те же пенальти.

Какие-то удары отразили вратари, другие в последний момент блокировали защитники. Вклад Бензема был разочаровывающим, но модель xG говорила лишь о том, что проблема не в игре француза, а в отсутствии удачи. «Мадрид» не продал нападающего, а на следующий год тот сыграл всего на 800 минут больше, и увеличил свой npxG с 9 до 13.5, но забил 18 голов (без учета пенальти). В этом сезоне при npxG 13.7 Карим забил 16 голов (и еще 5 с 11-метровой отметки).

Что такое npxG?

npxG («Non-penalty Expected Goals«) — ожидаемые голы без учета ударов с пенальти, которым обычно присуждают коэффициент xG 0,76 (StatsBomb). Пенальти в данном случае рассматривается как отдельное атакующее событие, имеющее ряд своих особенностей, сильно отличающихся от прочих игровых. Это удар по статичному мячу, в 11 метрах от ворот, без помех со стороны защитников, и тд. npxG — просто более чистый способ посчитать xG игрока и проанализировать его вклад.

Все эти сезоны продуктивность Карима Бензема в рамках npxG была одинаковой:

2017-18  npxG/90 — 0.38

2018-19  npxG/90  — 0.41

2019-20 npxG/90 — 0.39

Но при этом, в двух последних сезонах без учета пенальти Карим забил не три, а 18 и 16 голов, соответственно.

В декабре 2019 года более наглядно отсутствие большой разницы в перфомансе Карима два сезона назад и сейчас пытался показать Driblab — (прим. — чем больше размер круга — тем выше xG, закрашенный в белый — гол)

Карим в сезоне 2017/18 нанес 79 ударов с 0,19 xG на удар. А в этом сезоне к декабрю — 86 ударов с xG 0.16 за удар. Тогда было 8 голов (в ЛЧ и Ла Лиге), а к декабрю этого сезона — 14. Обратите внимание насколько больше ударов у Карима в сезоне 2017/18 было из района 11-метровой, совершенно убойной позиции для нападающего. И, наоборот, сколько в этом сезоне из-за пределов штрафной.

Вот мы и приходим к выводу — низкая результативность Карима Бензема в сезоне 2017/18 была лишь вопросом удачи/неудачи, стечением обстоятельств.

«Говорили, что Карим переживает спад, но мы видели, что это не так», — объясняет испанской газете El Mundo Пабло Пенья, ответственный за инновации и анализ в статистической конторе StatsBomb. StatsBomb — одна из самых крупных платформ, собирающих и анализирующих футбольную статистику, их сервисами пользуются многие клубы Ла Лиги и «ПСЖ».

«Проблема Бензема была в завершающем ударе и в банальном невезении. Это разочаровывает, да, но клуб должен сам анализировать говорит ли это о большой проблеме или это просто вопрос отсутствия удачи. Ожидаемые голы (xG) — один из способов это понять».

Лучшие нападающие генерируют много xG

Логично, что нужно смотреть не только на данные Бензема, но также на то, как игрок проявлял себя до того, или как проявляют себя его конкуренты и соперники.

Главное отличие лучших нападающих от всех прочих, не только в процентах конверсии ударов в голы (у Месси и Роналду это примерно 15%), но также в том, сколько возможностей забить они генерируют в сумме (xG). Важно и качество, и количество этих моментов.

Как бил и забивал «Реал Мадрид» в первой половине этого сезона:

Но мы не можем анализировать что-либо без контекста.

В своих инфографиках я также стараюсь не только показывать вам суммарные данные, но и смотреть от чего они зависели или с чем их можно сравнить. Для этого я много времени провожу анализируя данные, задавая себе вопросы после каждой новой выявленной закономерности и, конечно же, считая.

Давайте лучше приведу пример.

Возьмем тот же провальный, худший в карьере сезон Карима Бензема — 2017/18 и его npxG в размере 9.0. Чтобы понять насколько это плохо или хорошо, я смотрю, — сколько игроков Ла Лиги, например, в нынешнем сезоне преодолели потолок npxG 9?

Ответ: таковых всего лишь семь. И один из них сам Карим Бензема.

Сохранится тенденция и если смотреть npxG за 90 минут. Лучше, чем 0.38 Карима тоже у семерых (только среди них появился Авила из «Осасуны», серьезно сломавшийся зимой). Проверили, отлично.

Готовя статью под такую статистику мы бы могли написать что-то вроде: «Худший сезон Карима Бензема все равно лучше, чем этот сезон Гризманна в Барселоне» (npxG/90 Гризманна в этом сезоне — 0.29). И набрать еще данных под этот вывод.

Но если бы мы усомнились в простоте нашей находки, — прямо по Венгеру, который просил своих игроков всегда во всем сомневаться, — то рассмотрели бы эти же данные не только по нынешнему сезону, но и в контексте сезона 2017/18. И то, что мы бы обнаружили, сильно изменило бы наши прежние выводы или добавило бы новые, куда интереснее.

В сезоне 2017/18 npxG 9.0 Карима превосходили не семь, а девятнадцать ! игроков.

А это означает, что если Карим эти три сезона играет на привычном для себя уровне, npxG 0,38 — 0,41 за матч, то есть,  создает одинаковую опасность у ворот соперника за матч, то во всей Ла Лиге нападающие остальных команд сильно, очень сильно просели.

А что в Англии?

В Англии игроков преодолевших npxG 9.0 в этом сезоне — 22. А в сезоне 2017/18 — 15. Какие из этого вы бы могли сделать выводы? Какую бы статистику искали бы дальше? Что написали бы? Каким бы был заголовок?

Становится понятным насколько важным бывает контекст того или иного сырого показателя. Их нельзя рассматривать в отрыве. Именно такими вещами я и занимаюсь тут на Real-Madrid.ru, когда пытаюсь объяснить на инфографике тот или иной статистический аспект.

Если вы до этого не читали мои статистические/инфографические статьи, то вот некоторые из них:

Возрастная типология испанских грандов — про составы и проблемы с ними «Реал Мадрида», «Барселоны» и «Атлетико». Анализ был сделан в самом начале сезона, когда «Атлетико» был на полном ходу, у Барсы были травмированы Месси и Суарес, а «Мадрид» очень сильно критиковали. Но уже тогда было видно, что «Мадрид» зря отправляют в утиль, у него самый классный и глубокий состав. У «Барсы» будут проблемы с финансами и с заменами (короткая скамейка). У «Атлетико» — со стабильностью и защитой.

Федерико Вальверде и три мушкетера. Тотальный анализмонументальный материал о четверке полузащитников «Мадрида» и их статистике в первой половине этого сезона

Оскар, Мартин Эдегор, Такефуса Кубо: кто должен заменить Луку Модрича? — о трех арендованных «Мадридом» самых талантливых медиапунтах Ла Лиги в этом сезоне

Или вот еще один глобальный анализ с кучей стат данных: «Медленная агония затухающей свечи. Три последних сезона Гарета Бейла»

Еще больше моих инфографик, чем на сайте, можно увидеть в моем телеграм-канале «Одной левой» и в твиттере.

Но, продолжим.

В случае с Бензема, зная, как он играет, понимаешь, что считать его вклад в игру только по xG — ошибка. Большая ошибка. И она известна любому, кто смотрит матчи «Мадрида».

Потому что Карим создает партнерам моменты на уровне лучших плеймейкеров мира. Как о нем говорят — «девятка в теле десятки».

Когда на форуме попросили показать статистику Карима до матча с Валенсией в декабре и после (было подозрение, что Карим сильно сдал зимой и это было подтверждено статистикой), то в подсчет были включены как xG, так и xA:

 


Прим. — на момент подсчета у Карима был xG 20.6 и xA 10.0 (суммарно в матчах Ла Лиги и Лиги чемпионов). Сейчас у Карима xG 22.6 и xA 11.4. И впереди остался один или больше матчей Лиги чемпионов.

Итак, насколько Карим не просто нап, а форвард-плеймейкер нам смогла помочь метрика ожидаемых голевых передач —  xA. И многие другие, но мы для примера рассмотрим ее.

Что такое xA?

xA — подобно xG,  показатель того, сколько было бы у игрока голевых передач (ассистов), если бы его партнеры реализовывали созданные им шансы. xA говорит о способности игрока генерировать голевые моменты для партнеров, вне зависимости от реального результата удара или от удачи или мастерства партнера. Стоит помнить, что не все голевые передачи могут считать в xA (например, случайное касание игроком мяча может быть засчитано официально, как голевая передача, но не попасть в метрику xA).

В этом сезоне у Карима xA — 8.4. В Ла Лиге больше только у Месси (15.4), в АПЛ больше каримовских только у троих — Де Брюйне (18.3), Трента Александра Арнольда (9.6) и Рияда Мареза (9.0). Никто из них не играет на позиции девятки.

В худшем сезоне Бензема (напоминаю, 2017/18) — 5.7. Это уровень, например, нынешнего Роберто Фирмино, и это больше, чем в этом сезоне у фантазист «МанСити» Давида или Бернардо Силв, главная задача которых как раз создание голевых моментов для других. Забивать 20+ голов от них никто не требует.

Далее были подготовлены графики по xGBuild Карима и передачам в финальную треть и штрафную. Бензема и в этом показателе один из лучших в «Реал Мадриде». Мы могли пойти дальше и проанализировать еще более специфические метрики, но это тема для отдельной статьи. Карим Бензема просто отличный плацдарм для подобного анализа.

Как клубы готовятся к матчу, используя продвинутую статистику?

Скриншот интерфейса InStat

Но одно дело мы, а другое — профессионалы из мира футбола. Как было сказано выше, теперь подсчет xG и всех остальных более сложных метрик, которые кому-то уже успели надоесть, а кто-то все еще считает несерьезным занятием, сильно влияет на современный футбол.

Случай Бензема — лишь пример того, как передовая статистика может помогать нам понять конкретные ситуации или конкретных игроков. Все это и многое другое анализируют испанские и европейские клубы. С каждым годом все более детально и, вкладывая все больше бюджетных средств в такие испанские платформы, как MediaCoach или DribLab, либо международные, как WyScout, StatsBomb или InStat. Некоторые из них являются поставщиками необработанных данных о матчах многих чемпионатов и даже консультантами клубов на трансферном рынке.

«Чтобы подготовиться к каждому матчу, мы изучали 4-5 предыдущих поединков нашего соперника. Лично я занимаюсь анализом физического аспекта», — объясняет El Mundo Даниэль Пастор, тренер по физподготовке «Майорки».

«Мы изучаем многие аспекты. Например, расстояние, которое преодолевает соперник. Или сколько времени его игроки способны работать в условиях высокой интенсивности, — это очень важный для нас фильтр. Либо сколько спринтов они делают. Каково значение их пиковой скорости, например, их центральных защитников… Мы все рассматриваем. Согласно одним исследованиям, у вас могут быть большие проблемы, если ваши центральные защитники не могут достичь скорости 30 км/час, и обычно это именно так» — говорит Пастор.

 

Интерфейс WyScout напоминает компьютерные футбольные менеджеры. Главное отличие — огромное количество видеоматериала. Игра стала частью большой игры

В свое время Марсело Бьелса, будучи тренером сборной Аргентины на ЧМ-2002, возил с собой в Японию и Корею 7000 видеокассет, чтобы анализировать соперника перед матчами. Сложно представить, сколько нужно времени, чтобы пересмотреть все эти видеокассеты. Сейчас не нужно ничего с собой возить, кроме ноутбука. А видео все тщательно подобраны и отсортированы.

В «Майорке», как в других клубах, чтобы провести анализ каждого поединка, пользуются инструментарием платформы Mediacoach.

«Благодаря этому мы видим как каждая команда выходит в атаку, какое решение принимает центральный полузащитник в момент, когда нужно отдать передачу. Если у нас есть эта информация, мы можем действовать соответственно. Но также всё это служит и для того, чтобы анализировать наших собственных игроков. Если игрок обычно за матч пробегает 600 метров на своих пиковых значениях, но успел уже столько пробежать за первый тайм, то мы принимаем это во внимание и понимаем, что если не заменим его, есть риск, что он сдаст во втором тайме или и вовсе травмируется».

Эти слова мы должны понимать так:

Вся Ла Лига знает, что Азар в большинстве случаев принимает мяч спиной к воротам ближе к центру поля (риск получить карточку или штрафной у своих ворот не велик) и у него больная щиколотка. То, что произошло в матче с «Эспаньолом», а ранее с «Леванте» — не случайность. Грамотные команды именно так будут играть с Азаром. Плотно, не давая ему развернуться, в том числе даже просто наступая ему на ногу.

Или обратный пример — все знают, как играют Кроос, Модрич или Бензема. Но достаточно увидеть как они работают с мячом, и понять — никто не может отобрать у них мяч или поставить их в затруднительное положение. Они с легкостью выбираются из ситуации за долю секунды до того, как она успевает стать ловушкой. Но выбраться получается, конечно, не всегда, а ловушки создаются с каждым разом все более изощренные.

Думаю, мы бы многое узнали о подготовке к матчу от соперника, если бы знали, как этим занимаются, например, в «Хетафе» Бордаласа.

Команды, у которой самая высокая защитная линия в испанском футболе — 40,4 метра. «Хетафе» — одна из худших команд по владению мячом, у нее худший процент точных передач в Лиге (63.2%), но какую славную охоту она устраивает на половине поля соперника!

Вот одна из интересных специфических метрик, ведущих к пониманию феномена «Хетафе», — эта команда на втором месте в Ла Лиге (после «Барсы») по количеству заработанных фолов поблизости от штрафной соперника. Или вот еще — она третья по числу единоборств в атакующей трети. Или еще — она абсолютно лучшая по суммарному числу прессинга соперника по всему полю и вторая по успешному прессингу на той же атакующей для себя трети (защитной для соперника). Основное давление «Хетафе» на оппонента происходит у чужих ворот.

Тренер, который готовится к матчу с «Хетафе», будь он даже тренером «Реал Мадрида» или «Барселоны», не может игнорировать эти данные.

Как эти данные собирают?

В Ла Лиге анализом того, что происходит в течение 90 минут матча, занимается в большей степени Mediacoach. От базового — голов, до деталей, которые проходят незамеченными, как, например, движение игрока максимально отдаленного от мяча в конкретном игровом эпизоде. Все это потом получают в виде данных команды Примеры и Сегунды.

«Мы отдаем клубам также видео из четырех источников. Телевизионный сигнал; панорама от ворот до ворот; тактическая камера, которая всегда следит за 20 полевыми игроками; и виртуальная реконструкция в 2D», — резюмирует директор платформы Mediacoach Рикардо Реста.

Платформа разместила свои камеры и датчики для оптического трекинга на всех 42 стадионах двух испанских лиг. Таким образом, они получают позицию всех игроков и мяча 25 раз в секунду. Так они получают данные о скорости, о событиях (пасы, удары…) и обо всем, что происходит на поле.

«У нас около 280 уровней данных. Мы предоставляем также инструменты, чтобы клубы могли эти данные интерпретировать. Вы можете увидеть прессинг соперника, среднюю позицию команды в атакующей или оборонительной фазе, расстояние до ворот при потере мяча, пространства между игроками»… — объясняет он.

Реста смеется, рассказывая, что в последнее время на платформе стали регистрироваться не только тренеры, аналитики, спортивные директора, но и зарегистрировались четыре президента клубов Ла Лиги, у которых большой интерес к этой теме. «Они смотрят, например, как их команда отступает к своим воротам, сколько она бегает, больше или меньше соперника, какое место в рейтинге занимает по отношению к остальным…».

Как клубы ищут себе игроков?

В футболе в 2020 нет ничего случайного. Все изучено и проанализировано значительно дальше простого 4-4-2. И всё, абсолютно всё, можно найти в архиве на компьютере:

«Впрочем, я никогда не видел, чтобы компьютер забивал голы», — шутит Менно Гелен, директор «Аякса», один из пионеров в секторе футбольной аналитики. «Данные служат лучшему пониманию всего, да, они критично важны, но они просто помогают нам, не более того».

«Аякс» как никто другой умеет пользоваться одной из основных компонентов передовой статистики — скаутингом. Благодаря таким инструментам, как WyScout, который позволяет просматривать сотни лиг со всего мира по цене, не превышающей 2000 евро, или таким платформам, как Scout 7, Transflab или StatsBomb, более ориентированных на фильтрацию игроков по различным характеристикам или их рыночной стоимости.

«У нас на каждом матче работают по четыре человека и, кроме того, есть автоматизированная часть, чтобы собрать все возможные данные», — объясняет Пабло Пенья из StatsBomb.

«Вы создаете тип игрока, который вам нужен. К примеру, пусть он хорошо бьет головой, отбирает мячи, будет хорош в прессинге и заставляет центральных защитников ошибаться в передачах… И система даст вам кого-то с такими характеристиками», — резюмирует он, хотя и признает, что «это помогает, но нужно понимать, как интерпретировать эти данные. Нельзя с уверенностью прогнозировать, что этот игрок в другой команде добьется успеха, потому что на успех влияют многие другие факторы, в том числе, психологические».

Примеры трансферов на основании данных

Дашборд SciSports с анализом Килиана Мбаппе

Тот же El Mundo утверждает, что бразилец Ришарлисон и аргентинец Ло Чельсо перешли в «Эвертон» и «Бетис», соответственно, после того, как их проанализировала и рекомендовала испанская компания Driblab — молодой проект, который занимается поиском новых игроков для своих моделей.

«В сентябре мы садимся вместе с представителями клубов и они говорят нам, что им нужно, ставят ряд фильтров по желанию. Мы покупаем данные у третьих лиц, например, у WyScout или InStat, и составляем отчеты. Это так же, как если бы мы покупали ром, чтобы продавать мохито», — рассказывает Сальва Кармона, один из основателей Driblab. Да, тот самый, что был упомянут выше и собирал эту статистику по xG для различных порталов.

«У нас собственные отличные разработки и ПО, мы анализируем сырые данные, которые дают нам поставщики. Мы рассматриваем до 300 различных метрик. И, таким образом, пытаемся найти талант или, наоборот, его исключить», — говорит Кармона, отмечая, что сейчас его деятельность больше не вызывает сомнений, когда говорят о Big Data и футболе: «В 2014 году на нас странно смотрели, но сейчас, верите ли данным или нет, вы не можете сказать, что это всё ложь или ничего не значит».

—————

И наконец, часто спрашивают:

Где можно бесплатно посмотреть продвинутую футбольную статистику?

— Довольно известный сайт Whoscored.com
— Чуть менее известный — Squawka, они берут данные Opta. В настоящий момент их платформа на реконструкции, но они выкладывают различные подборки.
— Статистика по xG, xA, xGBuild и многим прочим по 5 европейским чемпионатам, в том числе, российскому — UnderStat
— У WyScout и StatsBomb и Driblab нет бесплатной версии, но у них есть блоги, где они выкладывают много информации по статистике и даже большие аналитические статьи
— У всех статистических платформ есть свои твиттер-аккаунты, где они выкладывают сведенные данные, инфографику и прочее.

Бонус: как выглядит отчет InStats по матчу «Барселона» — «Реал Мадрид» 1:3 (от 13 августа 2017 года, матч Суперкубка Испании, язык — английский)

Оставьте комментарий

Scroll Up

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: