Погрешности xg: как неточность модели влияет на прогнозы футбольных матчей

Почему xG не равно будущему счету

xG давно перестал быть игрушкой для гиков и превратился в основу, на которой строятся профессиональные прогнозы матчей. Но у любой метрики есть погрешность, и именно она часто «ломает» даже очень умные модели.

Если говорить совсем по‑простому: xG — это не предсказание гола, а вероятность. И когда мы используем ставки на футбол по xG прогнозы, мы в реальности опираемся не на точный ответ, а на распределение исходов, где всегда есть место разбросу, удаче и человеческому фактору.

За три последних полноценных сезона (2021/22, 2022/23, 2023/24) в топ‑5 лигах Европы по открытым данным (Understat, FBref/StatsBomb, Opta) разброс между ожидаемыми и реальными голами на дистанции сезона стабильно держится в схожих рамках:

— средняя разница между xG и забитыми голами команды за 38 туров: около ±5–7 мячей;
— у 10–15 % команд отклонение превышает ±10 голов за сезон;
— отдельные игроки могут «переезжать» свой xG на 6–10 голов за сезон (Сон, Месси, Халанд, Кейн и др.), а кто‑то наоборот хронически не реализует моменты.

Это не баг модели — это и есть жизнь. И если эту погрешность игнорировать, прогнозы становятся хрупкими, а банкролл — очень нервным.

Откуда вообще берётся погрешность xG

Классическая xG‑модель учитывает типичный набор факторов: дистанция удара, угол к воротам, вид передачи, тип удара (головой, ногой), ситуация (пенальти, стандарт, игра). У более продвинутых моделей — ещё и позиционирование вратаря и защитников, скорость атаки и т.д.

Но что остаётся «за кадром»?

1. Индивидуальное мастерство.
Модель считает, что удар с 11 метров — это примерно 0.75 xG для среднего игрока. Но пенальти Месси и пенальти условного защитника второго состава — это разные истории.

2. Контекст момента.
Усталость, психологическое давление, счёт на табло. xG для удара на 90‑й минуте при 0:0 и при 3:0 формально одинаков, но по факту — нет.

3. Качество данных.
Разные провайдеры по‑разному размечают эпизоды, и отсюда разброс. Для одних — это один момент, для других — два удара с разной вероятностью.

4. Случайность.
Рикошет, ветер, микроподскок мяча. Любая модель xG по определению усредняет хаос, но не может его убрать.

Технический блок: формальная «ошибка» xG

Если обозначить:

— ( xG_i ) — ожидаемые голы в матче i,
— ( G_i ) — реальные голы в этом же матче,

то погрешность одного прогноза:

[
epsilon_i = G_i — xG_i
]

На длинной дистанции у хорошей модели выполняется:

[
frac{1}{N}sum_{i=1}^{N}epsilon_i approx 0
]

То есть модель не систематически завышает или занижает голы.
Но дисперсия:

[
Var(epsilon) = frac{1}{N}sum_{i=1}^{N}epsilon_i^2
]

остаётся существенной. Именно эта дисперсия и есть та самая «разбросанность» результатов вокруг ожидаемых значений, которую вы ощущаете как «команда по xG должна была забивать, но не забила».

Что показывают последние 3 сезона: цифры и тенденции

Чтобы не быть голословным, посмотрим на некоторые устойчивые факты за 2021/22–2023/24 в топ‑5 лигах (по опубликованным исследованиям и открытым агрегированным данным):

Корреляция между разницей xG и набранными очками за сезон стабильно держится в районе 0.7–0.8.
Это значит: команды, которые «выигрывают» по xG, в долгую закономерно набирают больше очков.

Но на дистанции одного сезона 20–30 % команд заметно «отклоняются» от своего xG.
Т.е. либо явно переоценены по результату (забили сильно больше ожидаемого), либо, наоборот, недобрали очков.

— Для одиночного матча точность моделей xG для прогнозов матчей (если мерить Brier score или логарифмический лосс по вероятностям исходов, рассчитанным из xG) стабильно лучше на 5–10 % по сравнению с «голым» счётом прошлых игр, но всё равно остаётся далеко от идеала.

За три последних сезона заметно усилилась глубина моделей:

— появились шут‑базы с миллионами ударов и трекинг‑данными;
— публичные сервисы начали считать post‑shot xG (с учётом траектории мяча), что чуть уменьшило разброс для вратарей;
— клубные отделы аналитики активно дообучают свои модели под конкретных игроков и лиги.

Но даже с этим объёмом данных ошибка на уровне одного конкретного матча остаётся большой: команда может выиграть по xG 2.5 : 0.5, а фактически проиграть 0:1 — и это не будет «невероятным событием» с точки зрения вероятностей.

Почему в ставках ошибка xG бьёт по банку сильнее, чем по клубам

Погрешности xG и их влияние на прогнозы матчей - иллюстрация

Клубы смотрят на xG и аналитику сезонами. Им важна тенденция, а одиночное поражение не смертельно. В беттинге всё наоборот: люди часто играют короткие дистанции и ждут, что xG «защитит» их от неудачи в каждом конкретном купоне.

И здесь начинаются проблемы:

— На коротком отрезке 5–10 матчей разброс погрешности огромен.
Команда может хронически недозабивать — и ваш аккуратный value‑бет по модели будет выглядеть как «слив серии ставок».

— Модели, не учитывающие индивидуальную реализацию (стабильных «финшеров» и слабых бомбардиров), систематически недооценивают одних и переоценивают других.

— Рынок тоже давно смотрит на xG. Поэтому «голые» цифры без понимания погрешности дают мало преимущества — линии уже учитывают базовую статистику.

Чтобы использовать xG осмысленно, важно строить не точечный прогноз («будет 2:1»), а диапазон: «чаще всего ожидается 2–3 гола, но вероятность того, что команда сгорит 0:1 даже при доминировании по моментам, далека от нуля».

Как погрешности xG искажают картину по командам

Погрешности xG и их влияние на прогнозы матчей - иллюстрация

Возьмём несколько типовых сценариев, которые за последние три сезона регулярно повторяются в разных лигах.

1. Команды‑переоценки по реализации
Типичный пример — коллектив, который стабильно забивает из полумоментов.
По сумме сезонов 2021/22–2023/24 таких команд в топ‑5 лигах было каждый год 3–5 штук из 98 (около 3–5 %), у которых разница «голы минус xG» держалась в районе +10 и выше.

На дистанции 1–2 сезонов часть из них «приземляется» к своему xG, часть же поддерживает высокий уровень реализации за счёт элитного нападения. Если слепо ждать полного отката к среднему, можно годами ставить против условного топ‑клуба и удивляться, почему «по модели они недооценены, а в реальности снова забивают».

2. Команды‑антигерои реализации
Есть клубы, которые три года подряд не добивают свои xG (разница −7…−12 голов за сезон).
Причины: слабые форварды, плохой подбор по стилю, психологические проблемы. Здесь уже нельзя считать погрешность чистой случайностью — часть её систематическая.

3. Вратарский фактор
По post‑shot xG (модели «качества удара после удара») в последних сезонах разброс «спасённых голов» для киперов стабильно держится в коридоре ±6–8 голов за сезон у топ‑вратарей.
И если модель ставок смотрит только на командный xG и игнорирует работу кипера, она будет хронически ошибаться в матчах таких команд.

Технический блок: погрешность как распределение, а не число

Чтобы действительно понимать, как использовать xG для ставок на спорт, надо смотреть на ошибку не как на одно число, а как на распределение.

Упрощённый подход:

1. Собираем для лиги за 3 сезона все пары (xG, реальные голы).
2. Для диапазонов xG (например, [0.5–1.0], [1.0–1.5], [1.5–2.0]) смотрим распределение реальных голов.
3. Вычисляем:

[
P(G = k mid xG = a)
]

для разных k (0, 1, 2, 3…).

На практике обнаруживается, что:

— при xG около 1.0 команда забивает 0 голов в ~35–40 % случаев, 1 гол — в ~35–40 %, 2+ голов — в оставшиеся ~20–30 %;
— при xG около 2.0 «ноль голов» всё ещё случается в ~10–15 % матчей.

Именно поэтому ставка вида «команда с xG 2.0 точно забьёт минимум раз» математически не обоснована: модель даёт высокий, но не стопроцентный шанс.

Что это значит для прогнозов: практические выводы

Если свести всё вышесказанное к практическому применению, получаются несколько жёстких, но полезных правил.

1. xG хорош на дистанции, плох как «истина» в одном матче.
Погрешность на одном конкретном матче слишком велика, чтобы делать «железобетонные» выводы по одной игре.

2. Смотрите на серии из 10–15 матчей минимум.
За три последних сезона большинство сильных перекосов по xG у команд начинает выравниваться на таких отрезках. Короткие серии легко обманывают глаз.

3. Оценка игроков и вратарей — обязательна.
Без раздельного анализа реализации нападающих и сейвов вратаря модель будет систематически ошибаться.

4. Рынок знает базовый xG.
Ваше преимущество — в умении оценить неопределённость, а не просто «найти команду, которая набрала меньше очков, чем заслужила по xG».

Как встроить погрешность xG в реальные ставки

Теперь к самому болезненному: как всё это использовать, если мы говорим не про академическое исследование, а про деньги и риск.

1. Моделируйте не один исход, а диапазон
Вместо «домашняя команда забьёт 2 гола» считайте распределение голов (0, 1, 2, 3+).
Это позволяет сравнивать вашу модель с линиями тоталов и обе забьют.

2. Добавляйте «шум» к оценке xG
Для одиночного матча разумно считать, что реальная «сила атаки» и «сила обороны» колеблются вокруг оценённого уровня. В простейшем варианте — использовать нормальное распределение вокруг базовой оценки xG с дисперсией, взятой из истории лиги.

3. Урезайте размер ставки
Чем выше неопределённость (большой разброс ошибки по лиге/команде), тем ниже доля от банка по Келли или другим критериям. Погрешность xG напрямую должна уменьшать агрессивность.

4. Фильтруйте необычные матчи
Кубки, ответные встречи, матчи на тяжёлых полях, дерби — там исторически разброс ошибок выше. Либо вообще пропускайте такие игры, либо снижайте доверие к модели.

5. Сравнивайте несколько источников xG
Разные провайдеры дают чуть разные цифры. Если ваша аналитика xG для ставок на футбольные матчи опирается только на одну базу, вы уязвимы к систематическим ошибкам именно этой разметки данных.

Технический блок: измеряем качество и погрешность модели

Чтобы контролировать, не уехала ли ваша модель в сторону, полезно считать несколько метрик:

1. Calibration / Reliability
Смотрим, насколько вероятности исходов (победа/ничья/поражение), полученные из xG, совпадают с реальностью. Идеальная калибровка — редкость, но крупные перекосы означают, что ошибка модели систематическая.

2. Brier score и log‑loss
Это числовые меры качества вероятностных прогнозов.
На выборке матчей последних трёх сезонов хорошие публичные модели удерживают Brier score примерно в диапазоне 0.19–0.22 для трёхисходных рынков (1X2), что лучше наивных подходов, но далеко от идеала. Сравнивать нужно с вашими же прежними версиями, а не с «абсолютом».

3. Корреляция xG‑разницы с очками
Если за 1–3 сезона у вас корреляция ниже 0.6, это тревожный сигнал: либо данные плохие, либо модель слишком грубая.

Роль сервисов и «чужих» моделей

Немало людей сейчас строят ставки, опираясь на готовые данные: Understat, FBref, Infogol, Wyscout и т.д. Вопрос не в том, какие лучшие сервисы xG статистики для беттинга, а в том, понимаете ли вы, какие у них ограничения.

За последние годы тенденция такая:

— публичные сервисы становятся точнее и богаче на метрики (xG, xGA, non‑penalty xG, post‑shot xG);
— различия между ними по среднему xG за сезон — обычно в районе 5–10 %;
— сильнее всего расходятся оценки в «пограничных» моментах: блокированные удары, рикошеты, спорные касания.

Когда вы видите, что одна платформа даёт команде xG 1.1, а другая 1.4 за матч — это и есть проявление погрешности измерения, а не «чья‑то ошибка». Для беттинга важно не число «1.1» или «1.4», а вывод: это был матч с примерно равными шансами на 1–2 гола, а не «тотальным доминированием».

Пошаговый подход: как жить с погрешностью xG

Ниже — пример простой стратегии, которая учитывает, что xG — шумный показатель, а не оракул:

1. Соберите исторические данные за 3–5 сезонов по лиге
Минимум: xG за матч, реальные голы, исход, базовые составы. Желательно — данные по ударам конкретных игроков.

2. Измерьте распределение ошибок
Для каждой команды и в среднем по лиге посчитайте ( G — xG ) по матчам и по сезонам. Посмотрите, где разброс выше, а где ниже.

3. Найдите устойчивые отклонения
Игроки и команды, которые 3 сезона подряд сильно переезжают или недобирают xG. Отделите «мастерство/антиклаш» от случайности.

4. Постройте вероятностную модель исходов
Пусть xG будет лишь одним из входов: добавьте составы, календарь, мотивацию, усталость, стиль игры.

5. Тестируйте модель на прошлых сезонах
Смотрите не только наROI, но и на метрики калибровки и стабильность результатов.

6. Учитывайте рыночную цену
Иногда линия уже «заложила» известный перекос xG. Тогда даже идеальная модель без учёта коэффициентов не даст плюса.

7. Корректируйте размер ставок под неопределённость
Чем сильнее шум (по лиге, по команде, по типу матча), тем меньше доля банка.

Итог: xG — мощный инструмент, но с честным отношением к его ошибкам

За последние три года xG окончательно стал стандартом и в клубной аналитике, и в беттинге. Но его массовое использование обнажило главное: сама по себе цифра xG не спасает от дисперсии, а иногда даже усиливает иллюзию контроля.

Если относиться к xG как к вероятностной оценке с известной погрешностью:

— прогнозы становятся менее категоричными, но более честными;
— ставки — менее азартными, но более математичными;
— долгосрочный результат — менее зависимым от коротких «чёрных полос».

Аналитика xG для ставок на футбольные матчи даёт преимущество только тогда, когда вы:

— понимаете, что каждое значение xG — это диапазон возможных голов,
— учитываете разброс ошибок по лигам, командам и игрокам,
— и строите своё решение не на одном показателе, а на системе факторов.

Именно такой подход превращает модные графики и красивые цифры в рабочий инструмент, а не в ещё одну причину разочароваться в статистике после очередного 0:1 при xG 2.8 : 0.4.