Классификация дрейфа и методы детекции

Каждый тип требует своих методов обнаружения.
Методы обнаружения Data Drift
Для непрерывных признаков обычно используют тест Колмогорова — Смирнова. Для категориальных фичей — тест хи-квадрат. В продакшене же чаще всего используют PSI (Population Stability Index), который дает интерпретируемый порог:
- PSI < 0.1 — стабильно;
- PSI = 0.1–0.2 — умеренное смещение, требует внимания;
- PSI > 0.2 — значительный дрейф, нужно действовать.
Кроме того, применяют расстояние Вассерштейна и дивергенцию Кульбака — Лейблера. Порог же «нормального» дрейфа зависит от сферы применения: для финансовой модели допустимые отклонения принципиально иные, чем для рекомендательной.
Почему Concept Drift обнаружить сложнее всего
Для того, чтобы заметить Concept Drift, нужны эталонно размеченные метки — реальные результаты, на которые модель ориентировалась. Возможны три ситуации:
- Метки приходят быстро — кликнул или нет. Дрейф можно поймать оперативно.
- Метки приходят с задержкой — выдали кредит, дефолт наступит через месяц. Деградация копится незаметно.
- Метки не приходят вообще или приходят с большим шумом. Concept Drift приходится косвенно детектировать через поведенческие или прокси-метрики.
Мониторинг распределения предсказаний
Выбросы в распределении предсказаний: модель начала чаще выдавать крайние значения вероятностей (0.99 и 0.01 вместо привычных 0.6–0.7), или резко изменился средний скор по популяции. Это сигнал либо об изменении входных данных, либо о том, что модель попала на out-of-distribution примеры.
Для детекции мониторят распределение предсказаний, его моменты (среднее, дисперсия, перцентили) и сравнивают с референсным окном.
Fairness
Fairness в РФ-контексте обсуждается реже, чем на западных рынках, но становится актуальной по мере роста регуляторного давления. Суть: модель может в среднем работать хорошо, но систематически хуже предсказывать для определенных сегментов пользователей.
Основные метрики:
- Demographic parity — одинаковый процент положительных предсказаний по группам.
- Equal opportunity — одинаковый recall по группам.
- Calibration by group — одинаковая калиброванность по группам.
Без сегментированного мониторинга дрейф внутри группы полностью маскируется средней метрикой.
Коренные причины деградации модели
В 90% случаев это одна из четырех причин:
- Изменение данных — новый источник, изменение схемы, апстрим-команда что-то поменяла в трансформациях.
- Изменение распределения трафика — новый канал привлечения, сезонность, маркетинговая акция.
- Тихое изменение кода или конфига пайплайна, которое никто не задокументировал.
- Не вчера стало плохо, а вчера это заметили — деградация шла постепенно, и только когда упала бизнес-метрика, начали смотреть на модель.
Именно последний сценарий самый дорогой, и именно его предотвращает проактивный ML-observability.
Что SRE должен видеть в ML-системе
SRE, который отвечает за модель в проде, должен уметь ответить на три вопроса без привлечения ML-инженера: что сейчас принимает модель на вход, что она выдает и как это соотносится с тем, что было две недели назад? Если ответа на любой из них нет — это слепое пятно.
Логирование входных фичей и предсказаний — базовое требование. Логировать всё подряд на 100% трафика обычно избыточно и дорого; достаточно репрезентативной выборки, которая позволяет восстановить статистику распределений. Важный момент: логи должны содержать не только само предсказание, но и идентификатор запроса и временную метку — без этого при разборе инцидента невозможно восстановить, что именно происходило в конкретный момент.
Референсное распределение — это слепок того, как выглядели входные данные и предсказания в период, когда модель работала хорошо. Обычно берут данные за несколько недель после последнего деплоя или переобучения. Без референса метрики дрейфа бессмысленны: непонятно, относительно чего считать, что «изменилось». Референс нужно явно версионировать и обновлять при каждом переобучении модели, иначе со временем любое распределение будет выглядеть «задрейфовавшим» просто потому, что референс устарел.
Алерты по PSI и ключевым перцентилям — то, что превращает наблюдаемость в действие. PSI > 0.2 по нескольким признакам одновременно является сигналом о том, что входные данные существенно изменились. Резкое смещение среднего предсказания или рост доли крайних значений (близких к 0 или 1) — это сигнал, что модель ведет себя нетипично. Конкретные пороги всегда требуют калибровки под домен и под конкретную модель вместе с ML-командой, универсальных значений здесь нет.
Заключение
Внедрение ML-observability расширяет зону ответственности SRE: надежность системы теперь определяется не только инфраструктурными показателями, но и статистической стабильностью модели. Техническая исправность пайплайна не гарантирует адекватность предсказаний, поэтому классический мониторинг необходимо дополнять контролем данных.
Для предотвращения наиболее дорогостоящего сценария — запоздалого обнаружения деградации — требуется реализация трех компонентов: логирования входных признаков и предсказаний, версионирования референсных распределений и настройки алертов на статистические метрики (PSI, перцентили). Это позволяет выявлять аномалии до их влияния на бизнес-показатели.
Ключевой критерий успешной наблюдаемости — автономность SRE. Инженер должен иметь возможность независимо верифицировать состояние модели, отвечая на вопросы о входных данных, выводах и их динамике без привлечения ML-разработчиков. Только так обеспечивается прозрачность работы ML-сервиса и соответствие технических метрик реальной эффективности продукта.