Система перестаёт укладываться в SLA. Всё оптимизировано, метрики в порядке, нагрузка — не пугающая. Но что-то явно не так: реальные пользователи сталкиваются с таймаутами, p99.9+ уходит за секунду, а стандартные средства диагностики — бесполезны. Всё, что незаметно в dev, но стреляет в проде.