Стандартный HTTP-инференс — это удобно, пока нагрузка не вырастает. Но в какой‑то момент запросы начинают падать, таймауты множатся, а поды с моделями полностью утилизируют CPU и всё равно не успевают. Что делать, когда привычный стек перестаёт работать, а пользователи — ждать?
В докладе разберём реальные боевые кейсы архитектур для сервисов с моделями. Поговорим о том, почему HTTP далеко не всегда лучший выбор для OCR-инференса при высоких нагрузках (от ~9 RPS в пике и выше) и что происходит «под капотом», когда вы всё ещё масштабируете поды, а система уже умирает.