Организация работы с ML моделями в условиях высоких нагрузок на примере Triton Inference Server
Тезисы
Чтобы ML-решения начали приносить ценность, их требуется интегрировать в существующие процессы, при этом обеспечив не только прозрачность для клиентов, но и способность выдерживать высокие нагрузки. И в этот момент открывается целый мир возможных инструментов и задач, которые предстоит решить.

В этом докладе рассмотрим следующие вопросы, с которыми нам пришлось столкнуться во время решения задачи интеграции ML-моделей в продакшн:
  • Обзор существующих решений для инфера моделей и доставки их в прод
  • Распределение ресурсов, как расселить множество моделей, и обязательно ли нужны GPU
  • Мониторинг и всё, что необходимо для поддержания стабильности вашей системы для инфера
  • Автоматизация доставки моделей: как ускорить и упростить процесс, не жертвуя отказоустойчивостью
Чтобы ML-решения начали приносить ценность, их требуется интегрировать в существующие процессы, при этом обеспечив не только прозрачность для клиентов, но и способность выдерживать высокие нагрузки. И в этот момент открывается целый мир возможных инструментов и задач, которые предстоит решить.

В этом докладе рассмотрим следующие вопросы, с которыми нам пришлось столкнуться во время решения задачи интеграции ML-моделей в продакшн:
  • Обзор существующих решений для инфера моделей и доставки их в прод
  • Распределение ресурсов, как расселить множество моделей, и обязательно ли нужны GPU
  • Мониторинг и всё, что необходимо для поддержания стабильности вашей системы для инфера
  • Автоматизация доставки моделей: как ускорить и упростить процесс, не жертвуя отказоустойчивостью
Видеозапись доклада
Появится здесь после конференции
Информация о спикере
Алексей Горбунов
Старший разработчик информационных систем, Ozon
Более четырёх лет опыта разработки на Go, из них более двух лет занимаюсь построением и поддержкой инфраструктуры для доставки и работы ML моделей в продакшн под высокой нагрузкой. Нравится исследовать и находить решения для повышения производительности проектов.
  • Алексей Горбунов
    Старший разработчик информационных систем, Ozon
    Более четырёх лет опыта разработки на Go, из них более двух лет занимаюсь построением и поддержкой инфраструктуры для доставки и работы ML моделей в продакшн под высокой нагрузкой. Нравится исследовать и находить решения для повышения производительности проектов.
Все доклады секции