В этом докладе я расскажу о том, как мы в Т-Банке разработали платформу для генерации визуального контента, и поделюсь опытом решения ключевых проблем инференса сложных пайплайнов из ансамблей моделей.
Мы разберём, почему использование статичных весов и популярные оптимизации на практике могут замедлять инференс и привести к неэффективному использованию GPU. Обсудим, как найти баланс между гибкостью, стабильностью и производительностью решений. На примере нашего опыта поделимся практическими рекомендациями, которые помогут избежать распространённых ошибок и оптимизировать работу с подобными моделями.