Доклад про автоматические и ручные методы оценки генеративных моделей, как работать с ними при множественном сравнении различных моделей. Также рассмотрим, какие бывают открытые бенчмарки для мультимодальных и текстовых инструктивных моделей. Рассмотрим пример пайплайна по созданию локального бенчмарка с использованием LLM.
Слушатели смогут понять, как эфективнее выбирать генеративные модели, и познакомятся с методами создания и валидации датасетов для оценки их качества на своих задачах.