Хорошая разметка данных — ключевой критерий качества любой ML-модели. При этом сам процесс разметки трудоёмкий, сложный и часто оказывается в тени других задач. Но именно в нем скрывается главный источник повышения метрик. В докладе разберём как выстроить процесс так, чтобы данные работали на результат: от постановки задач ассесорам и оценки согласованности разметки до автоматического поиска ошибок и экспериментов с GPT. На выходе получим практики, которые помогают находить и исправлять слабые места в разметке, а также рассмотрим, как меняются метрики модели при разных подходах.