Большие языковые модели сегодня обучаются преимущественно на данных, созданных или размеченных людьми, что ограничивает их способность существенно превосходить человеческие возможности.
В докладе представлена концепция синтетических данных как первой версии self-play для языковых моделей, вдохновлённая опытом AlphaGo и подтверждённая успехом phi-4 от Microsoft Research. Доклад освещает конкретные техники генерации данных, такие как instruction reversal и self-revision, и аргументирует, почему именно синтетические данные могут быть ключом к следующему скачку в возможностях LLM.
Рассматривается потенциал этого подхода для преодоления текущих ограничений обучения моделей на человеческих данных.