LLM self-play v0: синтетические данные pretrain
Тезисы
Большие языковые модели сегодня обучаются преимущественно на данных, созданных или размеченных людьми, что ограничивает их способность существенно превосходить человеческие возможности.

В докладе представлена концепция синтетических данных как первой версии self-play для языковых моделей, вдохновлённая опытом AlphaGo и подтверждённая успехом phi-4 от Microsoft Research. Доклад освещает конкретные техники генерации данных, такие как instruction reversal и self-revision, и аргументирует, почему именно синтетические данные могут быть ключом к следующему скачку в возможностях LLM.

Рассматривается потенциал этого подхода для преодоления текущих ограничений обучения моделей на человеческих данных.
Большие языковые модели сегодня обучаются преимущественно на данных, созданных или размеченных людьми, что ограничивает их способность существенно превосходить человеческие возможности.

В докладе представлена концепция синтетических данных как первой версии self-play для языковых моделей, вдохновлённая опытом AlphaGo и подтверждённая успехом phi-4 от Microsoft Research. Доклад освещает конкретные техники генерации данных, такие как instruction reversal и self-revision, и аргументирует, почему именно синтетические данные могут быть ключом к следующему скачку в возможностях LLM.

Рассматривается потенциал этого подхода для преодоления текущих ограничений обучения моделей на человеческих данных.
Видеозапись доклада
Появится здесь после конференции
Информация о спикере
Иван Басков
SberDevices
  • Иван Басков
    SberDevices
Все доклады секции