Разбор тонкой душевной организации ChatGPT: от Трансформеров до наших дней
Тезисы
Сейчас о нейросетях говорят на каждом углу. Ежедневно появляются новые сервисы на их основе, IT-шники обсуждают новые анонсы и детали реализации, блогеры обсуждают перспективы развития нейросетей и куда нас это приведет, а коучи предлагают учиться на новые "профессии будущего" – архитекторов промптов, нейросетевых дизайнеров и писателей.

Нейросети можно обсуждать с самых разных сторон, однако сегодня мы разберемся, как ChatGPT работает изнутри, проследим все компоненты ее успеха и что потребовалось, чтобы обучить самую мощную лингвистическую нейронную сеть на данный момент.

• Кратко, что такое ChatGPT и как ее уже применяют
• Основные шаги работы больших лингвистических моделей (LLM)
• Механизм внимания: плотный и разреженный
• Путь развития Языкового Трансформера от GPT-1 до GPT-3.5
• InstructGPT, или как Reinforcement Learning помог "воспитать" модель
• Почему хайп ChatGPT наступил именно сейчас
• Тайны обучения GPT-4

Доклад рассчитан на людей, интересующихся Машинным Обучением, и Data Science специалистов, не занимающихся языковыми моделями.
Сейчас о нейросетях говорят на каждом углу. Ежедневно появляются новые сервисы на их основе, IT-шники обсуждают новые анонсы и детали реализации, блогеры обсуждают перспективы развития нейросетей и куда нас это приведет, а коучи предлагают учиться на новые "профессии будущего" – архитекторов промптов, нейросетевых дизайнеров и писателей.

Нейросети можно обсуждать с самых разных сторон, однако сегодня мы разберемся, как ChatGPT работает изнутри, проследим все компоненты ее успеха и что потребовалось, чтобы обучить самую мощную лингвистическую нейронную сеть на данный момент.

• Кратко, что такое ChatGPT и как ее уже применяют
• Основные шаги работы больших лингвистических моделей (LLM)
• Механизм внимания: плотный и разреженный
• Путь развития Языкового Трансформера от GPT-1 до GPT-3.5
• InstructGPT, или как Reinforcement Learning помог "воспитать" модель
• Почему хайп ChatGPT наступил именно сейчас
• Тайны обучения GPT-4

Доклад рассчитан на людей, интересующихся Машинным Обучением, и Data Science специалистов, не занимающихся языковыми моделями.
Видеозапись доклада
Появится здесь после конференции
Информация о спикере
Павел Плюснин
Руководитель научной группы, Huawei
Руковожу небольшой научной группой по квантованию нейронных сетей в Huawei. Делаем так, чтобы передовые технологии быстро работали на смартфонах, в умных часах и прочих гаджетах.

Даю в руки медикам и биологам Физтеха мощный инструмент Машинного Обучения: веду курс по Продвинутому Программированию и Анализу Данных для студентов МФТИ.

Являюсь автором и ведущим курса по Словесной Импровизации: помогаю людям замечать интересности в своей жизни и рассказывать об этом истории.
  • Павел Плюснин
    Руководитель научной группы, Huawei
    Руковожу небольшой научной группой по квантованию нейронных сетей в Huawei. Делаем так, чтобы передовые технологии быстро работали на смартфонах, в умных часах и прочих гаджетах.

    Даю в руки медикам и биологам Физтеха мощный инструмент Машинного Обучения: веду курс по Продвинутому Программированию и Анализу Данных для студентов МФТИ.

    Являюсь автором и ведущим курса по Словесной Импровизации: помогаю людям замечать интересности в своей жизни и рассказывать об этом истории.
Все доклады секции