Сейчас о нейросетях говорят на каждом углу. Ежедневно появляются новые сервисы на их основе, IT-шники обсуждают новые анонсы и детали реализации, блогеры обсуждают перспективы развития нейросетей и куда нас это приведет, а коучи предлагают учиться на новые "профессии будущего" – архитекторов промптов, нейросетевых дизайнеров и писателей.
Нейросети можно обсуждать с самых разных сторон, однако сегодня мы разберемся, как ChatGPT работает изнутри, проследим все компоненты ее успеха и что потребовалось, чтобы обучить самую мощную лингвистическую нейронную сеть на данный момент.
• Кратко, что такое ChatGPT и как ее уже применяют
• Основные шаги работы больших лингвистических моделей (LLM)
• Механизм внимания: плотный и разреженный
• Путь развития Языкового Трансформера от GPT-1 до GPT-3.5
• InstructGPT, или как Reinforcement Learning помог "воспитать" модель
• Почему хайп ChatGPT наступил именно сейчас
• Тайны обучения GPT-4
Доклад рассчитан на людей, интересующихся Машинным Обучением, и Data Science специалистов, не занимающихся языковыми моделями.