Подружить краудсорсинг и машинное обучение
Тезисы
Многие важные наборы данных в машинном обучении, такие как ImageNet и SuperGLUE, получены при помощи краудсорсинга. В краудсорсинге исполнители не являются экспертами в решении поставленной перед ними задачи, поэтому для повышения качества разметки используется перекрытие. При этом специалисты по машинному обучению не учитывают эту специфику при обучении и эксплуатации модели.

Доклад призван научить специалистов и исследователей в области машинного обучения учитывать специфику разметки данных в их собственных решениях, использующих краудсорсинг. Мы рассмотрим три важные проблемы:
  1. Как правильно учитывать шум в краудсорсинговых данных при обучении модели
  2. Как учесть субъективные ответы исполнителей в разметке
  3. Как отслеживать смещение распределения при помощи мониторинга моделей
Будут показаны примеры возникновения этих проблем, рассмотрены и продемонстрированы варианты их решения при помощи готовых открытых инструментов, рассмотрены идеи дальнейших исследований и разработок.

Слушатели:
  1. Узнают, как учитывать шум в краудсорсинговых данных при обучении модели при помощи специальных методов из научной литературы, таких как CrowdLayer и CoNAL.
  2. Научатся проектировать задания с субъективной оценкой и агрегировать ответы при помощи функции, доступной в открытой библиотеке Crowd-Kit:
    GitHub - Toloka/crowd-kit: Computational Quality Control for Crowdsourcing.
  3. Увидят, как при помощи краудсорсинга можно оперативно заметить смещение распределения в эксплуатации модели.
Многие важные наборы данных в машинном обучении, такие как ImageNet и SuperGLUE, получены при помощи краудсорсинга. В краудсорсинге исполнители не являются экспертами в решении поставленной перед ними задачи, поэтому для повышения качества разметки используется перекрытие. При этом специалисты по машинному обучению не учитывают эту специфику при обучении и эксплуатации модели.

Доклад призван научить специалистов и исследователей в области машинного обучения учитывать специфику разметки данных в их собственных решениях, использующих краудсорсинг. Мы рассмотрим три важные проблемы:
  1. Как правильно учитывать шум в краудсорсинговых данных при обучении модели
  2. Как учесть субъективные ответы исполнителей в разметке
  3. Как отслеживать смещение распределения при помощи мониторинга моделей
Будут показаны примеры возникновения этих проблем, рассмотрены и продемонстрированы варианты их решения при помощи готовых открытых инструментов, рассмотрены идеи дальнейших исследований и разработок.

Слушатели:
  1. Узнают, как учитывать шум в краудсорсинговых данных при обучении модели при помощи специальных методов из научной литературы, таких как CrowdLayer и CoNAL.
  2. Научатся проектировать задания с субъективной оценкой и агрегировать ответы при помощи функции, доступной в открытой библиотеке Crowd-Kit:
    GitHub - Toloka/crowd-kit: Computational Quality Control for Crowdsourcing.
  3. Увидят, как при помощи краудсорсинга можно оперативно заметить смещение распределения в эксплуатации модели.
Видеозапись доклада
Информация о спикере
Дмитрий Усталов
Руководитель группы исследований краудсорсинга, Яндекс.Толока
Кандидат физико-математических наук.
Руковожу группой исследований краудсорсинга в Toloka research.
Организатор серии воркшопов TextGraphs и основатель каталога языковых ресурсов NLPub.
Работал постдоком в Университете Мангейма (Германия) и младшим научным сотрудником в ИММ УрО РАН (Екатеринбург). Примеры выступлений:
Выступал на DUMP в Екатеринбурге в 2015 г.
Все доклады секции