Дмитрий Усталов. Подружить краудсорсинг и машинное обучение

Подружить краудсорсинг и машинное обучение

Тезисы

Многие важные наборы данных в машинном обучении, такие как ImageNet и SuperGLUE, получены при помощи краудсорсинга. В краудсорсинге исполнители не являются экспертами в решении поставленной перед ними задачи, поэтому для повышения качества разметки используется перекрытие. При этом специалисты по машинному обучению не учитывают эту специфику при обучении и эксплуатации модели.

Доклад призван научить специалистов и исследователей в области машинного обучения учитывать специфику разметки данных в их собственных решениях, использующих краудсорсинг. Мы рассмотрим три важные проблемы:

Как правильно учитывать шум в краудсорсинговых данных при обучении модели
Как учесть субъективные ответы исполнителей в разметке
Как отслеживать смещение распределения при помощи мониторинга моделей

Будут показаны примеры возникновения этих проблем, рассмотрены и продемонстрированы варианты их решения при помощи готовых открытых инструментов, рассмотрены идеи дальнейших исследований и разработок.

Слушатели:

Узнают, как учитывать шум в краудсорсинговых данных при обучении модели при помощи специальных методов из научной литературы, таких как CrowdLayer и CoNAL.
Научатся проектировать задания с субъективной оценкой и агрегировать ответы при помощи функции, доступной в открытой библиотеке Crowd-Kit:
GitHub - Toloka/crowd-kit: Computational Quality Control for Crowdsourcing.
Увидят, как при помощи краудсорсинга можно оперативно заметить смещение распределения в эксплуатации модели.

Многие важные наборы данных в машинном обучении, такие как ImageNet и SuperGLUE, получены при помощи краудсорсинга. В краудсорсинге исполнители не являются экспертами в решении поставленной перед ними задачи, поэтому для повышения качества разметки используется перекрытие. При этом специалисты по машинному обучению не учитывают эту специфику при обучении и эксплуатации модели.

Доклад призван научить специалистов и исследователей в области машинного обучения учитывать специфику разметки данных в их собственных решениях, использующих краудсорсинг. Мы рассмотрим три важные проблемы:

Как правильно учитывать шум в краудсорсинговых данных при обучении модели
Как учесть субъективные ответы исполнителей в разметке
Как отслеживать смещение распределения при помощи мониторинга моделей

Будут показаны примеры возникновения этих проблем, рассмотрены и продемонстрированы варианты их решения при помощи готовых открытых инструментов, рассмотрены идеи дальнейших исследований и разработок.

Слушатели:

Узнают, как учитывать шум в краудсорсинговых данных при обучении модели при помощи специальных методов из научной литературы, таких как CrowdLayer и CoNAL.
Научатся проектировать задания с субъективной оценкой и агрегировать ответы при помощи функции, доступной в открытой библиотеке Crowd-Kit:
GitHub - Toloka/crowd-kit: Computational Quality Control for Crowdsourcing.
Увидят, как при помощи краудсорсинга можно оперативно заметить смещение распределения в эксплуатации модели.

Видеозапись доклада

Информация о спикере

Дмитрий Усталов

Руководитель группы исследований краудсорсинга, Яндекс.Толока

Кандидат физико-математических наук.
Руковожу группой исследований краудсорсинга в Toloka research.
Организатор серии воркшопов TextGraphs и основатель каталога языковых ресурсов NLPub.
Работал постдоком в Университете Мангейма (Германия) и младшим научным сотрудником в ИММ УрО РАН (Екатеринбург).

Google Scholar: https://scholar.google.com/citations?user=wPD4g7AAAAAJ
LinkedIn: https://linkedin.com/in/ustalov/
GitHub: dustalov - Overview

Примеры выступлений:

WSDM '22 Industry Day: WSDM22-wsdmid07.mp4 (на английском)
OpenTalks.AI '22: Обучение на слабой шумной разметке
HCOMP '21 Demo Session: Dmitry Ustalov, Nikita Pavlichenko, Vladimir Losev, Iulian Giliazev, Evgeny Tulin · A General-Purpose Crowdsourcing Computational Quality Control Toolkit for Python (на английском)
DataFest '21: NLP in industry — Open Data Science

Выступал на DUMP в Екатеринбурге в 2015 г.

Дмитрий Усталов
Руководитель группы исследований краудсорсинга, Яндекс.Толока
Кандидат физико-математических наук.
Руковожу группой исследований краудсорсинга в Toloka research.
Организатор серии воркшопов TextGraphs и основатель каталога языковых ресурсов NLPub.
Работал постдоком в Университете Мангейма (Германия) и младшим научным сотрудником в ИММ УрО РАН (Екатеринбург).

Google Scholar: https://scholar.google.com/citations?user=wPD4g7AAAAAJ

LinkedIn: https://linkedin.com/in/ustalov/

GitHub:dustalov - Overview

Примеры выступлений:

WSDM '22 Industry Day:WSDM22-wsdmid07.mp4 (на английском)

OpenTalks.AI '22: Обучение на слабой шумной разметке

HCOMP '21 Demo Session:Dmitry Ustalov, Nikita Pavlichenko, Vladimir Losev, Iulian Giliazev, Evgeny Tulin · A General-Purpose Crowdsourcing Computational Quality Control Toolkit for Python (на английском)

DataFest '21:NLP in industry — Open Data Science

Выступал на DUMP в Екатеринбурге в 2015 г.

Все доклады секции