Многие важные наборы данных в машинном обучении, такие как ImageNet и SuperGLUE, получены при помощи краудсорсинга. В краудсорсинге исполнители не являются экспертами в решении поставленной перед ними задачи, поэтому для повышения качества разметки используется перекрытие. При этом специалисты по машинному обучению не учитывают эту специфику при обучении и эксплуатации модели.
Доклад призван научить специалистов и исследователей в области машинного обучения учитывать специфику разметки данных в их собственных решениях, использующих краудсорсинг. Мы рассмотрим три важные проблемы:
- Как правильно учитывать шум в краудсорсинговых данных при обучении модели
- Как учесть субъективные ответы исполнителей в разметке
- Как отслеживать смещение распределения при помощи мониторинга моделей
Будут показаны примеры возникновения этих проблем, рассмотрены и продемонстрированы варианты их решения при помощи готовых открытых инструментов, рассмотрены идеи дальнейших исследований и разработок.
Слушатели:
- Узнают, как учитывать шум в краудсорсинговых данных при обучении модели при помощи специальных методов из научной литературы, таких как CrowdLayer и CoNAL.
- Научатся проектировать задания с субъективной оценкой и агрегировать ответы при помощи функции, доступной в открытой библиотеке Crowd-Kit:
GitHub - Toloka/crowd-kit: Computational Quality Control for Crowdsourcing.
- Увидят, как при помощи краудсорсинга можно оперативно заметить смещение распределения в эксплуатации модели.