Валидация потока UGC, от простых решений к сложным пайплайнам
Тезисы
Везде, где есть контент, генерируемый пользователем, рано или поздно возникает необходимость этот самый контент как-то фильтровать, и делать это довольно быстро.

В рамках доклада рассмотрим, в каких случаях требуется предварительная проверка, как работать с разными типами контента, какие инструменты использовать, в каком порядке, где набрать датасет и что делать, если одна из ваших ML-моделей стала показывать погоду на Марсе вместо хоть сколько-то предсказуемых скоров.

Доклад рассчитан на backend-разработчиков, аналитиков и дата-саентистов. Слушатели смогут понять и развернуть у себя пайплайн проверки пользовательского контента.
Везде, где есть контент, генерируемый пользователем, рано или поздно возникает необходимость этот самый контент как-то фильтровать, и делать это довольно быстро.

В рамках доклада рассмотрим, в каких случаях требуется предварительная проверка, как работать с разными типами контента, какие инструменты использовать, в каком порядке, где набрать датасет и что делать, если одна из ваших ML-моделей стала показывать погоду на Марсе вместо хоть сколько-то предсказуемых скоров.

Доклад рассчитан на backend-разработчиков, аналитиков и дата-саентистов. Слушатели смогут понять и развернуть у себя пайплайн проверки пользовательского контента.
Видеозапись доклада
Появится здесь после конференции
Информация о спикере
Андрей Шубин
Старший разработчик, Яндекс
Разработчик с опытом работы в компаниях разного размера: от местечковых контор до международных корпораций. В сфере IT занят 15 лет, из которых 11 занимаюсь бэкэндом. Сейчас занят в команде классификации и фильтрации контента.

Примеры моих предыдущих выступлений:
Фантастические грабли электронной коммерции, и где они обитают
ML в электронной коммерции Оно вам надо
Все доклады секции