Динамический анализ контента сайтов: гибридные подходы от эвристик до LLM без зависимости от размеченных данных
Тезисы
Расскажем про задачу разработки MVP для анализа контента сайтов в условиях, когда данные устаревают очень быстро и у нас нет разметки (почти).

В основе — сочетание правил, кластеризации и zero-shot подходов. Расскажем, как использование LLM, регулярок и предобученных энкодеров позволяет выявлять слабые сигналы, а потом агрегировать их до устойчивых прогнозов. Полученная система автоматически находит паттерны в слабых сигналах. Решение можно адаптировать с использованием обратной связи, сохраняя стабильность без больших переделок.

Данный доклад будет интересен всем NLP-специалистам, сталкивающимся с проблемами на этапе сбора PoC или MVP, ведь получение разметки и дообучение моделей может занимать много времени и ресурсов. При этом многие «простые» подходы остаются обделёнными вниманием — что мы и попробуем исправить в докладе.
Расскажем про задачу разработки MVP для анализа контента сайтов в условиях, когда данные устаревают очень быстро и у нас нет разметки (почти).

В основе — сочетание правил, кластеризации и zero-shot подходов. Расскажем, как использование LLM, регулярок и предобученных энкодеров позволяет выявлять слабые сигналы, а потом агрегировать их до устойчивых прогнозов. Полученная система автоматически находит паттерны в слабых сигналах. Решение можно адаптировать с использованием обратной связи, сохраняя стабильность без больших переделок.

Данный доклад будет интересен всем NLP-специалистам, сталкивающимся с проблемами на этапе сбора PoC или MVP, ведь получение разметки и дообучение моделей может занимать много времени и ресурсов. При этом многие «простые» подходы остаются обделёнными вниманием — что мы и попробуем исправить в докладе.
Видеозапись доклада
Появится здесь после конференции
Информация о спикере
Всеволод Богодист
Data-Scientist, Точка
  • Всеволод Богодист
    Data-Scientist, Точка
Все доклады секции