Всеволод Богодист. Динамический анализ контента сайтов: гибридные подходы от эвристик до LLM без зависимости от размеченных данных

Динамический анализ контента сайтов: гибридные подходы от эвристик до LLM без зависимости от размеченных данных

Тезисы

Расскажем про задачу разработки MVP для анализа контента сайтов в условиях, когда данные устаревают очень быстро и у нас нет разметки (почти).

В основе — сочетание правил, кластеризации и zero-shot подходов. Расскажем, как использование LLM, регулярок и предобученных энкодеров позволяет выявлять слабые сигналы, а потом агрегировать их до устойчивых прогнозов. Полученная система автоматически находит паттерны в слабых сигналах. Решение можно адаптировать с использованием обратной связи, сохраняя стабильность без больших переделок.

Данный доклад будет интересен всем NLP-специалистам, сталкивающимся с проблемами на этапе сбора PoC или MVP, ведь получение разметки и дообучение моделей может занимать много времени и ресурсов. При этом многие «простые» подходы остаются обделёнными вниманием — что мы и попробуем исправить в докладе.

Видеозапись доклада

Появится здесь после конференции

Информация о спикере

Всеволод Богодист

Data-Scientist, Точка

Всеволод Богодист

Data-Scientist, Точка

Все доклады секции