Расскажем про задачу разработки MVP для анализа контента сайтов в условиях, когда данные устаревают очень быстро и у нас нет разметки (почти).
В основе — сочетание правил, кластеризации и zero-shot подходов. Расскажем, как использование LLM, регулярок и предобученных энкодеров позволяет выявлять слабые сигналы, а потом агрегировать их до устойчивых прогнозов. Полученная система автоматически находит паттерны в слабых сигналах. Решение можно адаптировать с использованием обратной связи, сохраняя стабильность без больших переделок.
Данный доклад будет интересен всем NLP-специалистам, сталкивающимся с проблемами на этапе сбора PoC или MVP, ведь получение разметки и дообучение моделей может занимать много времени и ресурсов. При этом многие «простые» подходы остаются обделёнными вниманием — что мы и попробуем исправить в докладе.