Ключевые метрики стабильности, или Как мы мониторим аналитическую платформу в Авито
Тезисы
В докладе расскажу опыт подхода к мониторингу нашей Аналитической платформы.

Почему большое количество метрик, таких как saturation, доступность и т.д., не отражают текущую ситуацию на 100% и как легко пропустить проблемы. Расскажу о том, какие бизнес-метрики мы определили для себя и как на основе этих метрик оцениваем нашу стабильность. Расскажу про наши инструменты сбора метрик и логов, как мы используем Vector, Kafka, Clickhouse и Graphite. Расскажу, как мы пришли к автоматическому решению проблем и что из этого получилось.

Доклад будет полезен тем, кто планирует внедрять мониторинг платформу, а также тем, кто хочет попробовать взглянуть на мониторинг с другой стороны.
В докладе расскажу опыт подхода к мониторингу нашей Аналитической платформы.

Почему большое количество метрик, таких как saturation, доступность и т.д., не отражают текущую ситуацию на 100% и как легко пропустить проблемы. Расскажу о том, какие бизнес-метрики мы определили для себя и как на основе этих метрик оцениваем нашу стабильность. Расскажу про наши инструменты сбора метрик и логов, как мы используем Vector, Kafka, Clickhouse и Graphite. Расскажу, как мы пришли к автоматическому решению проблем и что из этого получилось.

Доклад будет полезен тем, кто планирует внедрять мониторинг платформу, а также тем, кто хочет попробовать взглянуть на мониторинг с другой стороны.
Видеозапись доклада
Появится здесь после конференции
Информация о спикере
Виктор Ерёмченко
Senior Site Reliability Engineer, Авито
Отвечаю за стабильность Аналитической платформы
  • Виктор Ерёмченко
    Senior Site Reliability Engineer, Авито
    Отвечаю за стабильность Аналитической платформы
Все доклады секции