В докладе расскажу опыт подхода к мониторингу нашей Аналитической платформы.
Почему большое количество метрик, таких как saturation, доступность и т.д., не отражают текущую ситуацию на 100% и как легко пропустить проблемы. Расскажу о том, какие бизнес-метрики мы определили для себя и как на основе этих метрик оцениваем нашу стабильность. Расскажу про наши инструменты сбора метрик и логов, как мы используем Vector, Kafka, Clickhouse и Graphite. Расскажу, как мы пришли к автоматическому решению проблем и что из этого получилось.
Доклад будет полезен тем, кто планирует внедрять мониторинг платформу, а также тем, кто хочет попробовать взглянуть на мониторинг с другой стороны.