Привет! На связи руководитель отдела MessageBus в Ozon Tech. Под управлением нашей команды одни из самых больших Kafka-кластеров в стране, которые активно используются как основная шина данных для сервисов.
В докладе я сделаю обзор инструментов управления и мониторинга, которые помогают нам держать всё под контролем — быстро находим причину, изолируем и устраняем. Расскажу о сложностях, которые появляются на наших масштабах и способах их решения.
Также Вас ждут истории о том, как балансировка перестает быть ручной операцией; почему у нас три разных экспортера метрик и даже этого маловато; как и зачем нам понадобилось форкнуть Кафку; и другие...
Еще поговорим о том, как мы помогаем продуктовым командам, предоставляя им Kafka-as-a-service сразу в комплекте с базовыми метриками и алертами. И что делать, когда у вас так много клиентов, что даже понять, кто продюсит/консьюмит конкретный топик, не так уж и просто.