Начали в компании использовать okmeter. За невзрачным бутстраповским интерфейсом скрывается куча довольно умных метрик для всей ключевых сервисов и показателей системы. Даже бот для телеграм есть для нотификаций о проблемах. В общем, прекрасное решение, когда автоматизированный SaaS предпочтительнее возни с Nagios или Zabbix. К тому же, в Zabbix сложно добавить что-то своё. Я когда-то делал zabbix-healthcheck, чтобы мониторить состояний приложений на Flask, и это такой себе опыт, если честно.