Datadog - introdução ao monitoramento - parte 1

Como parte de um projeto (que já deveria ter sido feito...) tive que me aprofundar na ferramenta de monitoramento Datadog.

Então, nada melhor pra começar, do que estudar sobre conceitos de monitoramento moderno como um todo, independente da ferramenta abordada.

Para escrever, e fixar as idéias, sempre gostei muito dos mapas mentais (mind maps). Utilizo pra isso, o realtimeboard.

O mapa que vou 'acoplar' nesse post é uma versão viva do que estou estudando e irá sendo modificado constantemente.

Continuando... segundo os princípios da monitoração, segundo os 'evangelistas' Datadog, só devemos 'alarmar' nos sintomas, que nesse caso, são nossas métricas de carga.

Algo que eu sempre defendi. Ex.: garanto que se você tem um serviço de monitoramento (seja ele zabbix, nagios, prometheus, datadog, etc...) você tem aí seu monitoramento de CPU. E aposto que ele alarma... 🙂

Mas pra que temos isso? Num contexto: se eu tenho um banco Oracle que entrega X consultas em X tempo, eu não preciso alarmar se ele utiliza 1% ou 100% de CPU. O que eu preciso alarmar é se:

  • Agora menos consultas são realizadas no mesmo período de tempo
  • Ou, levo mais tempo pra fazer a mesma quantidade de consultas - o que na prática é o mesmo. 🙂

Todo o resto (cpu, rede, I/O...) é importante, mas eles auxiliam na investigação. Claro que existem exceções. Talvez, trabalhando com uma análise de padrões, você possa chegar a maturidade de conseguir um alarme de utilização de disco que aconteça quando um desvio de padrão ocorre. 🙂

Fala tchê!

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.