Datadog - introdução ao monitoramento - tipos de métricas - parte 2

Seja lá o que você monitora, tenha em mente: coletar dados é fácil. Complicado é quando você precisa diagnosticar algo e não tem essa informação coletada.

Colete o máximo de dados que puder. Depois trabalhe em cima para ter métricas, alarmes, etc...

Voltando ao tipo de métricas, vamos focar nas métricas de carga. Abaixo temos dois exemplos de perfis diferentes - um webserver e um database - onde vemos métricas de carga importantes sendo coletadas:

tipoDescriçãoValor
throughputrequisições por segundo312/s
sucessoporcentagem de retorno 2xx desde
a última métrica
99.1%
erroporcentagem de retorno 5xx desde
a última métrica
0.1
performance90% de tempo de resposta em segundos0.4

tipoDescriçãoValor
throughputconsultas por segundo949/s
sucessoporcentagem de consultas com sucesso
desde a última métrica
100%
erroporcentagem de consultas gerando exceções
desde a última métrica
0%
erroporcentagem de consultas que retornam
dados obsoletos desde a última medição
4.2%
performance90% de tempo de resposta da query em segundos0.02

Agora um exemplo de métricas de recurso, que podem ajudar a construir o cenário de uma possível análise de incidente:

RecursoUtilizaçãoSaturaçãoErrosDisponibilidade
Disco I/O% tempo com o device ocupadotamanho da fila de esperaqtd de erros no dispositivo% tempo com escrita
Memória% da capacidade total da memória em usoutilização do swapN/A (não é usual)N/A (não é usual)
Microserviços% tempo em que cada thread de requisição estava ocupadaqtd de requisições na filaqtd de erros internos, como exceções% tempo com o serviço disponível
Banco% tempo cada conexão estava ocupadaqtd de consultas na filaqtd de erros internos (ex. Replicação, backups…)% tempo com o banco disponível

Outras métricas que não são de carga ou recurso, mas que podem ajudar a montar um cenário em um ambiente complexo. Por exemplo: quantidade de 'hits' em um cache ou mesmo a quantidade de locks no database.

Na dúvida, colete! 🙂

Fala tchê!

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.