datadog를 사용한 k8s 모니터링 아이디어와 포인트 메모

1970 단어 Datadogkubernetes

개요



Monitoring Kubernetes with Datadog 을 읽고 k8s 환경에서 모니터링의 사고 방식과 중요한 포인트 메모
현재 진척은 Investigating recursively까지, 읽어 진행되는 대로 추기 예정.

Kubernetes 환경에 필요한 두 가지 모니터링


  • Kubernetes에서 움직이는 컨테이너 그룹 모니터링
  • Kubernetes 클러스터 자체 모니터링

  • Monitoring Theory



    Collecting the right data



    이 이론에서는 다음 세 가지 메트릭을 수집합니다.

  • 시스템이 정상적으로 작동하는 정도를 나타내는 지표
  • 처리량
  • 오류율
  • 응답 시간
  • 대기 시간


  • Resource metrics
  • 시스템이 정상적으로 작동하는지 여부를 알 수 있는 지표
  • CPU
  • 메모리
  • 디스크 공간


  • 이벤트
  • 시스템에서 발생한 이벤트
  • 스케일
  • 배포
  • 클러스터 전환
  • DNS 변경


  • Alert on actionable work metrics


  • 경고는 조치가 필요한 지표에만 발행됩니다.
  • Work metrics는 "시스템이 정상적으로 실행 중인지 여부"를 나타냅니다
  • Work metrics의 값에 이상이 있으면 어쨌든 대응이 필요하므로 경고를 내야합니다.
  • Resource metrics에 대해서는 기본적으로 경고는 나오지 않는다
  • CPU 나 메모리가 80 %를 초과했기 때문에 아무 것도 지원하지 않습니다
  • 응용 프로그램에 영향이 영향을 미치는지 여부가 중요합니다

  • Investigating recursively



    문제가 있을 때 조사할 때는 다음 순서로 지표를 확인합니다.
  • Work metrics
  • Reousrce metrics
  • Events



  • 지표는 재기적으로 볼 필요가
    예를 들어 DB 경고가 발생하면 아래와 같이 드릴다운하여 메트릭을 확인합니다.
  • 애플리케이션 처리량(Work metrics)
  • DB 쿼리 대기 시간 (Resource metrics)
  • CPU나 메모리(Resource metrics)
  • 세일 등 고부하가 발생할 것 같은 이벤트를 하고 있지 않은지 확인(Events)


  • 좋은 웹페이지 즐겨찾기