DataDog Anomaly Detection이 훌륭합니다.

3689 단어 Datadog

소개



DataDog가 2016년 10월에 Anomaly Detection을 출시한 것 같기 때문에 기본적인 동작을 확인해 보았습니다. 일본어로 해설이 있으므로 자세한 내용은 여기를 참조하십시오

사전 준비



DataDog의 초기 설정은 이미 열려 있고 Monitor가 언제든지 새로 추가됩니다.

시나리오



감시 대상 노드에 대해 (DataDog Agent로부터 데이터가 받아들여지고 있다) 정상 상태와는 분명히 다른 「어쩐지 상태」를 일으킵니다. 이번에는 Azure VM을 사용해, 통상의 수배의 트래픽을 발생시켜, system.net.bytes_rcvd※1을 감시 대상 데이터로 합니다
 ___________________                   ___________________________
|                   |                 |                           |
| Traffic Generator | === 打ち込み == > | Target with DataDog Agent |
|___________________|                 |___________________________|
                                                    |
                                                 [push]
                                                    |
                                     // DataDog (Anomaly Detection) //
                                                    |
                                                 [notify]
                                                    |
                                    // PagerDuty (Integration slack) //
                                                    |
                                               [escalation]
                                                    |
                                               // Slack //


설정


  • 설정 예
    1.Define the metric : GET system.net.bytes_rcvd를 선택
    2. Set alert condtions : algorithm Basic을 선택
    3. Say what's happening : Subject, Message 등을 채웁니다.
    4. Notify your team : @pagerduty을 사용하여 slack에 notify를 보냅니다.
       
  • 설정 완료

  • 시사



    [제주의]



    1. 트래픽 발생시는 주위에 폐를 끼치지 않는 님, 자기 책임으로 부탁합니다!
    3. 트래픽 발생은 20% -- 45% -- 65% 처럼 신중하게 늘리는 것이 추천
    4. Set alert condtions에서 Threashold를 결정할 수 있으므로, 통상의 30% 증가 정도로 충분히
     

    확인



  • datadog
  • 평평한 곳에 갑자기 산


  • Slack에게도 알림 확인

  • 요약


  • 검증 기간이 짧고 단기적으로 동작 확인을하고 싶은 일도 있었기 때문에 Algorithm은 "Basic"을 사용했습니다
  • "Basic"은 과거 데이터를 기반으로 "간단한 시간차 이동 분위수 계산"을 바탕으로 동작을 감지하는 것으로 예상대로 동작을 확인할 수있었습니다
  • 의도적으로 발생시킨 「이상 상태」에 대해, 검출, 수렴 모두 훌륭한 반응 속도※2였습니다
  • 계절성의 변동, 장기적인 영향을 고려하고 싶은 경우는 「Agile」를 사용하는 것 같습니다. 이번에는 시도하지 않았습니다
  • 「Robust」는 더욱 세세한 데이터에의 적응도 가능한 것 같기 때문에, 이쪽도 검증하면 누군가 공유를 기다리고 있습니다

  • ※1 ... TCP/80에의 트래픽 유입 검지로 했기 때문에
    ※ 2 ... 비교 대상은 Arbor/DD -> PG -> Slack 연계의 응답이라는 점에서도 (개인적인 체감 속도입니다)

    좋은 웹페이지 즐겨찾기