수시로 대기하는 악몽?달리기 수첩은 네가 깨어나는 것을 도울 수 있다.

4822 단어 devopssre
저자: 해리 헤일Failure is Inevitable

악몽


너는 자신이 이곳에 얼마나 머물렀는지 확실하지는 않지만, 창밖의 경치는 확실히 사람을 기분 좋게 한다.주위 환경에 완전히 융합되기 전에 경적 한 소리가 당신을 의식의 세계로 끌어들인다.천천히, 너는 너의 존재를 모으기 시작하고, 너는 언제든지 명령을 기다리고 있다.
네가 몽롱한 눈을 뜨기 시작했을 때, 소리가 점점 커져, 너의 두골을 꿰뚫었다.베개를 뒤집고 핸드폰을 들고 Pager Duty 알림을 눌러라.빠른 확인 후 경고를 읽으십시오.
```
alertname = CartService5xxError
```
운명이 말한 바와 같이, 당신은 카트 서비스에 대해 아무것도 모르고, 왜 그것이 잘못되었는지도 모른다.걱정하지 말고 계속 읽어라.
    endpoint ='CheckoutPromoWeb'
이런 기호의 조합은 너에게 아무런 의미가 없지만, 듣기에는 정말 무섭다.너는 이미 이곳에서 일한 지 1년이 되었지만, 너의 첫 주에 쇼핑 카트 서비스가 3시간 동안 중단되었다는 것을 똑똑히 기억한다.회사는 많은 돈을 손실하였는데, 너의 사장은 사고를 회고하는 과정에서 스트레스가 매우 크다.
당신은 경보 정보의 나머지 부분을 읽었는데, 이것이 얼마나 심각한지 보여 주기를 바란다.
```
description = ask harry
```
"너무 좋아...해리라고 불러줄게."네가 손을 뻗어 노트북을 들었을 때, 너는 낮은 소리로 중얼거렸다.너의 잠에서 깨어난 뇌가 의식하지 못한 것은 해리가 이미 4년 동안 회사에서 일하지 않았다는 것이다.
그러나 노트북 앞에 허리를 굽히고 앉아 회색의 '정지' 이완화신을 쳐다보면 곧 이 점을 깨닫게 된다.물론 다른 사람도 깨어나지 않았다. 몽롱한 공황 속에서 너@channel와 너의 팀 전체와 불행한 몇 명.
이와 동시에, 혼란의 심각성을 구분하기 위해 무작위 계기판을 열고, 어떤 단서를 찾아라.

더 좋은 방법이 있어요.


슬프게도 앞의 무서운 이야기는 너무 진실했다.짧은 통화 후 팀마다 서비스 경보가 첫걸음이라는 것을 깨달았다.장비가 정교하고 조작 가능한 경보가 있는 서비스와 경보 시스템을 미세하게 조정하여 팀의 모든 사람이 경보에 대한 행동을 확인하고 효과적으로 취할 수 있도록 하는 사이에 커다란 차이가 존재한다. 설령 수면이 부족한 상황에서라도.
다음 단계에 도달하기 위해 팀이 서로 다른 장면에 대해 다음과 같은 문제를 고려하도록 하십시오.
  • 고객에게 영향을 주고 있습니까?고객이 곧 영향을 받습니까?만약 그렇다면, 얼마나 많고, 얼마나 나쁜가?
  • 이런 상황은 이전에 발생한 적이 있습니까?우리 뭐 했지?
  • 완전히 분류하려면 어떤 환경이 더 필요합니까?
  • 복구 시간을 어떻게 알 수 있습니까?
  • 이 차이를 메우고 이 질문에 대답하기 위해 우리는 Runbook Documentation을 만들었다.현재, 우리는 모든 경보의 설명에 runbook을 연결했습니다. 추가된 runbook이 없으면, 새 경보가pull 요청을 통과하지 못하게 합니다.가장 까다로운 사건에서도 대기팀이 지지를 느낄 수 있도록 확보하는 방식이다.

    이벤트 응답에 실행 설명서 적용


    우리의 이야기가 시작되었을 때 대기자들이 해야 할 첫 번째 일은 분류 경보가 고객에게 미치는 영향이다.새벽 2시 30분에는 어떤 것도 기억하기 어려우므로, 이것은 우리가 실행 매뉴얼의 첫걸음이다.

    이 단계는 전체 카트 서비스 상태를 보여주는 대시보드(요청/오류 처리량+지연 히스토그램)로 연결됩니다.여기서 부르는 대로 아주 중요한 배경을 볼 수 있다. 몇 번의 구매가 발생했는지, 어떤 단점의 오류율이 얼마나 되는지.

    이제 대기자들은 고맙게도 분당 체크아웃률이 지난주 이맘때와 대체로 같았고 크게 떨어지지 않았다는 것을 알 수 있다.이것은 아직 수입에 영향을 미치지 않았지만, 우리는 이러한 실수가 어떻게 고객의 체험에 영향을 미치는지 여전히 모른다.
    2단계는 이 단점이 고객에게 미치는 영향을 상하문으로 표시하고 필요할 때 다른 실행 매뉴얼에 대한 링크를 제공합니다.이 단계에서는 영향에 따라 이벤트에 대한 최신 심각도 권장 사항을 제시할 수도 있습니다.

    이제 우리는 고객이 결제 페이지에서 혜택을 볼 수 없다는 것을 안다.물론 이는 고객을 낙담하게 하고 수입에 영향을 미치지만, 고객은 여전히 주문을 하고 있으며, 핵심 구매 절차는 다른 방면에서 건강하다.매뉴얼을 실행한 후 대기는 비난할 수 없는 SEV3 사건을 만들고 다음 단계를 계속했다.

    이곳에서 대기하면 실험과 관련된 많은 오류를 볼 수 있다.그들은 모든 오류 로그가 같은 실험 ID를 인용한 것 같다는 것을 알아차렸다. 이 실험은 오류가 갑자기 급증한 원흉일 수도 있다.링크의 업그레이드 중단 실행 매뉴얼은 잘못 구성된 실험이 과거에 중단되었다는 것을 언급하고 실험 역사 데이터를 보고 특정한 실험을 비활성화하는 절차를 소개했다.

    실패를 거듭하다


    이 예에서 대기팀은 편리한 운행 매뉴얼을 통해 사건을 성공적으로 해결할 수 있다.그러나 실행 매뉴얼이 유행이 지났거나 심지어 상세하지 않다면 이 결과는 어떻게 바뀔까?좋은 런북 한 권은 시간과 교체가 있어야만 최대한 정보를 제공할 수 있다.
    운행 매뉴얼은 정지할 때마다 경보를 받는 사람들에게 더욱 도움이 되도록 조정하고 강화할 수 있다.비난할 수 없는 정신에 따르면, 오류 추정의 심각성 등 흔히 볼 수 있는 문제는 대기하는 오류가 아니라 우리의 운영 매뉴얼과 절차의 빈틈으로 볼 수 있다.
    실행 매뉴얼은 살아있는 파일입니다.그것들은 돕는 데 쓰인다.만약 특정한 운행 매뉴얼이 당신이 필요로 하는 질문에 대답하지 않았다면, 돌이켜 볼 때가 되었다.실행 매뉴얼이 개선됨에 따라 이벤트 응답 과정에서 어려움을 없앨 수 있습니다.그 밖에 대기 공포가 사라질 수도 있다. 왜냐하면 당신이 사고에서 당신을 지원할 수 있는 도구가 있다는 것을 알고 있기 때문이다.
    Runbook에 대한 자세한 내용을 보려면 다음과 같은 추가 리소스가 있습니다.
  • 4 Tips on Preparing for a [Great] Failure
  • 5 On-Call Practices to Help you Sleep through the Night
  • How We Built and Use Runbook Documentation at Blameless
  • 좋은 웹페이지 즐겨찾기