시스템 운영 개선 업무에 대한 세 번째 단계

소개


  • 전회, 시각화/모니터링/표준화/리팩토링의 태스크(안)를 열거한 곳까지 정리했습니다.
  • 시스템 운용 업무 개선에의 첫걸음은 이쪽
  • 시스템 운용 업무 개선에의 2보째는 이쪽

  • 이번은 モニタリング 에 포커스 한 내용을 씁니다.
  • 우리가 사용하는 아키텍처에 대한 정보가 포함되어 있지만 적절한 환경으로 읽어 주시면 감사하겠습니다.


  • 전제 조건


  • 우리는 비즈니스 관리 도구로 Atlassian社のJIRA Software를 사용합니다.
  • 시스템 모니터링은 Datadog, 커뮤니케이션 툴은 slack을 이용

  • 폐사에서는 m 作業 라는 구조로, 이하를 포괄한다.
  • 의뢰 작업
  • 인시던트 대응
  • 과제 대응
  • 보안 대응
  • 업무 개선


  • 당사의 작업 흐름


  • 기본적인 작업 발생에서 작업 완료까지의 흐름은 아래 그림과 같다.



  • 모니터링의 예


  • JIRAのダッシュボード機能를 사용하여 월별 작업 구역의 티켓 수를 집계하여 추세를 파악합니다.


  • 위의 예에서 말하면 다음을 읽을 수 있습니다.
  • 2019년 12월 인시던트 수가 급격히 증가하고 있음
  • 조사한 결과, Hadoopクラスタの停止가 12월에 빈발하고 있었다

  • 2020 년에 들어가면 인시던트 수가 감소하는 경향이있다.
  • 장기 휴가 전후는 의뢰 작업이 늘어나는 경향이 있다

  • 다각적으로 수치 분석을 가능하게 하기 위해서 각 작업 구분에 대응한 フィルター 를 준비한다.
  • 상태별로 분류
  • 완료
  • 착수 중
  • 미착수
  • 미해결





  • 고생·궁리한 점



  • 업무 내용을 모두 JIRA 티켓화한다는 문화를 뿌리 내리는 것부터 시작.
  • 과거에는 slack에게 의뢰 사항이나 인시던트 정보를 쓰는 것만으로 집계나 분석을 할 수 있는 상태는 아니었다
  • 이대로는 誰が何をしているのか?가 시각화·공유할 수 없고, 과제로 파악해 개선을 실시

  • 대시보드 모니터링만으로는 과제·현안을 빨아들일 수 없다.
  • 주간 JIRA 티켓의 상황을 확인하는 컨퍼런스 바디를 마련하고 티켓 기반의 진행과 문제 및 문제를 빨아들이는 장소를 설정합니다.

  • Datadog가 통지하는 경고를 트리거로 JIRA 티켓 기표를 자동화했다.
  • 인시던트의 집계·분석을 할 수 없으면 프로액티브한 대책을 취할 수 없고, 지식도 남아 있지 않았다
  • 설정 등은 별도로 정리합니다


  • 좋은 웹페이지 즐겨찾기