Azure 인스턴스가 밝혀진 이야기

2494 단어 LinuxAzurevps
이 글은 본격 공연 환경에서 했던 사람. 12일째 되는 글이다.
개시하다
저는 정보학과의 대학 4학년 학생입니다.
고등학교 때 개발된 버스 시간표 앱의 서버가 부주의로 빨려나갔다는 이야기다.
버스 시간표 응용 프로그램은 다음과 같은 환경에서 실행된다.
공식 서버: Azure Virtual Machines(1대)
이벤트 사용자: 500명 정도
계약 형식: AzureStudents
※ 아저레스턴트는 학생이 참가할 수 있는 프로그램으로 신용카드 100달러를 받을 수 있으며 12개월간 아저레스 서비스를 이용할 수 있습니다.
사건은 2021년 6월 15일 발생했다
6월 15일 이용자들은'앱을 사용할 수 없다'는 안내문을 보냈다.
나는 고장 원인을 확인하기 위해 서버에 SSH를 연결하려고 시도했지만 SSH에 연결할 수 없었다.
SSH 연결부의 IP 주소가 잘못된 것 같습니다. 실례적인 IP 주소를 확인하기 위해 Azure 페이지를 방문했습니다.
인스턴스 없음(^o^)/
Azure 인스턴스 목록에는 인스턴스가 없습니다.
실례가 없으면 불가능하기 때문에 애저에 장애가 있을까요?
틀림없이 Azure의 장애물이야.이런 생각으로 메일을 확인했어요.

정말????
거짓말이죠?
거짓말이었으면 좋겠어.
22년을 살았는데 이렇게 무서운 메일을 본 적이 없어요.
정식 서버 한 대만 해체되어 서비스가 완전히 중단되었다.
필사적으로 복구 작업을 진행하다
서버가 분리되었지만 감상에 젖은 상황은 아니다.
이런 기간 서비스를 이용하지 못해 곤란해하는 사람도 있다.
평소 행사 이용자가 많기 때문에 조속한 복구가 필요하다.
그때 복구 작업 타임라인이 이런 느낌이었어요.
13:00쯤에 모든 사용자에게 트윗 통지를 통해 고장 발생 보고 및 사과 발송
13:05 AWS에서 EC2 인스턴스 만들기
13:07 인스턴스의 IP 주소를 DNS로 설정(가장 우선적으로 침투를 설정)
13:10 서버 구축 Nginx, SSL 설정 등
13:50 서비스 데이터를 서버로 전달
13:54 서비스 동작 확인 종료
13:57 Push 알림을 통해 모든 사용자에게 복구 보고서 및 사과 보내기
이런 느낌으로 1시간 정도면 서비스를 재개할 수 있다.
과거 최대의 참사였지만 최소한의 피해 범위에서 통제됐다고 본다.
참극은 어떻게 발생했는가
  • Azure가 한 달 전에 경고 메일을 보냈는데 잘 보지 못했어요
  • 아주르는 2021년 6월 15일 갑자기 삭제한 것이 아니라 한 달 전에 이런 메일을 보냈다.

    그동안 이렇게 예의 바르게 메일을 보냈는데 제대로 확인하지 않아서 100% 제 잘못입니다(반성)
    이때 서버가 이동했다면 이번 사망 사건은 없었을 것이다.
  • 서버 전환 지연
  • 서버를 AWS나 GCP로 옮기고 싶었는데 "아직 문제 없겠지"라고 생각하고 미뤘다.
  • 데이터가 유석에 의해 사라지지 않을 것이라고 지나치게 믿는다
  • Azure Students가 끝나도 실례는 정지될 뿐입니다. 일정 기간 요금을 받으면 바로 다시 시작할 수 있을 것 같습니다.
    현실은 그렇게 달콤하지 않아요.
    더 이상 참극이 일어나지 않기 위해서 너는 왜 그래
  • AzureStudents 등 특수계획의 계약을 체결한 경우 계약 만료 시기와 내용을 충분히 파악
  • VPS에서 보낸 메시지를 확인해야 함
  • 문서 저장
    서버 구축 방법 등 모든 파일화를 강력히 추천합니다.
    Nginx 설정, PostgreSQL 설치, SSL 인증서 설정 등 모든 명령을 파일화함으로써 신속하고 안전하게 서버 구축을 할 수 있다.
    그리고 문서 제작을 통해 숙련도를 높일 수 있고, 실수로 서버를 날려도 바로 회복할 수 있다는 장점도 있다.
  • 최후
    서버가 날아가지 않도록 하는 대책이 있다면 댓글 등으로 알려주시면 좋을 것 같아요!

    좋은 웹페이지 즐겨찾기