서버 "카드 다운"장애 해결 프로세스 기록

1861 단어
저녁 8시가 넘어서 갑자기 zabbix 신고가 들어왔습니다. 서버 부하가 높고 IO 부하가 높습니다.경보 메시지를 보고 바로 알아맞혔는데, 오래된 문제는 또 지난번 방법으로 문제를 해결하지 못했고, 고장 회고
장애 배경: 시스템: ubuntu 14.04 서버: kvm 가상 머신
고장 현상: 1.시스템에 대량의 경직 프로세스가 존재하여kill-9를 죽일 수 없습니다2.시스템 IO 로드 높음3.명령을 실행할 때 단말기가 끊겨 죽는다.reboot에서 서버를 정상적으로 재부팅할 수 없습니다. 가상 머신 프로세스만 죽일 수 있습니다. 5.시스템 로그에는 다음과 같은 정보 정보가 있습니다. task jbd2/vda1-8:775 blocked for more than 120 seconds.
지난번에 이 문제가 발생한 것은 3일 전이었다. 당시 인터넷에서 자료를 찾아보니 메모리 더러운 페이지 데이터를 디스크에 브러시할 때 문제가 생겨서 시스템이 다른 프로세스를 많이 막아서 대량의 경직 프로세스가 발생했다. 인터넷 방법에 따라 내부 핵 파라미터를 수정하고 조정했다.
vm.dirty_ratio = 10
vm.dirty_background_ratio = 5

뒤돌아보다
서버에 접속해 보니 역시 이 문제였다. 지난번 내부 핵 파라미터 조정이 문제를 해결하지 못한 것이 분명하다. 이어서 계속 분석을 하고 검사를 통해 다음과 같은 돌파적인 새로운 발견이 있었다. 1.조작 시 tab 보완 명령을 사용하면 단말기가 끊기고 tab를 사용하지 않으면 명령을 정상적으로 실행할 수 있습니다. 2.하나의 핵심인 cpu는 100% IO 대기에 썼다
첫 번째 발견은 나로 하여금 이전에 고장을 처리한 경험을 떠올리게 했다./tmp 디렉터리가 가득 차서 tab 보완 명령을 사용하면 끊겨 죽는다. 오늘 현상과 마찬가지로/tmp 구역의 사용 상황을 즉시 검사한다. du 명령은/tmp 구역이 단독 100G의 하드디스크에 마운트되어 60M만 사용하고 공간 문제를 배제한 것을 발견했다.이어서 터치/tmp/test 테스트 구역의 읽기와 쓰기를 시도했는데 문제가 발생했습니다. 터미널 카드가 죽었습니다./tmp 구역은 읽기와 쓰기가 불가능하여 문제의 돌파구를 찾았습니다.
왜 이 구역은 읽기와 쓰기가 불가능합니까, 계속 검사하고, mount-l/tmp는 강제로 구역을 마운트한 다음 다시 마운트합니다. 문제는 여전합니다./tmp는 읽기와 쓰기가 불가능합니다.이어서 가상 머신 컨트롤러에 로그인하여 독립된 하드디스크에 대한 정보를 보았는데 이 독립된 하드디스크는 VirtIO 모드를 사용하고 다른 하드디스크는 모두 IDE 모드로 되어 있어 문제가 여기에 있을 가능성이 높다.그래서 IDE의 하드디스크를 추가해서 VirtIO 하드디스크를 교체한 다음에 포맷을 다시 마운트하고/tmp에 다시 마운트했습니다. 고장 처리가 일단락되었습니다. 오늘 5일까지 처리되었습니다. 문제가 발생하지 않았습니다. 기본적으로 문제는 가상 하드디스크의 모드에서 나온 것이라고 확신할 수 있습니다.더 깊게, 왜 virtIO에 문제가 있는지 IDE는 문제없고, 뒤에서 계속 연구해야 한다
결론: 고장이 처음 발생했을 때 충분히 중시하지 않고 깊이 있게 분석하지 않고 인터넷의'해결 방안'을 직접 활용하여 고장이 두 번째로 발생했다. 인터넷은 자료가 많고 유용하지만 실제 상황과 결합하여 취사선택해야 한다. 문제에 부딪히면 독립적으로 사고하고 자신의 이전 경험을 결합시켜 분석을 많이 하고 자신의 문제 분석 능력을 향상시키는 동시에 자신의 지식을 더욱 융통성 있게 해야 한다.
다음으로 전송:https://blog.51cto.com/13719882/2128041

좋은 웹페이지 즐겨찾기