전체 Consul 클러스터가 불안정해진 이벤트 및 원인

1330 단어 consul
컨디션
Consul Server(0.5.2) x 3
Consuul Agent(0.5.2) x 수십 대
현상.
어느 날, 제품의 Consuul 클러스터 관리 하의 서버에 경고가 자주 발생했습니다.
Consuul 로그를 확인한 후 노드가 몇 분마다 EventMemberFailedEventMemberJoin를 반복합니다.
특히 특정 노드가 아닌 노드는 무작위로 페일을 진행하고 수십 초 뒤 다시 조인을 하는 기록이 끊임없이 출력된다.
'consuul flaping'에서 찾아봤는데 같은 현상으로 고민하는 사건이 몇 개 있는 것 같아요.
원인 서버
거의 모든 노드가 flaping 상태이기 때문에 원인을 잡을 수 없어 어찌할 바를 모른다
memberlist: Refuting a suspect message (from: a-01)
from 서버만 있으면 돼요. 그래서grep를 시도해 보면 빙고를 발견할 수 있어요.
그 서버에 접속해 보면 동작이 매우 무겁다.
다만, top와 vmstat으로 보아도 과부하가 아니며, 특별한 원인도 발견되지 않았습니다...
그런데 EC2 상태를 보니 정기적으로 메일을 보내서 서버 자체가 좀 이상한 것 같아요.
이 투고
되살리다
만약 원인이 된 EC2 stop > start에서 실례를 갱신하면 서버는 정상으로 회복됩니다
모든 서버 로그로 출력된 Rejoin의 로그도 완전히 중지됨
전체 집단도 안정적인 운행을 회복했다.
Agent 서버가 불안정한 근본 원인은 무엇입니까?
잘 모르겠지만 두 가지 가능성을 고려했어요.
  • EC2 자체에 문제가 있어 탈퇴할 생각인가?
  • 연락은 없었지만 간혹...
  • 입출력 신용카드를 다 드셨습니까?
  • t2.마이크로라 한동안 켜져 있었고 인터넷도 정기적으로 사용하다 보니 I/O 카드가 사라져 불안정해졌습니다.※원래 이거(I/O 신용 잔액)를 확인하는 방법이 있나요?
  • 총결산
    에이전트의 네트워크 하나가 불안정해지면 전체가 불안정해지는 건 좀 무섭다고 생각해요.
    자주 감시하는데 수상한 서버는force-leave로 끊어야 하나요..
    좀 더 진지하게 감시할 필요가 있어요.

    좋은 웹페이지 즐겨찾기