전체 Consul 클러스터가 불안정해진 이벤트 및 원인
1330 단어 consul
Consul Server(0.5.2) x 3
Consuul Agent(0.5.2) x 수십 대
현상.
어느 날, 제품의 Consuul 클러스터 관리 하의 서버에 경고가 자주 발생했습니다.
Consuul 로그를 확인한 후 노드가 몇 분마다
EventMemberFailed
및 EventMemberJoin
를 반복합니다.특히 특정 노드가 아닌 노드는 무작위로 페일을 진행하고 수십 초 뒤 다시 조인을 하는 기록이 끊임없이 출력된다.
'consuul flaping'에서 찾아봤는데 같은 현상으로 고민하는 사건이 몇 개 있는 것 같아요.
원인 서버
거의 모든 노드가 flaping 상태이기 때문에 원인을 잡을 수 없어 어찌할 바를 모른다
memberlist: Refuting a suspect message (from: a-01)
from 서버만 있으면 돼요. 그래서grep를 시도해 보면 빙고를 발견할 수 있어요.그 서버에 접속해 보면 동작이 매우 무겁다.
다만, top와 vmstat으로 보아도 과부하가 아니며, 특별한 원인도 발견되지 않았습니다...
그런데 EC2 상태를 보니 정기적으로 메일을 보내서 서버 자체가 좀 이상한 것 같아요.
이 투고
되살리다
만약 원인이 된 EC2 stop > start에서 실례를 갱신하면 서버는 정상으로 회복됩니다
모든 서버 로그로 출력된 Rejoin의 로그도 완전히 중지됨
전체 집단도 안정적인 운행을 회복했다.
Agent 서버가 불안정한 근본 원인은 무엇입니까?
잘 모르겠지만 두 가지 가능성을 고려했어요.
에이전트의 네트워크 하나가 불안정해지면 전체가 불안정해지는 건 좀 무섭다고 생각해요.
자주 감시하는데 수상한 서버는force-leave로 끊어야 하나요..
좀 더 진지하게 감시할 필요가 있어요.
Reference
이 문제에 관하여(전체 Consul 클러스터가 불안정해진 이벤트 및 원인), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/toritori0318/items/f724a14bea183975a862텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)