손본 다음날, 진짜 장애가 터졌다

지난 글에서 site-ping을 다시 꺼내든 이야기를 했어요. 모니터링 서비스를 만들어놓고 정작 안 쓰고 있었다는 반성과 함께, 하루 동안 열심히 손봤다는 이야기.

그런데 그 다음날, 진짜 장애가 터졌어요.

알림이 울렸다

site-ping에서 이메일이 왔어요. 별도로 운영하고 있는 서비스가 응답하지 않는다고.

대시보드를 열어보니 빨갛게 변해 있더라고요. 하루 전에 손봐놓길 다행이다 싶었어요. 이게 없었으면 한참 뒤에야 알았을 거예요.

서버에 접속해봤어요. 뭔가 전체적으로 느렸어요. 명령어 하나 치는 데도 한참 걸리고.

확인해보니 서버가 저장소(디스크)에서 데이터를 읽고 쓰는 걸 기다리느라 CPU가 거의 놀고 있는 상태였어요. 대기 시간이 99%였거든요. 서버 자체의 문제라기보다는, 서버가 올라가 있는 인프라 쪽 문제 같았어요.

ConoHa VPS를 쓰고 있었는데, 나중에 공식 발표가 나왔어요. 스토리지 시스템 업데이트 과정에서 문제가 생겼다고. 3월 26일 오후부터 다음 날 오후까지, 약 24시간 동안 이어진 장애였어요.

인프라 장애라 근본적인 해결은 못 하지만, 가만히 있을 수는 없었어요.

디스크를 덜 쓰도록 swap을 꺼버렸어요. 그리고 저스팩 서버로 가던 트래픽을 막고, 그나마 여유가 있는 고스팩 서버로만 요청을 받도록 했어요.

완전히 해결된 건 아니었지만, 조금이라도 나아졌길 바라면서요. 장애가 복구될 때까지 대시보드를 틈틈이 확인하며 상황을 지켜봤어요.

솔직히 좀 뿌듯했어요.

하루 전에 “이제 진짜 써야지” 하면서 손봤는데, 바로 다음날 실전에서 써먹게 될 줄은 몰랐거든요. 모니터링은 셋업한 다음날부터 가치를 증명했어요.

만약 site-ping이 없었다면? 장애 감지도 늦었을 거고, 대응도 못 했을 거예요. 사용자한테 “안 되는데요?” 연락을 또 받았겠죠.

내가 만든 걸 내가 쓰고, 그게 진짜 도움이 되는 순간. 이런 게 서비스를 만드는 보람 아닐까 싶어요.