SK(주) C&C 판교데이터센터 화재로 인한 카카오 서비스 장애의 완전 복구가 장기화하고 있다. 주요 기능은 대부분 정상화 됐지만, 오랜 시간 많은 이용자가 불편을 겪어야 했다. SK C&C 데이터센터 관리부터 카카오의 재난복구(DR)까지 이용자들은 이들 기업들이 관리 능력에 의문을 제기하고 있다.
◇전기실서 화재 시작…배터리 관리 문제없었나 = 17일 경찰에 따르면 지난 15일 판교캠퍼스 A동 지하 3층 전기실에서 처음 불이 났을 당시 현장에 설치된 CCTV영상에 배터리에서 스파크가 일어난 뒤 화재가 발생하고, 이후 곧바로 자동소화설비가 작동해 가스가 분사되는 장면이 담겨있는 것으로 확인됐다. 데이터센터에 전력을 공급하는 역할을 하는 배터리 1개를 구성하는 5개의 랙(선반)이 완전히 전소했다.
당초 전력이 차단되면 서버에 전원을 공급하기 위한 무정전전원장치(UPS)에 불이 난 것으로 알려졌으나, 별도로 위치한 UPS실은 화재를 피했다. 대형 화재로 번질 수 있었던 위기는 넘겼지만 향후 책임 소재 등을 가리는 과정에서 SK C&C가 전기실의 배터리 관리를 철저하게 했는지, 관리 지침을 제대로 지켰는지 등 여부가 주요 쟁점이 될 전망이다.
경찰과 국과수는 이날 2차 감식을 통해 불에 탄 배터리와 주변 잔해를 수거한 뒤 정밀 감정을 거쳐 자체 과열에 의한 화재인지, 전선 단락 등 이유가 있는지 분석할 방침이다. 결과에 따라서 배터리 제조사로 책임론 불거질 수 있다.
화재가 발생한 뒤 SK C&C가 절차를 지켜 카카오·네이버 등에 전원차단 통보를 했는지도 주목된다. SK C&C 측은 화재 대응 매뉴얼이 있고, 이에 따라 적절하게 대처했다는 입장이다. 또 화재 직후 카카오 관계자에게 알리고 이후 소방당국의 결정에 따라 전원을 차단했다고 밝혔다.
SK C&C 관계자는 “오후 3시30분경 화재가 발생한 뒤 현장에 있던 카카오 관계자 등에 알렸다”며 “1시간가량 전원 공급을 계속하다 물을 사용해 화재를 진화해야 한다는 소방당국 판단에 의해 전체 전원 차단을 결정하고, 이후에도 UPS를 통해 30분 정도 더 전원을 공급했다”고 설명했다.
◇허술한 재난 대응…이원화 조치 제역할 못 해 = 1차적 책임은 SK C&C 측에 있더라도 카카오의 대처 능력이 부족해 장애가 장기화했다는 비판이 거세다. 일각에서는 카카오가 이원화 조치를 하지 않은 것 아니냐는 의혹도 제기됐다. 이에 대해 카카오는 “4개 데이터센터에 서버를 분산해서 사용하고 있으나 판교 데이터센터가 가장 메인”이라며 “3만2000대의 서버가 전체 다운되는 것은 IT 역사상 유례가 없는 사안이라 대처에 어려운 점이 있었다”고 해명했다.
그러면서 “(한 곳에서) 전원이 내려가는 정도는 저희 기술자들이 들어가서 어드민(관리자) 설정하면 빠르게 해결할 수 있는 부분인데 화재 현장이었기 때문에 직접 진입해 시스템을 수리하거나 장애를 개선하는 데 물리적 한계가 있었다”고 밝혔다.
카카오는 “최대한의 리스크 시나리오를 세우고 준비했다고 생각했으나 불이 나서 서버 전체가 내려가는 상황까지는 저희가 대비가 부족했다”고 부연했다. 그러나 IT업계는 이해하기 어려운 부분이 많이 남아있다고 본다. 카카오의 이원화 조치가 정상적이지 않고, DR 매뉴얼이 허술하다는 것을 여실히 드러낸 사태라는 분석이 많다. 한 IT 관계자는 “메인 센터가 없는 것이 요즘 추세고 통상 태풍·지진 등으로 사용 중인 데이터센터들의 절반이 가동 중단되는 극단적인 DR 상황을 상정해 대비한다”고 지적했다.
또 다른 관계자는 “데이터센터를 분산해 리스크를 줄이는 것은 너무 당연한 이야기”라면서 “이원화 조치를 했다고 하지만 분산서버가 역할을 못 하는 등 서비스 장애가 길어졌고, 결국 이원화가 사실상 이뤄지지 않은 것”이라고 평가했다.
한편 카카오는 피해신고 채널을 별도로 마련해 신고접수를 시작할 예정이다. 방송통신위원회는 온라인피해 365센터’를 적극 활용해 카카오 피해신고 채널과 연계하고, 관련 분쟁 발생 시 통신분쟁조정위원회를 통해 이용자 보호 조치가 실질적으로 이뤄지도록 할 예정이다.