2022. 10. 19. 17:52

카카오 뒤늦은 인정, "이중화 제대로 안됐다."

카카오톡 복구가 늦어진 이유는 서비스 이중화를 제대로 안했기 때문이라고 카카오가 인정했다. 유료 서비스 뿐 아니라 무료 서비스 이용자에 대한 피해 신고도 접수받고 보상을 검토하겠다고 했다. 사업 담당인 남궁훈 대표는 취임 7개월 만에 사퇴한다.

이번 사태 비상대책위원장인 홍은택 대표는 15일 판교 SK㈜ C&C 데이터센터 화재 후 서비스 복구가 오래 걸린 원인에 대해 “주요 데이터와 서비스 응용프로그램에 대한 이중화 조치는 되어 있었으나 개발자들의 주요 작업 및 운영도구가 이중화되지 못했다”고 말했다. 이어서 “서버 자동화 배포 시스템이 작동하지 않아, 3만 2,000여대의 서버를 일일이 수동으로 부팅해야 해 복구 시간이 오래 걸렸다”라고 말했다.

카카오는 트래픽 폭증 훈련은 수시로 했지만, 데이터센터가 통채로 셧다운되는 것을 대비한 적은 없었다고 했다. 홍 대표는 “데이터센터 전체가 셧다운되지 않는다고 상정하고 대응해온 것이 판단 오류였다”고 했다.

홍 대표는 “카카오톡은 국민 대다수가 쓰기 때문에 공공성을 띠는 서비스인데, 부합하는 책무를 다하지 못했다”며 “본질적인 것을 소홀히 했다”고 했다. 회사는 판교 데이터센터의 운영이 안정화되는 대로 이중화를 시작해, 유사 사고를 막을 환경을 2개월 내에 구축할 예정이다.

Q : 결국 이중화 안됐다는 것 아닌가?
A : “이중화의 수준을 어디까지로 볼 것인지의 문제다. 서비스 주요 운영프로그램은 대부분 이중화했지만 그걸 다루는 작업도구가 이중화되지 않았다는 점이 치명적이었다. 데이터센터 한 곳이 셧다운된 경우를 상정하지 않은 이중화였다. 그렇게까지 이중화된 곳은 실제로 많지 않다. 저희는 그 목표를 향해서 갈 것이다.”

Q : 왜 판교 데이터센터에 서버가 3만 2,000여대나 몰려 있나.
A : “9만여 대의 서버가 4곳의 데이터센터에 분포돼 있고, 사고시 서로 백업할 수 있는 시스템이다. 판교에 서버의 30% 있었고, 운영 메인 데이터센터라 피해가 컸다. 서버 12만 대 규모 안산 데이터센터를 2023년 1월 완공하며, 서울대 시흥캠퍼스 데이터센터도 비슷한 규모로 지을 예정이다.”

Q : 서버 여유분은 있나. 현재 서버 사용률은?
A : “서버 여분은 두 배는 아니지만 충분히 갖고 있다. 평소엔 카톡 장애가 났을 때 ‘20분 내 복구 목표’로 일하고 있다. 데이터센터 완전 셧다운에 대응하려면 인프라 투자가 많이 늘어야 하고, 회사의 의지가 있다.”

Q : 재해복구(DR) 시스템 있었나.
A : “DR이 되어 있었고, 그게 잘 작동하지 않은 이유를 설명드리고 있다. 복수의 데이터센터를 이용하고, 전원이 나가면 데이터센터 이용해 복구하는 식인데, 앞서 설명한 이유로 지연됐다.”

Q : 자체 데이터센터 설립 전까지 어떻게 이중화 작업을 할 것인가?
A : “개발자들 주요 작업도구를 이중화하고, 판교 데이터센터 차원에서는 전력 공급 이중화가 필요하다. 현재 한전에서 2개 선로를 가설해서 이중화 작업 하고 있다. 둘 중 한쪽에 문제 생겨 교체할 시 단전이 불가피하고, 선로와 배터리 이중화가 중요하다.”

https://v.daum.net/v/20221019153037829