어제 3시부터 판교 IDC화재로 인해서 카카오톡이 먹통이 되었습니다.
이로 인하여 카카오톡 생태계가 모두 다운되는 현상을 겪었는데요.
IDC란?
어제 판교에 위치한 SK C&C의 IDC(Internet Data Center)에서 화재가 발생했습니다.
IDC란 인터넷에 연결할 수 있도록, 라우터와 서버(데이터)가 모여 있는 곳(센터)를 뜻합니다.
즉 카카오와 같은 서비스를 운영하기 위해서는
실제로 데이터가 있는 서버와 인터넷을 연결할 수 있는 라우터 등이 필요한데요.
이러한 라우터와 서버가 한데 모여있는 컴퓨터 호텔과 같다고 생각하시면 됩니다.
위 사진은 실제 구글 IDC와 같이 수많은 서버와 디스크, 라우터 등이 모여 있는 곳입니다.
그리고 이 IDC는 서버에서 발생하는 엄청난 발열이 있기 때문에 항상 항온, 항습해야 하는 곳입니다.
이 카카오톡의 각종 서버가 위치한 판교의 SK C&C가 불이 나면서
카카오톡 서비스 자체가 멈춰버린 것입니다.
특히 IDC는 화재 등에 있어서 취약한데요. 하나가 화재 발생할 경우 다른 서버에 까지
영향을 끼칠 수 있기 때문입니다.
카카오톡 장애
아직까지 복구가 되지 않은 금번 장애는 카카오톡 12년 서비스 중에서 최장 기간 장애로
이름을 남기게 되었는데요.
관련 직종에 있는 사람 중 하나로 이번 카카오톡 장애는 이해하기 어려운 부분이 있습니다.
지금까지 카카오톡에서 가장 길게 발생한 장애는 21년 3월 23일 ‘구글 안드로이드 시스템 웹뷰’ 충돌로
발생한 7시간 장애였는데요.
이번 장애는 어제 3시부터 지금까지도 복구가 되고 있지 않습니다.
카카오톡 장애 원인
물론 화재로 인하여 서비스 중인 서버가 멈춘것 까지는 피할 수 없는 천재지변인데요.
다만 카카오톡 장애는 어느정도 인재라는 인식이 팽배합니다.
서버는 일반적으로 이러한 장애를 예방하기 위하여 이중화하여 운영하는 것이 기본입니다.
이를 전문 용어로 HA라고 합니다.
HA는 High Availability(고 가용성)이라고 하며,
HA의 기본은 서비스에 필요한 동일한 설정의 두개의 서버(Active/Stanby)를 설치하고,
두개의 서버 중 하나의 서버가 장애가 날 경우 바로 대기하고 있던 Stanby서버로 바로 이동시켜
실제 사용자에게는 서비스가 중단없이 제공하게 되는 것입니다.
만약 카카오톡이 네이버처럼 판교 이외에 Stanby 서버가 있었다면,
장애 즉시 라우팅 경로를 변경하여 다른쪽 서버를 바라보게 만들었다면
네이버처럼 복구가 가능했을 것입니다.
하지만 카카오톡은 그러한 시스템을 가지고 있지 않았던 것으로 추정됩니다.
그리고 이 복구에서 중요한 것은 RPO(복구 목표 시점)과 RTO(복구 재개 시간)인데요.
카카오톡의 현재 상황은 RTO도 지금 무한정이고 RPO 역시 알 수 없는 상황입니다.
즉, 언제 서비스가 어느 시점 기준으로 복구가 될 지 알 수 없는 상황이죠.
하지만 카카오톡은 어떤 이유인지 알 수 없으나 기본적인 이중화가 전혀 되어 있지 않았고,
그런 이유로 Stanby서버가 없기 때문에 전체 서비스가 다운되었습니다.
이 부분이 조금 이해가 되지 않는데요. 실제 사용자도 중요한 자료의 경우 하드디스크에만 두지 않고
메일로 보낸다거나 USB 등에 백업해서 두는데요.
카카오톡 같은 큰 기업에서 어떠한 이중화 대책도 마련하지 않았다는 것이 놀랍습니다.
정말 비용절감을 위해서 백업서버를 만들지 않은 것인지 알 수 없습니다.
실제로 같은 IDC에 입주하였던 네이버는 바로 서비스를 복구 하였는데요.
그리고 실제로 네이버는 끊기지 않는 메신저라며 라인을 광고하기도 하였습니다.
카카오톡은 어떤 서비스도 복구를 못하고 있습니다.
그리고 DR역시 동작하지 않았는데요.
DR이란?
HA와 유사한 개념인데요.
IT 관점에서 말하는 재해복구(Disaster Recovery, DR)란,
각종 재해 및 위험요소에 의해 정보시스템이 중단됐을 때 이를 정상으로 회복시키는 것을 의미합니다.
IT에서의 재해는 사전적 의미를 벗어나
▲지진, 태풍, 홍수, 화재 등의 자연재해
▲테러로 인한 폭파, 전쟁, 해킹, 통신장애, 전력공급차단 등 외부요인에 의한 재해
▲시스템 결함, 기계적 오류, 관리정책 오류, 사용자 실수 같은 내부적 요인에 의한 장애 등
다양한 사례를 포함한다.
이러한 재해상황 때 빠르게 복구하는 방법을 말합니다.
하지만 이번 카카오톡 사태에서는 이런 DR도 전혀 동작하지 않았습니다.
국내에 이 DR개념이 가장 널리 알려진 사태는 14년에 발생한 삼성 SDS 화재사건입니다.
당시 삼성 SDS IDC 화재로 삼성 금융 계열사의 서비스가 중단되었는데요.
실제 서버를 전국 각지에서 옮겨서 서비스를 복구하기도 하였습니다.
당시 전국적으로 DR 개념과 서비스 이중화에 대한 인식이 높아졌고,
실제로 많은 후속조치들이 진행되었습니다.
하지만 이번 카카오톡은 그러한 점을 찾을 수 없습니다.
조금은 대처가 실망스럽기도 한데요. 한국 대표의 IT기업의 민낯이 조금은 안타깝습니다.
카카오톡 뿐만 아니라 카카오게임, 카카오T 등 카카오와 관련된 서비스는 물론
카카오톡을 이용한 로그인을 제공하는 서비스 등이 장애를 일으켰는데요.
확실히 카카오톡이 국민메신저인 나라에서 파급효과는 엄청났습니다.
과연 이번 사태는 어떻게 마무리될지 귀추가 주목됩니다.
그리고 월요일 장이 열리면 카카오톡의 주가는 또 어디까지 떨어질지 ㅠㅠ
아무쪼록 빨리 서비스가 정상화되었으면 좋겠습니다.
7 thoughts on “IDC화재로 인한 카카오톡 먹통”