이번주에 금요일에 가장 핫한 것은 Crowdstrike 발 윈도우 장애 사건인데요.
CrowdStrike 장애 사건
이번 사건은 윈도우에서 V3와 같은 보안 프로그램 회사인 Crowdstrike의 보안 패치가 오동작하면서 발생한 사건입니다. 국내 언론들은 MS 장애라고 전달했지만, 실체는 보안 프로그램인 CrowdStrike였습니다.
크라우드스트라이크(영어: CrowdStrike)은 미국 텍사스 오스틴에 본사를 둔 클라우드 보안 회사라고 합니다. 2011년 설립된 이래 엔드포인트 보안, 위협 인텔리전스, 사이버 공격 대응 서비스 등을 제공하는 회사입니다.
보안 프로그램은 원래부터 양날의 칼인데요. 바이러스를 삭제해야하기 때문에 관리자 권한을 가지고 있는데, 거꾸로 보안 프로그램이 바이러스에 걸리면 컴퓨터 자체를 사용할 수 없는 문제가 있습니다.
최근에도 작년에 이니세이프 크로스웹 EX의 구형 버전(3.3.2.40 이하)이 북한의 해킹으로 1000만명 이상이 사용하는 프로그램이 오히려 취약점을 제공하는 문제가 있었는데요. 해당 프로그램은 공동인증서를 사용해 로그인이나 전자서명을 할 때 쓰이는 프로그램입니다. KT그룹 금융보안 계열사인 이니텍은 지난해 매출 538억원을 기록하고 임직원 197명을 보유할 정도로 국내 보안기업 중에선 ‘상위권’에 속하는 업체인데도 불구하고 해킹을 당했습니다.
이번 크라우드스트라이크도 비슷한데요. 증상은 주로 Windows 10이 설치된 PC에 블루스크린(PAGE_FAULT_IN_NONPAGED_AREA, 0x00000050)이 표시된 뒤 임의로 계속해서 재부팅되는 형태로 나타났으며, CSAGENT.SYS 파일에 문제가 있다는 메시지를 출력했다고 합니다.
다만 국내에서는 V3라는 보안 프로그램을 자주 사용하기 때문에 피해가 크지 않았는데요. 크라우드스트라이크사의 팰콘 센서 소프트웨어를 설치하면 윈도우 부팅시 자동연계 실행되어 악성코드가 실행할 법한 패턴이나 흔적을 분석하고 악성코드를 감지하는 역할을 하는데, 이 소프트웨어는 부팅과 연계되어 작동하기에 문제가 발생하면 PC 부팅이 되지 않게 됩니다.
이에 정말 많은 항공사, 증권사, 게임사를 비롯하여 IT로 서비스하는 모든 기업이 영향을 받았습니다. 전세계적으로 유래없는 IT 대란이 펼쳐진 것이죠.
크라우드 스트라이크 사건 후기
사티아 나델라 마이크로소프트(MS) 최고경영자(CEO)가 전 세계적으로 발생한 MS 클라우드 서비스 장애에 대해 입장을 내고 신속한 복구를 위해 지원하겠다고 언급했습니다. 사건 발생 19일(현지시각) 나델라 CEO는 자신의 엑스(X) 계정을 통해 “크라우드스트라이크가 어제 업데이트를 발표했는데, 우리는 이것이 전 세계 IT 시스템에 영향을 미친 문제를 인지하고 있다”고 말했습니다.
이어 “(MS는) 크라우드스트라이크 및 업계 전반과 긴밀히 협력해 고객 시스템을 안전하게 시스템을 복구할 수 있도록 기술 지침 및 지원을 제공하고 있다”고 전했습니다.
다만 국내 언론은 아쉽게도 크라우드 스트라이크라는 보안 프로그램 문제가 아닌 MS의 문제로 계속 몰아갔습니다. 최초 보도 역시 MS 클라우드 이슈로 몰고 갔습니다. MS 클라우드가 문제라면 점유율이 24%나 되는데, 실제로 이보다 훨씬 많은 서비스가 다운되었어야 합니다.
언론에서 해외처럼 빠르게 Crowdstrike가 문제의 원인이라고 알려주었더라면 더 빠르게 조치할 수 있을 것이라는 아쉬운 생각이 듭니다.
이렇게 IT가 집중화되고 클라우드화 될수록 장애는 커질수 밖에 없는데요. 공항, 은행 등 주요 인프라가 한 회사의 클라우드 서비스를 사용하는 탓에 이같이 작은 보안 업데이트 오류 하나에도 동시다발적인 대형 마비 사태가 벌어졌다는 점도 주목할 만합니다. 기본적으로 이중화를 해놔야 함에도 불구하고, SPOF 구조로 설계하였기 때문에 이렇게 큰 이슈가 발생한 것입니다.
클라우드 서비스는 이를 사용하는 개별 회사로선 유지·관리 비용을 절감한다는 장점이 있지만 중앙 시스템에서 문제가 생기면 피해 규모와 범위가 걷잡을 수 없이 커질 수 있는 구조적 위험이 있기 때문입니다.
그래서 필수적으로 이중화를 해야하지만, 카카오톡도 비용절감을 이유로 이중화하지 않았고, 그에 따르 큰 장애가 발생했는데요. 이번 사건을 통해서 회사별로 IT에 대한 보안 불감증을 다시한번 볼 수 있었습니다.
그리고 또한 보안 프로그램의 배포가 야간이나 사용자가 없을때 배포되지 않고 수시로 배포되는 것은 IT유지보수 원칙에도 벗어나는 것인데요. 이 책임에서 Crowdstrike는 벗어나긴 어려워 보입니다. 천문학적인 손해배상을 져야할 것으로 보이는데요. 주가역시 하루만에 11%넘게 빠졌습니다.
그리고 놀랍게도 southwest 항공은 윈도우 3.1을 사용하고 있어서 ㅋㅋㅋㅋ 문제가 되지 않았다고 합니다. 이것이 무엇.. 윈도우 3.1이라니.. 아직도 이걸 사용하다니 ㄷㄷ
이번 사건 해결 방법
현재 알려진 방법은 안전모드에서 삭제하는 방법인데요.
- 윈도우를 안전 모드로 부팅하거나 외장 드라이브에 탑재한 윈도우로 부팅
- C:\Windows\System32\drivers\CrowdStrike로 이동
- C-00000291*.sys 파일 찾아서 삭제
- 정상적으로 재부팅
다시는 이런 장애가 발생하지 않도록 회사에서도 효율만 따질것이 아니라 안정적인 서비스 운영을 위해서 꼭 이중화를 해야할 것입니다. 그리고 애저의 상태는 아래의 사이트에서 서비스 상태를 확인할 수 있습니다.