사상 초유의 전자 정부 올스톱 – 정부24 다운 사태

지난 17일부터 우리나라의 자랑이었던 전자 정부인 정부24가 올다운되었습니다.

정부24 다운사태

이번 전자 정부 다운 사태의 시작은 지난 17일입니다. 이날 오전 공무원들이 사용하는 전산망 ‘새올지방행정정보시스템’에 접속오류가 발생했습니다. 그리고 이어서 오후에는 정부24까지 멈추면서 주민등록초본이나 등본, 인감증명서 등의 민원서류 발급과 전입신고 등 온라인 대민업무가 중지되었습니다. 즉 국내에서 모든 정부의 업무가 다운된 것이죠. 게다가 금요일에 먹통 사태가 일어나면서 대혼란이 일어나게 되었습니다.

285056913 febbe2f6 9cb3 4620 8188 7c4aedc10b04
정부24 행정망 먹통사태

사고 이후 행정안전부에 따르면 사태는 네트워크 장비 오류 때문에 발생했다고 밝혔는데요. 새올 접속 장애의 원인으로 정부공개키인프라(GPKI) 오류가 지목됐고 원인을 찾는 과정에서 네트워크단의 L4 스위치 문제라고 정부는 언급했습니다.

이번 사태는 사실 카카오 장애와 다른듯 유사한데요.

정부 24 장애 원인은 L4?

정부가 공식적으로 밝힌 사고 원인은 L4 스위치라고 합니다. 하지만 이 부분은 네트워크 엔지니어였던 저의 경험으로 봤을때 이해가 되지 않습니다. 기본적으로 L4 스위치는 네트워크 분산처리를 수행합니다.

OSI 7 layer에 따른 분류인데요. 실제로 요즘에는 장비가 통합되서 L4 스위치에서 다른 역활을 하는 경우도 있습니다.

285057144 ec36b602 caf1 4cb8 a5a6 f39e3a25bf2f
osi 7 layer

기본적으로 정부 발표에 따르면 그 전일 L4 스위치 업그레이드 작업이 있었고, 이 때 장애가 발생했다는 입장인데요. 16일 장비 운영체제 업데이트를 진행했고, 다음날인 17일 새올 시스템이 멈춰서자 업데이트를 취소하는 롤백 조치를 했다고 합니다. 여기에 18일 오전 정부24 서비스가 정상화되기 이전인 새벽 시간에 해당 장비 자체를 교체까지 진행했다고 하는데요.

이는 일반적인 작업 매뉴얼에 따른 조치라고 볼 수 있습니다. 하지만 단순히 L4 스위치 오류로 전체 다운되기가 쉽지 않습니다. 일반적인 엔지니어링 구조를 고려해볼때, L4가 SPOF(단일 장애점)일 수가 없기 때문입니다. 기본적으로 시스템은 이중화 되어 있어서 L4 하나가 죽는다고 전체 시스템이 다운되는 구조로 설계될 수가 없기 때문입니다. SPOF는 아래 그림처럼 하나가 장애나면 전체 시스템이 장애나는 구조를 뜻합니다.

285057584 3b8faf8e 46e8 40ac 8233 08b7b513069b
SPOF

그 뿐만 아니라 사고가 발생하면 대체재가 없는 정부 전산망임에도 백업 시스템이 제대로 작동하지 않은 점도 이해가 되지 않습니다. 기본적인 시스템 구조라면 이중화, 정부와 같은 경우 장소 이중화까지 고려하여 사중화는 되어야 할 시스템인데, 아무래도 비용 이슈로 하지 못한것이 아닌가라는 생각이 듭니다.

기본적으로 카카오 사태처럼 이중화는 필수적이지만 보험과 같은 개념으로 한국에서는 안전불감증으로 하지 않는 경우가 많습니다. 실제로 업무할 때에도 약 1억짜리의 시스템이 있다고 하면 이중화를 하면 장비2개를 연결하는 비용까지 포함하여 2.5억 정도가 드는데, 이러한 비용을 올리면 나한테 사기치는 거 아니야? 라는 시선을 보내곤 합니다.

사실 사고가 나기 전까지는 이중화가 되어 있나 안되어 있나 차이가 나지 않습니다. 오히려 이중화 시스템의 백업이나, 모니터링 등으로 오히려 일부 구간에서는 더 복잡하고 홉을 하나더 거쳐야해서 크게 차이는 나지 않지만 늦을 수도 있습니다.

물론 정부24 시스템 전체를 살펴보지 못해서 단정할 순 없지만 정부가 지목한 L4 스위치라면 시스코든 주피터든 로그에서 바로 원인을 확인할 수 있습니다. 단순한 L4 스위치 오류로 행정망 마비가 56시간이나 지속되는 것은 기본적인 상식에 맞지 않습니다.

향후 전망

물론 대통령과 장관이 이 기계적 장애에 대해서 책임지는 상황은 나오지 않겠지만, 대처는 너무 아쉽습니다.

이 장애를 담당해야할 행안부 이상민 장관은 미국방문 중에 행정전산망 사태로 서둘러 귀국했다가 21일 윤 대통령의 영국 국빈방문을 수행하러 또다시 출국했다는 기사가 있습니다. 기사에 따르면 “국민 안전과 재난 대응의 일선 책임자인 행안부 장관은 국내에 남아 비상사태에 대비하는 게 당연하다. 대통령이 편하고 친하게 여기니까 같이 나가는 게 아닐까 싶다”고 말했다는 언급도 있는데요.

전국적인 행안망 다운으로 시급한 상황에 책임자인 행안부 장관이 국내에서 대비하지 않는 것은 이해할 수가 없습니다. 아무도 책임지지 않는 나라가 되어버린 것입니다.

하루라도 빨리 전체 시스템의 구조와 이중화 문제에 대해서 하나하나 확인해도 부족한 상황에 책임자는 없고 실무자들만 고생하는 구조가 된 것입니다. 그러니 바로 주말이 지나서 다시 장애가 발생하는 것이죠.

이번 사태는 대처가 너무 아쉽습니다. 그리고 이번에 장애 이후 정부가 내놓은 대책은 정부 행정전산망 마비 사태를 계기로 정부가 대기업도 공공 소프트웨어(SW) 사업에 참여할 수 있도록 이르면 연내 소프트웨어진흥법 개정안을 내놓기로 했다고 합니다. 첨단 기술 적용과 신속한 유지·보수·백업 등 효율적인 대민서비스 업무를 위해 세계적 수준의 정보통신(IT) 기술을 보유한 대기업의 능력을 활용하자는 취지라고 하는데요. 그동안 정부는 중소기업 보호·육성을 위해 10년 이상 대기업의 진입을 막아 왔습니다.

하지만 이런 가운데 내년 행정안전부의 전자정부 지원사업 예산은 74% 삭감된 것으로 확인되었습니다. 즉 이런 이중화에 돈을 주지 않아서 생긴 문제인데, 대기업이 들어온다고 해도 기본적인 예산 없이 돌아가는 시스템은 존재할 수 없습니다.

이중화는 보험과 같은 것인데, 사고가 나지 않은 상황에서 불필요한 비용으로 인식하는 문화가 개선되지 않는한 제2의 정부24 다운은 지속적으로 발생할 수 밖에 없습니다.

파트너스 활동으로 일정액의 수수료 등을 받을 수 있습니다.

Leave a Comment