상단영역

본문영역

단순 명령어 누락이 KT 장애 원인…부산 라우터 교체간 안전장치 없어 전국 확산

  • Editor. 장용준 기자
  • 입력 2021.10.29 16:23
  • 댓글 0
이 기사를 공유합니다

[업다운뉴스 장용준 기자] 전국의 KT 유·무선 인터넷망 마비 사태를 일으킨 네트워크 장애의 원인이 부산국사에서 기업 망 라우터 교체 작업을 하던 작업자가 잘못된 설정 명령을 입력해 라우팅 오류로 이어져 전국으로 확산된 것으로 밝혀졌다. 

또한 작업 간 관리자 없이 협력업체 직원끼리만 낮에 네트워크도 분리하지 않은 채 장비를 교체하는 등 관리상 문제도 지적됐다.

과학기술정보통신부는 지난 25일 발생한 KT 네트워크 장애 사고와 관련해 정보보호, 네트워크 전문가들로 구성된 사고조사반과 함께 원인을 조사·분석한 결과를 29일 발표했다.

홍진배 과학기술정보통신부 정보보호네트워크정책관이 29일 정부서울청사 브리핑실에서 지난 25일 발생한 KT 네트워크 장애 원인분석 결과를 발표하고 있다. [사진=연합뉴스]
홍진배 과학기술정보통신부 정보보호네트워크정책관이 29일 정부서울청사 브리핑실에서 지난 25일 발생한 KT 네트워크 장애 원인분석 결과를 발표하고 있다. [사진=연합뉴스]

이번 사고는 25일 11시 16분경부터 시작돼 DNS(도메인 네임 시스템) 트래픽 증가에 이어, 네트워크 장애가 발생했다. 이후 12시 45분경 KT의 복구조치가 완료될 때까지 약 89분의 서비스 장애가 이어졌다.

사고조사반은 이번 사고 원인 파악을 위해 DNS서버에 발생했던 급격한 트래픽 증가가 분산서비스거부공격(DDoS)이었는지, 라우팅 오류가 어떻게 발생했고, 장애확산이 되었는지 등을 면밀하게 분석했다고 밝혔다. 

사고조사반에 따르면, 최초 KT DNS 서버에서 평소보다 트래픽이 급증한 것이 네트워크 장애로 이어진 것으로 나타났다. DNS는 도메인 주소를 IP 주소로 변환하는 역할을 수행한다.

관련 로그 기록 분석 결과, 부산국사에서 기업 망 라우터(네트워크 경로 설정 장비) 교체 작업 중, 작업자가 잘못된 설정 명령을 입력했고, 이후 라우팅(경로 설정) 오류로 전국적인 인터넷 네트워크 장애가 발생했다는 것이 밝혀졌다.

작업자는 사고 발생 라우터에 라우팅 설정 명령어 입력을 마무리하면서 'exit' 명령어를 누락했다. 이 때문에 보더 게이트웨이 프로토콜(BGP)로 교환돼야 할 경로 정보가 내부 게이트웨이에 쓰이는 IS-IS 프로토콜로 전송되는 문제가 발생했다.

라우터는 최신 경로정보를 라우터끼리 교환하기 위해 프로토콜을 사용하는데, KT와 외부 네트워크 경로 구성에는 BGP를 사용하고, KT 내부 경로 구성에는 IS-IS 프로토콜을 쓴다.

통상 1만건 내외 정보를 교환하는 IS-IS 프로토콜에 그 수십만배 규모인 BGP 정보가 엉뚱하게 전송된 결과 라우팅 경로에 오류가 발생한 것이라는 게 사고조사반의 설명이다.

이같이 부산 지역 라우터에 잘못된 라우팅 경로가 설정된 것을 시발점으로 해서 다른 지역 IS-IS 라우터까지 전국적으로 오류가 확산하는 양상으로 번졌다. 이 과정에서 전국 모든 지역 라우터와 연결된 서울 혜화 센터와 구로 센터가 오류 확산의 허브가 됐다.

KT 인터넷 장애 시간대별 상황. [그래픽=연합뉴스]

전체 라우터에 오류가 전파되기까지 걸린 시간은 30초가량이었던 것으로 밝혀졌다.

특히 KT의 IS-IS 프로토콜은 잘못된 데이터 전달에 대한 안전장치 없이 전국을 하나로 연결하고 있었기 때문에 하나의 잘못된 경로 업데이트가 전국 라우터에 연쇄적으로 일어나면서 장애가 전국으로 확산했다는 게 사고조사반의 설명이다.

이 과정에서 관리상의 문제점도 컸다. 당초 야간작업은 새벽 1∼6시에 해야 하는데, 대낮에 수행했고, 작업 관리자도 없이 협력업체 직원들끼리만 라우팅 작업을 수행하는가 하면, 작업도 네트워크가 연결된 상태로 이뤄지는 등 기본이 무너졌다는 지적이 나온다.

사전검증 단계에서도 오류를 파악하지 못했다. 라우팅 작업계획서상의 라우팅 설정 명령어 스크립트에서 IS-IS 프로토콜을 종료하는 ‘exit’ 명령어가 누락됐음에도 스크립트 작성과정 및 사전 검증 과정에서 발견하지 못했다.

사고조사반에 따르면 1, 2차에 걸친 사전검증 단계가 존재했으나, 사람이 직접 검토하는 체계이기 때문에, 오류를 발견하지 못했다. 아울러 네트워크가 차단된 가상 상태에서 오류 여부를 사전에 발견하기 위한 가상 테스트베드가 없었고, 지역에서 발생한 오류가 전국으로 확산하는 것을 차단할 수 있는 시스템도 부재했다.

인터넷 프로토콜 TV(IPTV)와 음성전화·문자메시지 서비스는 인터넷 서비스와 별도 망을 사용하고 있으나, 인터넷 장애로 전화와 문자 이용이 늘고 단말기 전원을 리셋한 사용자가 늘면서 트래픽이 증가해 부하가 가중된 것으로 나타났다.

이번 사태의 원인으로 꼽히던 디도스 공격은 없었던 것으로 파악됐다. 다량의 도메인 또는 비정상 도메인을 DNS 서버에 질의하는 '시스템 자원 공격', 또는 대량의 네트워크 패킷을 DNS 서버에 전송해 서비스 대역폭을 채우는 '네트워크 대역폭 공격' 등 디도스 공격의 2가지 유형 중 어느 쪽도 발견되지 않았다.

과기정통부는 주요 통신사업자와 네트워크 안정성 확보방안을 마련한다는 계획이다. 주요 사업자의 네트워크 관리체계를 점검하고, 오류를 사전에 진단하는 시뮬레이션 시스템을 도입한다. 작업 절차 준수 여부에 대한 기술적 점검체계 구축과 라우팅 작업 시 경로정보 개수 제한도 검토한다.

KT는 이용자 피해현황 조사 및 피해구제 방안 마련을 추진하고, 방송통신위원회는 이용자 피해구제 방안 이행여부를 점검할 예정이다.

방통위 역시 통신장애 발생시 실효성 있는 피해구제를 위한 법령 및 이용약관 등 개선방안 마련을 검토할 계획이다.

저작권자 © 업다운뉴스 무단전재 및 재배포 금지

개의 댓글

0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400

내 댓글 모음

하단영역

© 2024 업다운뉴스. All rights reserved. ND소프트