0005593106_001_20251119213910310.jpg?type=w800

미국 전송망 인프라 기업 장애
챗GPT 등 인공지능·앱 불통
AWS·MS 이어 또 대형 사고
네트워크부터 클라우드까지
온라인 3대 축 모두 약점
인프라 다변화 속도 내야


전 세계 온라인 서비스에서 접속 장애가 잇따르며 인터넷 인프라스트럭처의 취약성이 재차 노출됐다. 인터넷에 의존하는 서비스가 늘어난 만큼 작은 오류 하나가 인공지능(AI)·교통·스트리밍·업무 시스템까지 일제히 멈추게 할 수 있음이 드러난 것이다. 효율을 위한 집중 구조가 되레 시스템 전체에 위험 요소가 되고 있다는 지적이다.

18일(현지시간) 오전 미국 샌프란시스코의 글로벌 웹 인프라 기업 클라우드플레어에서 파일 오류가 발생하며 챗GPT, 클로드, 쇼피파이, 인디드, 엑스(X·옛 트위터), 줌을 비롯한 주요 서비스가 동시다발적으로 접속 불능 상태에 놓였다. 뉴욕·뉴저지·메릴랜드·미네소타 등 일부 지역에서는 대중교통 애플리케이션(앱)과 공공기관 웹사이트까지 마비돼 혼란이 이어졌다. 장애 모니터링 서비스 ‘다운디텍터’에는 4시간 동안 1만건 넘는 신고가 몰렸다. 클라우드플레어는 “악성 트래픽을 걸러내는 설정 파일이 비정상 작동해 핵심 트래픽 관리 소프트웨어가 충돌했다”고 설명했다.

클라우드플레어는 전 세계 웹사이트의 약 20%를 보호하는 보안·전송 서비스 업체로 사실상 많은 기업의 ‘기본 인프라’ 역할을 한다. BBC는 “수많은 웹사이트가 디도스 공격을 피하기 위해 클라우드플레어 뒤에 숨어왔고 그 결과 인터넷의 최대 ‘단일 장애점’이 됐다”고 분석했다.

이번 사태는 최근 이어진 글로벌 정보기술(IT) 인프라 사고 흐름과 맞닿아 있다. 지난달 아마존웹서비스(AWS) 데이터센터 오류로 전 세계 1000여 개 사이트와 앱이 한꺼번에 중단됐고, 이어 마이크로소프트(MS) 애저에서도 장애가 생겨 오피스365와 기업용 서비스가 멈췄다.

문제의 핵심은 인터넷 인프라가 소수 기업에 집중된 구조로 바뀌었다는 점이다. 인터넷 서비스는 크게 네트워크·데이터센터·엔드포인트(사용자 기기) 세 단계로 구성되지만, 각 단계에서 특정 기업에 의존하는 현상이 심화하고 있다.

AWS 데이터센터 내부 모습 [AWS]특히 데이터센터가 대표적이다. 과거에는 기업 서버가 사내에서 운영돼 장애가 생겼을 때 피해가 제한적이었는데, 2000년대 중반 클라우드 컴퓨팅이 확산하면서 대부분의 서비스가 AWS·애저·구글 클라우드 등 소수 업체의 리전(Region)에 몰리게 됐다. 이 때문에 한 리전에 장애가 발생하면 해당 인프라를 쓰는 수많은 서비스가 동시에 멈추는 구조가 고착됐다. 기업 스스로도 자사 서비스가 어느 리전에 의존하는지 정확히 모르는 곳이 많아 위험은 더욱 커졌다는 분석이 나온다.

운영체제, 보안 업데이트, 인증 시스템 등 핵심 기능을 제공하는 소프트웨어 업체로의 집중도 위험을 확대하고 있다. 지난해 7월 글로벌 보안업체 크라우드스트라이크가 배포한 결함 업데이트 하나로 전 세계 수백만 대 PC가 동시에 ‘블루 스크린’ 상태에 빠진 사건은 집중 구조의 취약성을 단적으로 드러냈다.

전문가들은 안정성을 확보하려면 여러 사업자와 여러 리전에 걸쳐 서비스를 분산하는 설계가 필요하다고 강조한다. 저장 공간, 로그인 인증, 콘텐츠 전송(CDN) 등 눈에 보이지 않는 외부 서비스의 연결 관계까지 파악해야 한다는 조언도 나온다. 블룸버그는 “장애 발생 전에 대비책을 세우는 것이 가장 중요하다”며 “핵심 리전에 문제가 생겼을 때 대비할 백업을 확보하고 반드시 필요한 기능만큼은 자체 서버로 보조체계를 마련해야 한다”고 지적했다. 보안 업계에서는 멀티클라우드 분산 없이는 재발 가능성이 상존한다고 경고하고 있다.