좋아하는 앱이나 웹사이트가 고장났을 때만큼 우리가 인터넷에 얼마나 의존하고 있는지 상기시켜 주는 것은 없습니다. 2025년 10월 19일에 사용자가 Amazon Web Services(AWS)에서 전 세계적으로 중단이 발생한 상황이 바로 그러한 경우였습니다. 이 문제는 US-East-1 리전으로 불리는 북부 버지니아에 위치한 데이터 센터의 문제로 인해 발생했습니다. 센터의 DynamoDB 시스템이 수많은 시스템 오류로 인해 다운된 후였습니다.
이 문제로 인해 새로운 온라인 연결이 이루어지지 않았지만 해당 오류로 인해 Amazon Elastic Compute Cloud(EC2)에서 더 많은 오류가 발생했습니다. Network Load Balancer 및 기타 서비스도 오작동했으며 새로운 “인스턴스” 또는 가상 머신을 시작할 수 없었습니다. 이로 인해 Netflix와 같은 스트리밍 앱과 Adobe와 같은 크리에이티브 플랫폼에서 오류 메시지가 표시되었고 결국 로드 시도가 전혀 중단되었습니다. AWS 엔지니어들은 모든 연결 문제가 해결될 때까지 서비스를 복원하고 각 장애 지점을 해결하기 위해 뒤에서 작업했습니다.
아마존은 사람들의 침대가 깨질 정도로 사태가 심각해진 것을 인정하며 온라인으로 사과문을 발표했다. 과거에는 높은 성과를 성급하게 지적했지만, Amazon은 발생한 사건에서 정보를 가져와 향후 운영에 적용하겠다고 약속했습니다. 이는 이러한 중단이 다시는 발생하지 않기를 바랍니다.
AWS 중단 및 속도 저하
2002년 출시가 Amazon의 10대 순간 중 하나인 Amazon Web Services(AWS)는 이전에도 중단을 경험한 적이 있습니다. 2021년 12월, AWS는 버지니아 북부, 오리건, 캘리포니아 북부에서 세 차례에 걸쳐 문제를 겪었습니다. Disney+, Slack 및 Zoom은 이러한 중단 기간 동안 운영에 어려움을 겪은 사이트 중 일부에 불과합니다. 이러한 중단의 원인은 네트워크 장애와 동시에 너무 많은 인터넷 트래픽과 관련이 있었습니다. 회사에서 문제를 해결한 후에도 많은 사용자가 몇 시간 동안 문제를 계속 겪었습니다.
문제는 불과 2년 후인 2023년 6월에 다시 버지니아 북부에서 발생했습니다. 100개가 넘는 서비스가 오류와 느린 응답 시간으로 인해 영향을 받았으며, 지속 시간은 고작 몇 시간에 불과했지만 사용자에게 두통을 주기에 충분했습니다. 그러나 다른 경우와 달리 이 상황은 네트워크 중단으로 이어지지 않았습니다. 문제는 AWS 자체에서 사용하는 내부 시스템 내에 있었으며, 이는 AWS 외부의 모든 것에 직접적인 영향을 미쳤습니다.
보다 최근인 2024년 7월에 AWS는 내부에서 발생하지 않은 중단을 경험했습니다. 이번에는 문제가 CrowdStrike의 결함 있는 업데이트와 연결되어 속도 저하 및 일시적인 서비스 문제가 발생했습니다. 이러한 중단은 AWS를 사용하는 다양한 시스템에 영향을 미쳤으며 네트워크 자체는 안정적으로 유지되었지만 운영을 복원하려면 모든 문제를 해결해야 했습니다.
