Chi tiết AWS khôi phục hệ thống sau sự cố DNS DynamoDB trong 15 giờ

Ngày 20/10/2025, nhiều tổ chức công nghệ toàn cầu ghi nhận lỗi API, độ trễ tăng cao và dịch vụ ngừng phản hồi do sự cố tại vùng US-EAST-1 của Amazon Web Services (AWS) trung tâm hạ tầng quan trọng bậc nhất của internet hiện nay.

Sự cố kéo dài gần 15 giờ, ảnh hưởng đến hàng nghìn doanh nghiệp trên toàn cầu, nhưng AWS đã khôi phục toàn bộ hệ thống mà không mất dữ liệu, duy trì tính toàn vẹn dịch vụ trong suốt quá trình. Dưới đây là toàn cảnh sự cố DNS DynamoDB và cách AWS xử lý, phản ứng và phục hồi chuyên nghiệp trong một trong những thử thách hạ tầng lớn nhất năm 2025.

Bối cảnh

Ngày 20/10/2025 (giờ Việt Nam), hàng loạt dịch vụ của Amazon Web Services (AWS) gặp sự cố tại vùng US-EAST-1 (Bắc Virginia) trung tâm vận hành của rất nhiều workload doanh nghiệp trên toàn cầu.

Sự cố bắt nguồn từ lỗi phân giải DNS liên quan đến endpoint của Amazon DynamoDB, khiến nhiều hệ thống phụ thuộc như EC2, Lambda, CloudWatch, ECS, và SQS đồng loạt lỗi theo chuỗi. Đây là vùng cloud phổ biến nhất thế giới, nên sự cố đã tạo hiệu ứng lan truyền mạnh trên Internet, dù phạm vi chỉ giới hạn trong một region duy nhất.

Sự cố diễn ra như thế nào

Vào đêm 19/10 theo giờ Mỹ (sáng 20/10 theo giờ Việt Nam), AWS bắt đầu ghi nhận các tăng bất thường về lỗi API và độ trễ phản hồi.

Đội ngũ kỹ sư nhanh chóng phát hiện lỗi DNS resolution trong DynamoDB regional endpoint, dẫn đến các dịch vụ nội bộ của AWS không thể truy cập metadata và state cần thiết để vận hành bình thường.

Vì DynamoDB là thành phần nền tảng cho nhiều hệ thống quản lý trạng thái (stateful subsystem), lỗi này kéo theo sự cố thứ cấp ở EC2, Network Load Balancer (NLB), Lambda, và EventBridge.

Sự cố lan rộng ra toàn bộ tầng hạ tầng, ảnh hưởng tới 142 dịch vụ AWS, từ EC2, Lambda đến CloudFormation và CloudTrail.

Timeline chi tiết (giờ địa phương PDT / giờ Việt Nam GMT+7)

Thời điểm	Diễn biến chi tiết
19/10 – 11:49 PM PDT (20/10 – 13:49 VN)	AWS bắt đầu ghi nhận tăng lỗi API và độ trễ cao tại nhiều dịch vụ trong vùng US-EAST-1.
20/10 – 12:11 AM PDT (14:11 VN)	AWS xác nhận sự cố ảnh hưởng nhiều dịch vụ, bao gồm DynamoDB, Lambda, EC2 và IAM. Kích hoạt quy trình SEV (Service Event) khẩn cấp.
12:51–1:26 AM PDT (14:51–15:26 VN)	Xác nhận lỗi tập trung tại DynamoDB, gây ảnh hưởng đến các dịch vụ phụ thuộc. Nhiều API timeout hoặc không thể truy cập.
2:01 AM PDT (16:01 VN)	AWS xác định nguyên nhân gốc là DNS resolution error trong endpoint của DynamoDB. Triển khai nhiều luồng khắc phục song song (DNS routing, cache flushing).
2:24 AM PDT (16:24 VN)	Khôi phục thành công DNS DynamoDB, lưu lượng truy cập bắt đầu ổn định. Tuy nhiên, các dịch vụ như EC2, Lambda và SQS vẫn có backlog lớn.
3:35 AM PDT (17:35 VN)	Hầu hết các API đã hoạt động trở lại. AWS khuyến nghị khách hàng flush DNS cache nếu vẫn gặp lỗi kết nối DynamoDB.
4:08–5:10 AM PDT (18:08–19:10 VN)	Phát hiện lỗi thứ cấp trong EC2 launch subsystem (do phụ thuộc vào DynamoDB). AWS tạm giảm tốc độ khởi tạo EC2 để tránh bão tải.
5:48 AM PDT (19:48 VN)	Một số Availability Zone đã có thể khởi tạo EC2 thành công trở lại. Các dịch vụ phụ thuộc như ECS, Glue, RDS bắt đầu phục hồi.
7:14–8:04 AM PDT (21:14–22:04 VN)	AWS phát hiện vấn đề mới trong hệ thống health check của Network Load Balancer (NLB) khiến một số kết nối nội bộ bị gián đoạn.
8:43 AM PDT (22:43 VN)	AWS triển khai biện pháp giảm tải, tạm throttle yêu cầu khởi tạo EC2, và bắt đầu phục hồi kết nối mạng nội bộ.
9:38 AM PDT (23:38 VN)	Khôi phục hoàn toàn hệ thống kiểm tra tình trạng NLB, các dịch vụ Lambda, CloudWatch và DynamoDB hoạt động ổn định trở lại.
10:03–1:52 PM PDT (22:03–04:52 VN 21/10)	AWS giảm dần throttle, xử lý backlog SQS, EventBridge, CloudTrail, và Lambda invocations.
3:01 PM PDT (05:01 VN 21/10)	AWS xác nhận toàn bộ dịch vụ US-EAST-1 đã khôi phục hoàn toàn, chỉ còn backlog nhỏ của Redshift, Config, Connect đang xử lý nốt.

Tổng thời gian khắc phục: ~15 giờ, không có mất dữ liệu khách hàng.

Cách tổ chức khắc phục sự cố

Phát hiện và phản ứng nhanh: Chỉ sau 37 phút từ lúc phát hiện, AWS xác định đúng tầng lỗi (DNS) và cô lập phạm vi ảnh hưởng.
Tự động hóa phục hồi theo lớp: AWS kích hoạt hệ thống multi-layer mitigation, xử lý từ tầng DNS → EC2 → Network Load Balancer → Lambda → backlog.
Giảm tải có kiểm soát (graceful degradation): AWS chủ động throttle tạm thời các tiến trình tạo tải cao như EC2 launch và Lambda SQS polling để duy trì khả năng phản hồi trong giai đoạn chưa ổn định.
Khôi phục có trình tự: Thay vì reset toàn vùng, AWS ưu tiên khôi phục các subsystem cốt lõi như DNS, NLB health, và EC2 orchestration trước khi dỡ throttle.
Theo dõi và minh bạch: Mỗi 30–45 phút, AWS đều cập nhật chi tiết tiến độ phục hồi trên trang trạng thái, thông báo rõ từng lớp dịch vụ đang được xử lý, toàn bộ quá trình tại https://health.aws.amazon.com/health/status.

Phản ứng từ cộng đồng

Các chuyên gia SRE đánh giá cao AWS vì duy trì tính nhất quán hệ thống trong suốt thời gian khắc phục, không có lỗi ghi đè dữ liệu hay rollback sai trạng thái.
Một số nhóm DevOps ghi nhận hệ thống multi-region của họ vẫn hoạt động ổn định, coi đây là minh chứng sống động cho chiến lược multi-region và failover.
Trên Reddit và Hacker News, nhiều bình luận khen AWS xử lý có thứ tự, không hoảng loạn, và đặc biệt minh bạch trong từng giai đoạn báo cáo.

Xem thêm: