Cloudflare đã xác nhận rằng một lỗi trong một trong những dịch vụ cốt lõi của họ đã gây ra sự cố ngừng hoạt động nghiêm trọng vào thứ Ba, khiến phần lớn internet bị gián đoạn và ảnh hưởng đến lưu lượng truy cập đến các dịch vụ bao gồm X, ChatGPT, và trớ trêu thay, cả Downdetector. Giám đốc Công nghệ (CTO) của công ty, Dane Knecht, đã đăng một lời xin lỗi công khai ngay sau khi các dịch vụ được khôi phục, gọi sự cố này là “không thể chấp nhận được” và cho rằng sự gián đoạn này là do một thay đổi cấu hình thông thường đã gây ra sự cố trong lớp giảm thiểu bot.
Sự cố bắt đầu vào khoảng 11:48 UTC ngày 18 tháng 11, với trang web chính thức của Cloudflare thừa nhận “sự suy giảm dịch vụ nội bộ”. Khi sự cố lan rộng, người dùng trên nhiều khu vực đã báo cáo không thể truy cập không chỉ các trang web được Cloudflare hỗ trợ mà còn cả các dịch vụ Access và WARP của công ty. Sau đó, công ty đã xác định được một sự phụ thuộc cụ thể trong công cụ phòng thủ bot của mình là nguyên nhân của sự cố.
“Chúng tôi đã làm khách hàng và toàn thể internet thất vọng”, Knecht viết. “Một lỗi tiềm ẩn trong dịch vụ hỗ trợ khả năng giảm thiểu bot của chúng tôi đã bắt đầu gặp sự cố sau một lần thay đổi cấu hình định kỳ. Sự cố này đã dẫn đến sự suy giảm nghiêm trọng mạng lưới và các dịch vụ khác của chúng tôi. Đây không phải là một cuộc tấn công.”
Đến 14:42 UTC, Cloudflare đã triển khai bản sửa lỗi và bắt đầu khôi phục các thành phần bị ảnh hưởng. Chức năng bảng điều khiển, bao gồm phân tích và ghi nhật ký lỗi, vẫn bị suy giảm một phần vào buổi chiều khi các kỹ sư theo dõi các lỗi còn sót lại. Việc tạm dừng truy cập WARP tại London cũng được ban hành như một phần của quy trình khắc phục sự cố.
Ngăn xếp giảm thiểu bot của Cloudflare, bao gồm các luồng thử thách như Turnstile và các lớp xác minh JavaScript, được tích hợp với lưu lượng truy cập đến nhiều trang web và API nổi tiếng. Vì các hệ thống này không chỉ được sử dụng để chặn các tác nhân độc hại mà còn để kiểm soát quyền truy cập cho người dùng hợp pháp, lỗi trong lớp này có thể dẫn đến gián đoạn dịch vụ trên diện rộng ngay cả khi cơ sở hạ tầng CDN hoặc DNS cốt lõi vẫn hoạt động.
Đây là sự cố ngừng hoạt động lớn thứ ba ảnh hưởng đến các trang web lớn trong vòng chưa đầy một tháng. Vào tháng 10, một phần lớn khu vực US-East-1 của AWS đã ngừng hoạt động trong hơn hai giờ sau khi Amazon sau đó quy kết lỗi cấu hình DNS. Chỉ vài ngày sau, một sự cố ngừng hoạt động lớn của Azure đã xảy ra với Microsoft.
Những sự cố này đặt ra câu hỏi rộng hơn về cách các dịch vụ và nền tảng được sử dụng rộng rãi xử lý lỗi dịch vụ nội bộ và cách ly phụ thuộc ở quy mô lớn — khoảng 19% Internet dựa vào Cloudflare, trong khi Azure và AWS chiếm lần lượt khoảng 24% và 30% thị trường điện toán đám mây.

