Hier, une partie importante d’Internet a été totalement inaccessible, et de nombreux services ont souffert de performances très lentes. Rapidement, le doigt a pointé vers le réseau Cloudflare, mais il a fallu un certain temps avant que la société puisse identifier l’origine réelle du problème.
Cloudflare a d’abord pensé faire face à une cyber-attaque d’ampleur. Toutefois, ils ont réalisé par la suite que les difficultés provenaient d’une erreur liée à une mise à jour logicielle mal exécutée.
Un grand nombre d’applications et de sites web ont été totalement mis hors ligne ou ont connu des pannes significatives en raison d’un problème lié au fournisseur d’infrastructure Cloudflare. Étant donné que le CDN de Cloudflare permet d’accéder à des sites populaires, toute défaillance de leur service a des conséquences très larges. Cela a notamment affecté la plateforme sociale X (anciennement Twitter), où de nombreux utilisateurs ne pouvaient pas publier de nouveaux messages ou actualiser leurs fils d’actualité.
Une cause douloureuse : l’erreur de Cloudflare
Cloudflare a observé que ses connexions étaient interrompues pendant environ cinq minutes avant d’être restaurées puis coupées à nouveau. Ce schéma a poussé l’entreprise à croire qu’elle était la cible d’une attaque par déni de service.
Un tel type d’attaque implique qu’un acteur malveillant sursollicite un serveur avec un grand nombre de demandes, le rendant inaccessibile aux utilisateurs légitimes. Cependant, l’illusion d’une cyber-attaque ne s’est avérée être qu’un heureux concours de circonstances.
Un autre indice suspect, qui a alimenté leur suspicion, était que la page de statut de Cloudflare était également hors ligne. Bien qu’hébergée hors de leur infrastructure, cette panne a laissé penser à l’équipe qu’un agresseur ciblait à la fois leurs systèmes et leur page de statut.
Une simple erreur de configuration
Finalement, Cloudflare a découvert qu’un problème avec un fichier utilisé par son système de gestion des bots était à l’origine du désastre. Comme souvent en informatique, un problème aux symptômes étranges se résume souvent à une question de permissions, et cette situation n’a pas dérogé à la règle.
Une modification des permissions de l’une de nos bases de données a entraîné la génération d’entrées multiples dans un fichier utilisé par notre système. Ce fichier a alors doublé de taille, ce qui a mis à mal le logiciel dédié à la gestion du trafic, car il atteignait ses limites de taille.
La raison derrière ce cycle de cinq minutes réside dans le fait qu’un script spécifique exécuté sur un cluster de bases de données ClickHouse générerait le fichier toutes les cinq minutes. Lors de chaque exécution, il y avait une chance de produire soit un bon, soit un mauvais fichier de configuration.
Cloudflare a présenté ses excuses aux utilisateurs, qualifiant sa gaffe de « profondément douloureuse ». Cette situation rappelle que dans le secteur technologique, même une petite erreur peut avoir des conséquences considérables.
Nous sommes désolés pour l’impact que cela a eu sur nos clients et sur Internet dans son ensemble. Toute panne de nos systèmes est inacceptable, et nous savons que nous avons déçu nos utilisateurs aujourd’hui.
