Panne AWS : comment un bug dans DynamoDB a paralysé des services mondiaux

Récit de l’incident

Amazon a publié l’analyse post-incident de la panne géante d’AWS survenue la semaine dernière. Contrairement aux craintes initiales d’une cyberattaque ou d’une défaillance matérielle, la cause est un bug logiciel interne. L’incident met en lumière la vulnérabilité d’un web de plus en plus concentré autour de quelques grands acteurs du cloud.

Ce qui a causé la panne

Le point de départ est DynamoDB, le service de base de données d’Amazon. Le système gère notamment des enregistrements DNS via des programmes d’automatisation. Deux programmes automatisés indépendants ont tenté de mettre à jour la même donnée simultanément, provoquant une condition de concurrence (race condition).

Cette compétition a abouti à une entrée DNS vide : les services concernés ne savaient plus comment contacter leurs serveurs. La défaillance initiale dans DynamoDB a ensuite déclenché un effet domino au sein d’autres services critiques d’AWS.

L’effet domino

Lorsque DynamoDB est devenu indisponible, d’autres services – notamment EC2, qui fournit des serveurs virtuels – ont commencé à subir des interruptions. La situation s’est aggravée au moment des tentatives de remise en ligne : le redémarrage simultané des serveurs par EC2 a saturé le système, qui n’a pas pu absorber la charge de demandes de redémarrage.

Des milliers d’entreprises ont été impactées, parmi lesquelles Netflix, Starbucks, United Airlines, Signal, Roblox, ainsi que des objets connectés comme les lits intelligents Eight Sleep. La région de datacenters US-East-1 en Virginie, au cœur de l’infrastructure d’AWS, était particulièrement concernée.

Mesures prises par Amazon

Amazon a présenté des excuses et a désactivé l’automatisation défectueuse à l’échelle mondiale.
L’entreprise affirme vouloir corriger le bug avant de réactiver l’automatisation et ajouter des tests supplémentaires pour améliorer la résilience et la vitesse de récupération des services EC2.

Enjeux et leçons

Pour les experts, la panne illustre un enjeu plus large : la concentration du cloud entre les mains de quelques acteurs. Selon le Dr Suelette Dreyfus de l’Université de Melbourne, le problème dépasse AWS et concerne le » cloud dans son ensemble « , dominé par trois entreprises majeures. L’Internet, initialement conçu pour être résilient, perd une partie de cette capacité lorsque l’infrastructure est très centralisée.

Points clés

Cause : bug logiciel interne dans DynamoDB entraînant une entrée DNS vide (condition de concurrence).
Conséquence : effet domino sur d’autres services AWS, notamment EC2, provoquant des interruptions à grande échelle.
Impact : de nombreuses entreprises et objets connectés ont été affectés, surtout autour de la région US-East-1.
Réponse : désactivation de l’automatisation fautive, correctifs prévus et renforcement des tests.

Panne AWS : comment un bug dans DynamoDB a paralysé des services mondiaux

Récit de l’incident

Ce qui a causé la panne

L’effet domino

Mesures prises par Amazon

Enjeux et leçons

Points clés

Articles connexes

VPN : comment ça marche, quels bénéfices et en avez-vous besoin ?

YouTube en France : plus d’un milliard d’euros apportés au PIB en 2024

OVH Summit 20 novembre : accélérer la croissance par l’IA, la sécurité et l’international

Laisser un commentaire Annuler la réponse