Panne AWS : comment un bug dans DynamoDB a paralysé des services mondiaux
Récit de l’incident
Amazon a publié l’analyse post-incident de la panne géante d’AWS survenue la semaine dernière. Contrairement aux craintes initiales d’une cyberattaque ou d’une défaillance matérielle, la cause est un bug logiciel interne. L’incident met en lumière la vulnérabilité d’un web de plus en plus concentré autour de quelques grands acteurs du cloud.
Ce qui a causé la panne
Le point de départ est DynamoDB, le service de base de données d’Amazon. Le système gère notamment des enregistrements DNS via des programmes d’automatisation. Deux programmes automatisés indépendants ont tenté de mettre à jour la même donnée simultanément, provoquant une condition de concurrence (race condition).
Cette compétition a abouti à une entrée DNS vide : les services concernés ne savaient plus comment contacter leurs serveurs. La défaillance initiale dans DynamoDB a ensuite déclenché un effet domino au sein d’autres services critiques d’AWS.
L’effet domino
Lorsque DynamoDB est devenu indisponible, d’autres services – notamment EC2, qui fournit des serveurs virtuels – ont commencé à subir des interruptions. La situation s’est aggravée au moment des tentatives de remise en ligne : le redémarrage simultané des serveurs par EC2 a saturé le système, qui n’a pas pu absorber la charge de demandes de redémarrage.
Des milliers d’entreprises ont été impactées, parmi lesquelles Netflix, Starbucks, United Airlines, Signal, Roblox, ainsi que des objets connectés comme les lits intelligents Eight Sleep. La région de datacenters US-East-1 en Virginie, au cœur de l’infrastructure d’AWS, était particulièrement concernée.
Mesures prises par Amazon
- Amazon a présenté des excuses et a désactivé l’automatisation défectueuse à l’échelle mondiale.
- L’entreprise affirme vouloir corriger le bug avant de réactiver l’automatisation et ajouter des tests supplémentaires pour améliorer la résilience et la vitesse de récupération des services EC2.
Enjeux et leçons
Pour les experts, la panne illustre un enjeu plus large : la concentration du cloud entre les mains de quelques acteurs. Selon le Dr Suelette Dreyfus de l’Université de Melbourne, le problème dépasse AWS et concerne le » cloud dans son ensemble « , dominé par trois entreprises majeures. L’Internet, initialement conçu pour être résilient, perd une partie de cette capacité lorsque l’infrastructure est très centralisée.
Points clés
- Cause : bug logiciel interne dans DynamoDB entraînant une entrée DNS vide (condition de concurrence).
- Conséquence : effet domino sur d’autres services AWS, notamment EC2, provoquant des interruptions à grande échelle.
- Impact : de nombreuses entreprises et objets connectés ont été affectés, surtout autour de la région US-East-1.
- Réponse : désactivation de l’automatisation fautive, correctifs prévus et renforcement des tests.
Articles connexes
VPN : comment ça marche, quels bénéfices et en avez-vous besoin ?
Qu’est-ce qu’un VPN ?Un VPN, ou ‘virtual private network’ (réseau privé virtuel), est un service qui masque votre identité en ligne et modifie votre localisation virtuelle. À l’origine utilisé par des entreprises pour accéder à des réseaux internes à distance, le terme désigne aujourd’hui surtout des services commerciaux destinés aux particuliers, sous forme d’applications simples […]
YouTube en France : plus d’un milliard d’euros apportés au PIB en 2024
YouTube en France : plus d’un milliard d’euros apportés au PIB en 2024YouTube affirme que les créateurs de contenu et leurs activités ont contribué, pour la premi?8re fois, a0a0plus d’un milliard d’euros au produit intérieur brut (PIB) frane7ais en 2024. Le chiffrage a e9te9 publie9 par la plateforme le 18 novembre dans un rapport sur […]
OVH Summit 20 novembre : accélérer la croissance par l’IA, la sécurité et l’international
OVH Summit 20 novembre : accélérer la croissance par l’IA, la sécurité et l’internationalJeudi 20 novembre prochain, OVH convie clients et partenaires à la Maison de la Mutualité (Paris) pour son Summit annuel. L’evento devrait être riche en annonces : capacités d’IA et développement agentique, extension du réseau de zones de disponibilité, datacenters certifiés, et […]