Aller au contenu

Panne AWS : comment un bug dans DynamoDB a paralysé des services mondiaux

Publié le 27 octobre 2025 • Internet

Récit de l’incident

Amazon a publié l’analyse post-incident de la panne géante d’AWS survenue la semaine dernière. Contrairement aux craintes initiales d’une cyberattaque ou d’une défaillance matérielle, la cause est un bug logiciel interne. L’incident met en lumière la vulnérabilité d’un web de plus en plus concentré autour de quelques grands acteurs du cloud.

Ce qui a causé la panne

Le point de départ est DynamoDB, le service de base de données d’Amazon. Le système gère notamment des enregistrements DNS via des programmes d’automatisation. Deux programmes automatisés indépendants ont tenté de mettre à jour la même donnée simultanément, provoquant une condition de concurrence (race condition).

Cette compétition a abouti à une entrée DNS vide : les services concernés ne savaient plus comment contacter leurs serveurs. La défaillance initiale dans DynamoDB a ensuite déclenché un effet domino au sein d’autres services critiques d’AWS.

L’effet domino

Lorsque DynamoDB est devenu indisponible, d’autres services – notamment EC2, qui fournit des serveurs virtuels – ont commencé à subir des interruptions. La situation s’est aggravée au moment des tentatives de remise en ligne : le redémarrage simultané des serveurs par EC2 a saturé le système, qui n’a pas pu absorber la charge de demandes de redémarrage.

Des milliers d’entreprises ont été impactées, parmi lesquelles Netflix, Starbucks, United Airlines, Signal, Roblox, ainsi que des objets connectés comme les lits intelligents Eight Sleep. La région de datacenters US-East-1 en Virginie, au cœur de l’infrastructure d’AWS, était particulièrement concernée.

Mesures prises par Amazon

  • Amazon a présenté des excuses et a désactivé l’automatisation défectueuse à l’échelle mondiale.
  • L’entreprise affirme vouloir corriger le bug avant de réactiver l’automatisation et ajouter des tests supplémentaires pour améliorer la résilience et la vitesse de récupération des services EC2.

Enjeux et leçons

Pour les experts, la panne illustre un enjeu plus large : la concentration du cloud entre les mains de quelques acteurs. Selon le Dr Suelette Dreyfus de l’Université de Melbourne, le problème dépasse AWS et concerne le  » cloud dans son ensemble « , dominé par trois entreprises majeures. L’Internet, initialement conçu pour être résilient, perd une partie de cette capacité lorsque l’infrastructure est très centralisée.

Points clés

  • Cause : bug logiciel interne dans DynamoDB entraînant une entrée DNS vide (condition de concurrence).
  • Conséquence : effet domino sur d’autres services AWS, notamment EC2, provoquant des interruptions à grande échelle.
  • Impact : de nombreuses entreprises et objets connectés ont été affectés, surtout autour de la région US-East-1.
  • Réponse : désactivation de l’automatisation fautive, correctifs prévus et renforcement des tests.

Articles connexes

Laisser un commentaire

Votre adresse e‑mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *