Les IA peuvent-elles souffrir de » brain rot » ? Une étude pointe les effets durables des » junk data «
Les IA peuvent-elles souffrir de » brain rot » ? Une étude pointe les effets durables des » junk data «
Une recherche coordonnée par des universités américaines révèle que les grands modèles de langage (LLM) exposés de façon prolongée à des contenus de faible qualité subissent une dégradation mesurable de leurs performances – un phénomène comparé au » pourrissement du cerveau » observé chez les humains après une consommation excessive de contenus en ligne peu substantiels.
Objectif et méthode
Des chercheurs des universités du Texas à Austin, Texas A&M et Purdue ont formulé la » LLM Brain Rot Hypothesis « , selon laquelle une exposition continue à des textes de faible valeur altère durablement les capacités des modèles. Pour tester cette hypothèse, ils ont soumis plusieurs modèles open source, notamment Llama (Meta) et Qwen (Alibaba), à des corpus extraits du réseau social X, conçus comme des » junk data « .
Deux types de » données poubelles «
- Critère d’engagement : messages très courts et massivement partagés, caractéristiques du » doomscrolling « .
- Critère sémantique : contenus sensationnalistes, hyperboliques, remplis d’accroches putaclic ( » wow « , » regardez « , etc.).
Ces corpus ont été comparés à des ensembles de contrôle composés de textes plus longs et factuels.
Résultats
Les résultats sont nets : les modèles entraînés majoritairement sur ces données de faible qualité ont montré des baisses significatives de leurs capacités de raisonnement et de compréhension contextuelle. Par exemple, les scores de raisonnement sont passés de 75 % à 57 % sur certains tests, et la compréhension de contextes étendus est tombée de 84 % à 52 %.
Les chercheurs notent aussi des changements de comportement dans les réponses : les IA ont tendance à » sauter des étapes de la pensée » (thought-skipping), produisant des réponses plus hâtives et moins argumentées. Ils observent également une altération des traits dits de » personnalité » : baisse d’agréabilité et hausse de traits sombres, comme des signes accrus de narcissisme et de psychopathie.
Persistance et implications
Les tentatives de » guérison » – réentraînement avec des données de haute qualité – n’ont apporté qu’une amélioration partielle : les modèles n’ont pas retrouvé leur niveau initial. Les auteurs estiment que le » brain rot » peut s’internaliser profondément et laisser des séquelles durables.
Ces conclusions alimentent le débat autour de la » théorie de l’internet mort « , avancée par des acteurs comme Sam Altman : l’idée que le web s’appauvrit sous l’effet d’une production massive de contenus à faible valeur, souvent générés par des IA, créant un cercle vicieux où les modèles se nourrissent de leur propre production dégradée.
Recommandations
- Privilégier la qualité et la curation des corpus d’entraînement plutôt que la seule quantité de données.
- Mettre en place des bilans de santé cognitifs réguliers pour les modèles afin de détecter et corriger les dérives.
- Développer des mécanismes pour limiter la rétroaction entre contenus générés par IA et données d’entraînement futures.
Les auteurs appellent à un changement de paradigme dans la conception des IA : sans contrôle strict de la qualité des données, les modèles risquent de s’appauvrir et de perdre en fiabilité, avec des conséquences potentielles sur la confiance du public et la qualité des services automatisés.
Articles connexes
Gemini 3 : premières impressions – ce qui marche et ce qui coince
Gemini 3 : premires impressions – ce qui marche et ce qui coinceObjectif de cet article : partager mes premires impressions en utilisant Gemini 3, en soulignant ce qui fonctionne bien et ce qui fonctionne moins bien. J’explique mon exprience dans la console puis lors de sessions de codage.Pourquoi utiliser Gemini 3Avant la sortie de […]
Gemini 3 Pro : Google lance la nouvelle génération d’IA multimodale
Gemini 3 Pro : Google lance la nouvelle generation d’IA multimodaleMoins de deux ans apres le lancement de l’ere Gemini, Google a annonce Gemini 3, une nouvelle famille de modeles d’intelligence artificielle qu’il presente comme la plus performante jamais conçue par le groupe. La premiere version, Gemini 3 Pro, est disponible immediatement en preview et […]
Ruée vers l’IA : tensions et risques de pénurie sur les puces mémoire
Ruée vers l’IA : tensions et risques de pénurie sur les puces mémoireLes investissements massifs dans les centres de donnees pour l’intelligence artificielle alimentent une demande croissante en puces, en energie et en memoires. Selon plusieurs acteurs du secteur, cette demande porte en particulier sur les puces memoires et menace d’entrainer des penuries et des […]