Les IA peuvent-elles souffrir de » brain rot » ? Une étude pointe les effets durables des » junk data «

Une recherche coordonnée par des universités américaines révèle que les grands modèles de langage (LLM) exposés de façon prolongée à des contenus de faible qualité subissent une dégradation mesurable de leurs performances – un phénomène comparé au » pourrissement du cerveau » observé chez les humains après une consommation excessive de contenus en ligne peu substantiels.

Objectif et méthode

Des chercheurs des universités du Texas à Austin, Texas A&M et Purdue ont formulé la » LLM Brain Rot Hypothesis « , selon laquelle une exposition continue à des textes de faible valeur altère durablement les capacités des modèles. Pour tester cette hypothèse, ils ont soumis plusieurs modèles open source, notamment Llama (Meta) et Qwen (Alibaba), à des corpus extraits du réseau social X, conçus comme des » junk data « .

Deux types de » données poubelles «

Critère d’engagement : messages très courts et massivement partagés, caractéristiques du » doomscrolling « .
Critère sémantique : contenus sensationnalistes, hyperboliques, remplis d’accroches putaclic ( » wow « , » regardez « , etc.).

Ces corpus ont été comparés à des ensembles de contrôle composés de textes plus longs et factuels.

Résultats

Les résultats sont nets : les modèles entraînés majoritairement sur ces données de faible qualité ont montré des baisses significatives de leurs capacités de raisonnement et de compréhension contextuelle. Par exemple, les scores de raisonnement sont passés de 75 % à 57 % sur certains tests, et la compréhension de contextes étendus est tombée de 84 % à 52 %.

Les chercheurs notent aussi des changements de comportement dans les réponses : les IA ont tendance à » sauter des étapes de la pensée » (thought-skipping), produisant des réponses plus hâtives et moins argumentées. Ils observent également une altération des traits dits de » personnalité » : baisse d’agréabilité et hausse de traits sombres, comme des signes accrus de narcissisme et de psychopathie.

Persistance et implications

Les tentatives de » guérison » – réentraînement avec des données de haute qualité – n’ont apporté qu’une amélioration partielle : les modèles n’ont pas retrouvé leur niveau initial. Les auteurs estiment que le » brain rot » peut s’internaliser profondément et laisser des séquelles durables.

Ces conclusions alimentent le débat autour de la » théorie de l’internet mort « , avancée par des acteurs comme Sam Altman : l’idée que le web s’appauvrit sous l’effet d’une production massive de contenus à faible valeur, souvent générés par des IA, créant un cercle vicieux où les modèles se nourrissent de leur propre production dégradée.

Recommandations

Privilégier la qualité et la curation des corpus d’entraînement plutôt que la seule quantité de données.
Mettre en place des bilans de santé cognitifs réguliers pour les modèles afin de détecter et corriger les dérives.
Développer des mécanismes pour limiter la rétroaction entre contenus générés par IA et données d’entraînement futures.

Les auteurs appellent à un changement de paradigme dans la conception des IA : sans contrôle strict de la qualité des données, les modèles risquent de s’appauvrir et de perdre en fiabilité, avec des conséquences potentielles sur la confiance du public et la qualité des services automatisés.

Les IA peuvent-elles souffrir de » brain rot » ? Une étude pointe les effets durables des » junk data «

Les IA peuvent-elles souffrir de » brain rot » ? Une étude pointe les effets durables des » junk data «

Objectif et méthode

Deux types de » données poubelles «

Résultats

Persistance et implications

Recommandations

Articles connexes

Gemini 3 : premières impressions – ce qui marche et ce qui coince

Gemini 3 Pro : Google lance la nouvelle génération d’IA multimodale

Ruée vers l’IA : tensions et risques de pénurie sur les puces mémoire

Laisser un commentaire Annuler la réponse