Les grands modèles de langage modernes sont, fondamentalement, des distillations de l'écriture humaine. GPT, Claude, Gemini, Mistral — tous ont été entraînés sur des quantités massives de texte : des livres, des articles, des forums, des pages web, du code source. Cette dépendance au texte humain comme matière première a longtemps semblé un avantage structurel : Internet est vaste, l'humanité écrit beaucoup, les ressources semblent pratiquement illimitées.
Epoch AI, un laboratoire de recherche indépendant spécialisé dans l'analyse des tendances du deep learning, a publié une étude qui remet en question cette assumption. Leur conclusion, formulée avec sobriété : au rythme actuel de consommation de données d'entraînement par les modèles de grande taille, nous pourrions atteindre les limites des données textuelles humaines de haute qualité disponibles sur Internet avant 2026 ou 2027. Le « mur des données » n'est pas une métaphore lointaine. C'est une contrainte physique qui approche.
Il faut d'abord comprendre ce que signifie « données de haute qualité » dans ce contexte. Tout le texte d'Internet n'est pas équivalent. Le texte qui améliore les modèles de langage est généralement dense en information, syntaxiquement correct, cohérent dans le temps, et produit par des humains avec une intention communicative réelle. Cela exclut une grande partie du spam, du texte généré automatiquement, des pages dupliquées, du contenu de faible qualité SEO. Les corpus d'entraînement les plus efficaces — comme C4, The Pile, ou FineWeb — filtrent agressivement pour ne garder que cette fraction. Et c'est cette fraction qui s'épuise.
La réponse de l'industrie a deux versants. Le premier est d'utiliser des données synthétiques : du texte produit par des modèles d'IA pour entraîner de futurs modèles d'IA. Cette approche est déjà largement pratiquée. Alpaca d'OpenAI, les données de distillation de connaissances utilisées dans plusieurs modèles open source, les pipelines d'auto-amélioration de DeepSeek — tous reposent, en partie, sur la génération de données synthétiques. Le second versant est d'exploiter d'autres modalités : images, vidéos, audio, données de simulation physique. Les modèles multimodaux comme GPT-4o ou Gemini signalent cette direction.
Le problème des données synthétiques est subtil mais fondamental : un modèle entraîné sur les sorties d'un autre modèle tend à hériter de ses biais, de ses angles morts et de ses hallucinations — souvent de façon amplifiée. Des chercheurs ont décrit ce phénomène sous le terme d'« effondrement du modèle » (model collapse) : au bout de plusieurs générations d'auto-entraînement, un modèle commence à perdre la diversité et la robustesse que seul le texte humain authentique peut apporter. C'est l'équivalent, en génétique, de la consanguinité : les copies de copies accumulent des dégradations que la diversité originelle aurait compensées.
Il y a ici une implication que l'industrie préfère ne pas souligner trop fort : la valeur des données humaines va mécaniquement augmenter. Les écrivains, les journalistes, les chercheurs, les rédacteurs — tous ceux qui produisent du texte humain dense et de qualité — ont quelque chose que les systèmes d'IA ne peuvent pas se produire eux-mêmes sur le long terme sans dégradation. La question de la rémunération de cette contribution et de la propriété de ces données va devenir de plus en plus centrale dans les négociations entre l'industrie et les producteurs de contenu.
L'émergence d'un Internet progressivement rempli de textes synthétiques va exiger de nous un esprit critique sans précédent. Nous ne pourrons plus lire un écran avec la même naïveté : est-ce qu'un humain a écrit ceci ? Est-ce que cette information vient d'une observation du monde réel ou d'une inférence probabiliste sur des données d'entraînement ? La distinction entre texte humain et texte machine, déjà difficile, va devenir encore plus poreuse. C'est l'une des dimensions cognitives que j'explore dans La paresse de penser : apprendre à penser dans un monde où la matière première de la connaissance — l'écriture humaine — est de plus en plus mêlée à sa propre distillation artificielle.