Au cœur de l'IA moderne se cache un désaccord fondamental que les communiqués de presse et les annonces de produits s'efforcent soigneusement de ne pas révéler. D'un côté, une école de pensée qui a dominé la décennie écoulée : les lois d'échelle (scaling laws). De l'autre, une école minoritaire mais intellectuellement influente qui conteste cette vision de racine : les modèles du monde (world models). Ce débat n'est pas qu'académique. Il conditionne des milliards de dollars d'investissement, et il dit quelque chose de fondamental sur ce que nous croyons être l'intelligence.

L'école des lois d'échelle repose sur une observation empirique remarquable, formalisée notamment dans l'article « Scaling Laws for Neural Language Models » de Kaplan et al. (OpenAI, 2020) : la performance des modèles de langage améliore de façon prévisible et continue quand on augmente simultanément trois variables — la taille du modèle (nombre de paramètres), la quantité de données d'entraînement, et la puissance de calcul (FLOP). Ces améliorations suivent des courbes en puissance régulières sur plusieurs ordres de grandeur. Autrement dit : plus grand, plus de données, plus de calcul = meilleur modèle. Presque mécaniquement.

Cette observation a eu des conséquences industrielles énormes. Elle a justifié des courses aux ressources — GPU par dizaines de milliers, centres de données de plusieurs gigawatts — et une conviction implicite que le chemin vers l'intelligence artificielle générale (AGI) passe principalement par l'augmentation des ressources. GPT-2, GPT-3, GPT-4 ; Gemini Ultra ; Claude 3 Opus — chaque génération valide empiriquement la thèse : plus grand, meilleur.

Mais cette extrapolation a une limite que ses partisans eux-mêmes commencent à admettre. Les gains de scaling, si réguliers pendant des années, montrent des signes de ralentissement sur les fronts les plus exigeants : le raisonnement mathématique profond, la planification à long terme, la robustesse face à des contextes radicalement nouveaux. Et surtout : les modèles de langage, aussi grands soient-ils, commettent des erreurs qui trahissent une absence fondamentale de compréhension du monde physique.

C'est là qu'entre Yann LeCun, directeur scientifique de Meta AI et l'un des pères fondateurs du deep learning. LeCun est le critique le plus influent — et le plus vocal — de l'approche scaling. Son argument central est que prédire des tokens textuels, aussi bien qu'on le fasse, ne peut pas produire une machine qui comprend la causalité, la physique, et la structure du monde. Un modèle de langage peut décrire ce qui se passe quand on lâche un verre — mais il n'a jamais vu un verre tomber. Il n'a aucun modèle interne de la gravité, de la rigidité, de la fragmentation. Il a une distribution statistique sur des descriptions de verres qui tombent.

LeCun propose une architecture alternative : les modèles du monde (Joint Embedding Predictive Architecture, JEPA). Plutôt que de prédire le prochain token, ces systèmes apprendraient une représentation interne du monde — une simulation latente de la physique, de la causalité, de la géométrie — à partir d'observations multimodales (images, vidéos, capteurs). Ce modèle interne permettrait de raisonner par simulation : « si je fais X, que se passe-t-il ? » Pas par récupération statistique de descriptions, mais par simulation de conséquences.

Les partisans du scaling répondent que l'émergence de capacités de raisonnement dans les grands modèles — chain-of-thought, résolution de problèmes mathématiques complexes — suggère que le scaling produit quelque chose qui ressemble à un modèle du monde, implicitement, par une voie différente. Le débat est ouvert, empiriquement non résolu.

En attendant que l'IA développe un véritable « modèle du monde », elle reste une machine probabiliste faillible. C'est donc à nous de lui imposer nos contraintes et notre propre compréhension du réel. Ce que les deux écoles partagent, c'est la conviction que l'IA changera fondamentalement notre rapport à la connaissance. Ce sur quoi elles divergent, c'est le mécanisme. Et ce mécanisme n'est pas sans conséquences pour la façon dont nous faisons confiance à ces systèmes — ou dont nous leur délèguons notre pensée.