En 2013, un résultat a circulé dans les laboratoires de NLP avec la qualité d'une blague mathématique parfaite : roihomme + femmereine. Ce n'était pas une curiosité anecdotique. C'était la démonstration qu'un réseau de neurones, entraîné sur des milliards de mots sans jamais qu'on lui enseigne quoi que ce soit sur la royauté, le genre, ou la sémantique, avait appris à organiser les mots dans un espace géométrique où leurs relations analogiques prenaient la forme d'opérations vectorielles. Word2Vec venait de naître, et avec lui, l'idée que le sens pouvait être représenté comme une position dans l'espace.

La décennie qui a suivi est l'une des plus productives de l'histoire du traitement du langage naturel. Retracer son arc — de Word2Vec aux espaces latents des transformers modernes — c'est comprendre ce que les machines ont appris à faire avec le sens, et ce que cela implique.

Word2Vec (2013, Mikolov et al.) repose sur une idée simple et profonde : le sens d'un mot peut être inféré de ses voisins habituels. « Vous connaîtrez un mot à la compagnie qu'il fréquente » (Firth, 1957). Word2Vec entraîne un réseau superficiel à prédire les mots entourant un mot cible (ou l'inverse), et les représentations intermédiaires — des vecteurs de 100 à 300 dimensions — encodent des régularités sémantiques étonnantes. Les vecteurs de pays sont proches de leurs capitales. Les vecteurs d'animaux forment des clusters. Les relations grammaticales (singulier/pluriel, masculin/féminin) correspondent à des directions cohérentes dans l'espace.

La limite de Word2Vec est fondamentale : chaque mot a un vecteur fixe. La banque où l'on dépose son argent et la banque de sable sur une rivière partagent le même point dans l'espace d'embedding. Le contexte n'existe pas.

GloVe (2014, Pennington et al.) approche le problème différemment, en utilisant les statistiques globales de cooccurrence de mots sur un grand corpus. Au lieu d'entraîner sur des fenêtres locales, GloVe factorise la matrice de cooccurrence globale. Les représentations obtenues sont légèrement différentes de Word2Vec dans leurs propriétés géométriques, mais partagent la même limitation : pas de contexte, un vecteur par mot.

FastText (2016, Bojanowski et al., Facebook AI) introduit les n-grammes de caractères dans la représentation. Chaque mot est décomposé en sous-mots (par exemple « jogging » → « jog », « ogg », « ggi », « gin », « ing »). Cela résout deux problèmes importants : les mots hors vocabulaire (un mot inconnu peut être représenté par ses sous-mots) et les langues morphologiquement riches où un même radical génère de nombreuses formes.

ELMo (2018, Peters et al., AllenNLP) est le premier grand tournant vers les embeddings contextuels. ELMo utilise un LSTM bidirectionnel : pour chaque mot d'une phrase, il génère un vecteur qui dépend de l'ensemble du contexte gauche et droit. « Banque » dans « déposer de l'argent à la banque » et « banque de sable » ont maintenant des représentations différentes. Le sens contextuel est enfin capturé. Le coût : ELMo nécessite de faire tourner le modèle complet pour chaque phrase, et ses LSTMs peinent à capturer des dépendances à très longue distance.

BERT (2018, Devlin et al., Google) est le second tournant majeur. BERT utilise l'architecture transformer — mécanisme d'attention — dans une configuration bidirectionnelle. Il est pré-entraîné sur deux tâches : prédire des mots masqués dans une phrase (Masked Language Modeling) et prédire si une phrase suit naturellement une autre (Next Sentence Prediction). BERT produit des embeddings contextuels profonds où chaque couche encode des informations différentes : les couches basses captent la syntaxe, les couches hautes capturent la sémantique et le contexte pragmatique.

Pour le NLP appliqué, BERT a été révolutionnaire. Le fine-tuning d'un modèle BERT pré-entraîné sur une tâche spécifique (classification de sentiments, reconnaissance d'entités nommées, réponse à des questions) permettait d'atteindre des performances état de l'art avec très peu de données labellisées.

Sentence-BERT (2019) et les encodeurs de phrases ont adapté l'architecture pour produire des embeddings sémantiques de phrases entières — utiles pour la recherche sémantique, le clustering de documents, et la détection de similarité.

Dans les transformers modernes (GPT-4, Claude, Gemini), les espaces d'embedding sont d'une complexité qualitativement différente. Avec des dimensions allant de 12 000 à 25 000+ et des centaines de couches d'attention, ces espaces encodent non seulement le sens des mots mais des structures syntaxiques complexes, des connaissances du monde, des relations factuelles, et ce qui ressemble à du raisonnement implicite. L'espace latent n'est plus un espace de mots — c'est un espace de concepts, de relations, et peut-être d'inférences.

Ce qui est fascinant, et qui me préoccupe à la fois, c'est que nous ne comprenons pas entièrement ce que ces espaces encodent. Les techniques d'interprétabilité mécanistique commencent à identifier des « features » dans les poids des transformers — des directions dans l'espace latent qui correspondent à des concepts identifiables. Mais pour l'essentiel, l'espace latent d'un grand modèle de langage reste opaque à ses créateurs. Ces machines savent représenter le sens avec une précision stupéfiante. Nous ne savons pas exactement comment.