Article · L'Observatoire·Avancé·8 min·27.06.2026
Adaptation FR & commentée·Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, Polosukhin·juin 2017

Attention is all you need.

Le papier qui invente l'architecture Transformer. Tout ce qui suit — GPT, Claude, Gemini, Mistral — descend de ce texte.

Source
Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, Polosukhin — Google Brain & Google Research
Niveau
Avancé
Lecture
8 min
Publication
juin 2017
À retenir
  • Élimine récurrence et convolutions au profit du seul mécanisme d'attention
  • Permet la parallélisation massive — entraînement 10× plus rapide
  • Performance state-of-the-art sur la traduction EN→DE et EN→FR
  • Architecture qui se généralisera bien au-delà du NLP

En juin 2017, huit chercheurs de Google Brain et Google Research publient un papier au titre provocateur. « Attention is All You Need ». Le sous-entendu : on n'a pas besoin du reste. Pas besoin des réseaux récurrents (RNN) qui dominaient le NLP, ni des convolutions qui dominaient la vision. Un seul mécanisme suffit : l'attention.

Ce qu'ils proposent

Une architecture entièrement nouvelle qu'ils nomment Transformer. Elle remplace les boucles séquentielles des RNN par un calcul parallèle où chaque mot d'une phrase peut regarder simultanément tous les autres mots, et leur attribuer un score d'importance. C'est l'attention multi-tête.

Conséquence pratique : l'entraînement devient massivement parallélisable. Là où un RNN devait traiter les mots un par un, le Transformer les traite tous en même temps. Sur les GPU, ça change tout : entraînement 10× plus rapide, capacité à digérer des données beaucoup plus grandes.

Nous proposons une nouvelle architecture de réseau, le Transformer, basée uniquement sur des mécanismes d'attention, dispensant entièrement de récurrence et de convolutions.

Pourquoi c'est devenu central

Trois propriétés ont fait du Transformer la fondation de l'IA moderne :

  • Scalabilité — plus on lui donne de données et de paramètres, mieux il marche. Pas de plafond visible. C'est ce qui a permis GPT-2, GPT-3, GPT-4.
  • Universalité — initialement conçu pour la traduction, le Transformer s'est révélé efficace en vision (ViT), en audio, en biologie (AlphaFold), en code.
  • Transfert — un Transformer pré-entraîné sur du texte général peut être affiné pour des tâches spécifiques avec très peu d'exemples.

Ce qu'il faut retenir

Sans ce papier, pas de ChatGPT en 2022. Pas de Claude. Pas de Gemini. Pas de l'écosystème IA qu'on connaît. C'est le moment fondateur technique à partir duquel tout le reste devient possible.

Le papier reste lisible — il fait 15 pages, le code est public, les visualisations d'attention sont éclairantes. Si vous voulez comprendre comment votre IA fonctionne réellement, c'est par là qu'il faut commencer.

Citation suggérée
Vaswani et al. 2017. Attention Is All You Need. NeurIPS 2017.
Retour · 3 portes