Attention is all you need — Observatoire M:armites.IA

En juin 2017, huit chercheurs de Google Brain et Google Research publient un papier au titre provocateur. « Attention is All You Need ». Le sous-entendu : on n'a pas besoin du reste. Pas besoin des réseaux récurrents (RNN) qui dominaient le NLP, ni des convolutions qui dominaient la vision. Un seul mécanisme suffit : l'attention.

Ce qu'ils proposent

Une architecture entièrement nouvelle qu'ils nomment Transformer. Elle remplace les boucles séquentielles des RNN par un calcul parallèle où chaque mot d'une phrase peut regarder simultanément tous les autres mots, et leur attribuer un score d'importance. C'est l'attention multi-tête.

Conséquence pratique : l'entraînement devient massivement parallélisable. Là où un RNN devait traiter les mots un par un, le Transformer les traite tous en même temps. Sur les GPU, ça change tout : entraînement 10× plus rapide, capacité à digérer des données beaucoup plus grandes.

Nous proposons une nouvelle architecture de réseau, le Transformer, basée uniquement sur des mécanismes d'attention, dispensant entièrement de récurrence et de convolutions.

Pourquoi c'est devenu central

Trois propriétés ont fait du Transformer la fondation de l'IA moderne :

Scalabilité — plus on lui donne de données et de paramètres, mieux il marche. Pas de plafond visible. C'est ce qui a permis GPT-2, GPT-3, GPT-4.
Universalité — initialement conçu pour la traduction, le Transformer s'est révélé efficace en vision (ViT), en audio, en biologie (AlphaFold), en code.
Transfert — un Transformer pré-entraîné sur du texte général peut être affiné pour des tâches spécifiques avec très peu d'exemples.

Ce qu'il faut retenir

Sans ce papier, pas de ChatGPT en 2022. Pas de Claude. Pas de Gemini. Pas de l'écosystème IA qu'on connaît. C'est le moment fondateur technique à partir duquel tout le reste devient possible.

Le papier reste lisible — il fait 15 pages, le code est public, les visualisations d'attention sont éclairantes. Si vous voulez comprendre comment votre IA fonctionne réellement, c'est par là qu'il faut commencer.

Citation suggérée

Vaswani et al. 2017. Attention Is All You Need. NeurIPS 2017.

Attention is all you need.

Ce qu'ils proposent

Pourquoi c'est devenu central

Ce qu'il faut retenir