Article · L'Observatoire·Intermédiaire·7 min·27.06.2026
Adaptation FR & commentée·Brown et al.·mai 2020

GPT-3 et le few-shot learning.

Le moment où on a découvert qu'à grande échelle, un modèle de langage peut apprendre une tâche en lisant 3 exemples — sans entraînement supplémentaire.

Source
Brown et al. — OpenAI
Niveau
Intermédiaire
Lecture
7 min
Publication
mai 2020
À retenir
  • 175 milliards de paramètres — 100× plus grand que GPT-2
  • Capable de résoudre des tâches en lisant 3 exemples (« few-shot »)
  • Pas besoin de fine-tuning : on lui décrit la tâche dans le prompt
  • Première démonstration de capacités émergentes liées à l'échelle

Mai 2020. OpenAI publie un papier de 75 pages avec un titre presque trompeur de simplicité : « Language Models are Few-Shot Learners ». Derrière, une bombe : GPT-3, un modèle 100 fois plus grand que son prédécesseur.

Ce qui change avec l'échelle

GPT-3 a 175 milliards de paramètres. Pour donner une idée : GPT-2 en avait 1,5 milliard. À cette échelle, quelque chose d'inattendu se produit. Le modèle ne se contente plus de compléter du texte — il apprend des tâches à la volée, juste en lisant la description et quelques exemples dans le prompt.

Pour toutes les tâches, GPT-3 est appliqué sans aucune mise à jour de gradient, avec uniquement des démonstrations spécifiées textuellement dans le prompt.

Few-shot, one-shot, zero-shot

Le papier formalise trois régimes d'utilisation qu'on tient désormais pour acquis :

  • Zero-shot — on décrit la tâche, sans aucun exemple. « Traduis cette phrase en français. »
  • One-shot — on donne un exemple. « Mer = sea. Maintenant : ciel = ? »
  • Few-shot — on donne 3 à 100 exemples. Le modèle infère la tâche par induction.

Cette manière de « programmer » l'IA en lui montrant simplement ce qu'on veut, c'est ce qu'on appelle aujourd'hui le prompt engineering. Ça commence ici.

La fenêtre de Pandore

GPT-3 sait écrire des poèmes, du code, des résumés, des dialogues, du JSON, des emails commerciaux — sans avoir été entraîné spécifiquement sur aucune de ces tâches. C'est la première démonstration claire de capacités émergentes : des compétences qui apparaissent quand le modèle dépasse une certaine taille, sans que personne ne les ait explicitement programmées.

Ça change la nature du débat. Avant GPT-3, on parlait d'IA spécialisée par tâche. Après, on parle d'IA généraliste — et de plafond inconnu.

Citation suggérée
Brown et al. 2020. Language Models are Few-Shot Learners. NeurIPS 2020.
Retour · 3 portes