Mai 2020. OpenAI publie un papier de 75 pages avec un titre presque trompeur de simplicité : « Language Models are Few-Shot Learners ». Derrière, une bombe : GPT-3, un modèle 100 fois plus grand que son prédécesseur.
Ce qui change avec l'échelle
GPT-3 a 175 milliards de paramètres. Pour donner une idée : GPT-2 en avait 1,5 milliard. À cette échelle, quelque chose d'inattendu se produit. Le modèle ne se contente plus de compléter du texte — il apprend des tâches à la volée, juste en lisant la description et quelques exemples dans le prompt.
Pour toutes les tâches, GPT-3 est appliqué sans aucune mise à jour de gradient, avec uniquement des démonstrations spécifiées textuellement dans le prompt.
Few-shot, one-shot, zero-shot
Le papier formalise trois régimes d'utilisation qu'on tient désormais pour acquis :
- Zero-shot — on décrit la tâche, sans aucun exemple. « Traduis cette phrase en français. »
- One-shot — on donne un exemple. « Mer = sea. Maintenant : ciel = ? »
- Few-shot — on donne 3 à 100 exemples. Le modèle infère la tâche par induction.
Cette manière de « programmer » l'IA en lui montrant simplement ce qu'on veut, c'est ce qu'on appelle aujourd'hui le prompt engineering. Ça commence ici.
La fenêtre de Pandore
GPT-3 sait écrire des poèmes, du code, des résumés, des dialogues, du JSON, des emails commerciaux — sans avoir été entraîné spécifiquement sur aucune de ces tâches. C'est la première démonstration claire de capacités émergentes : des compétences qui apparaissent quand le modèle dépasse une certaine taille, sans que personne ne les ait explicitement programmées.
Ça change la nature du débat. Avant GPT-3, on parlait d'IA spécialisée par tâche. Après, on parle d'IA généraliste — et de plafond inconnu.
Brown et al. 2020. Language Models are Few-Shot Learners. NeurIPS 2020.