GPT-3 et le few-shot learning — Observatoire M:armites.IA

Mai 2020. OpenAI publie un papier de 75 pages avec un titre presque trompeur de simplicité : « Language Models are Few-Shot Learners ». Derrière, une bombe : GPT-3, un modèle 100 fois plus grand que son prédécesseur.

Ce qui change avec l'échelle

GPT-3 a 175 milliards de paramètres. Pour donner une idée : GPT-2 en avait 1,5 milliard. À cette échelle, quelque chose d'inattendu se produit. Le modèle ne se contente plus de compléter du texte — il apprend des tâches à la volée, juste en lisant la description et quelques exemples dans le prompt.

Pour toutes les tâches, GPT-3 est appliqué sans aucune mise à jour de gradient, avec uniquement des démonstrations spécifiées textuellement dans le prompt.

Few-shot, one-shot, zero-shot

Le papier formalise trois régimes d'utilisation qu'on tient désormais pour acquis :

Zero-shot — on décrit la tâche, sans aucun exemple. « Traduis cette phrase en français. »
One-shot — on donne un exemple. « Mer = sea. Maintenant : ciel = ? »
Few-shot — on donne 3 à 100 exemples. Le modèle infère la tâche par induction.

Cette manière de « programmer » l'IA en lui montrant simplement ce qu'on veut, c'est ce qu'on appelle aujourd'hui le prompt engineering. Ça commence ici.

La fenêtre de Pandore

GPT-3 sait écrire des poèmes, du code, des résumés, des dialogues, du JSON, des emails commerciaux — sans avoir été entraîné spécifiquement sur aucune de ces tâches. C'est la première démonstration claire de capacités émergentes : des compétences qui apparaissent quand le modèle dépasse une certaine taille, sans que personne ne les ait explicitement programmées.

Ça change la nature du débat. Avant GPT-3, on parlait d'IA spécialisée par tâche. Après, on parle d'IA généraliste — et de plafond inconnu.

Citation suggérée

Brown et al. 2020. Language Models are Few-Shot Learners. NeurIPS 2020.

GPT-3 et le few-shot learning.

Ce qui change avec l'échelle

Few-shot, one-shot, zero-shot

La fenêtre de Pandore