Comment les IA sont-elles évaluées ? Voici les 8 principaux tests (Turing, Winograd, GAIA)

(Essayez l'IA de Yiaho, c'est gratuit !)

L’intelligence artificielle fascine par ses capacités croissantes : elle converse, crée, et résout des problèmes complexes. Mais comment évaluer son niveau d’intelligence ?

Depuis les années 1950, des tests variés ont été conçus pour mesurer ses compétences, du dialogue à la manipulation d’objets du quotidien. Cet article, rédigé par l’équipe de Yiaho, explore huit épreuves emblématiques, leurs créateurs, leurs objectifs, ainsi que les performances des IA qui s’y sont confrontées.

Voici un panorama détaillé des forces et des limites de l’IA en 2025, entre prouesses impressionnantes et défis persistants.

1. Test de Turing

Inventeur : Alan Turing, mathématicien britannique et pionnier de l’informatique, a introduit ce concept en 1950 dans Computing Machinery and Intelligence.
Objectif : Déterminer si une IA peut imiter un humain dans une conversation écrite au point de tromper un interrogateur.
Fonctionnement : Un juge humain échange par texte avec deux entités : une IA et une personne réelle. Après cinq minutes, si l’interrogateur ne distingue pas la machine dans plus de 30 % des cas, le test est réussi.

IA ayant passé le test de Turing :

ELIZA (1966, Joseph Weizenbaum) : Ce programme simulait un psychothérapeute avec des réponses ouvertes comme « Comment vous sentez-vous à ce sujet ? ». Bien qu’il ait convaincu certains utilisateurs, son intelligence était limitée à des schémas prédéfinis.
Eugene Goostman (2014, Vladimir Veselov) : Présenté comme un adolescent ukrainien de 13 ans, ce chatbot a persuadé 33 % des juges lors d’un concours à l’Université de Reading. Sa réussite reste controversée, car son jeune âge excusait ses réponses incohérentes.

Ce test reste une référence historique, souvent vu comme le point de départ des évaluations en IA. Cependant, des experts comme Yann LeCun critiquent sa superficialité : une IA peut exceller en imitation sans comprendre le sens de ses mots. Il mesure davantage la capacité à feindre l’intelligence que l’intelligence elle-même, un débat qui anime encore les chercheurs.

2. Test de l’Étudiant (Robot College Student Test)

Inventeur : Ben Goertzel, chercheur en intelligence artificielle générale (AGI) et PDG de SingularityNET, a proposé ce test comme une alternative ambitieuse au Test de Turing.
Objectif : Vérifier si une IA peut s’inscrire à l’université, suivre un cursus complet (mathématiques, littérature, sciences), et obtenir un diplôme au niveau d’un étudiant humain.
Fonctionnement : L’IA doit assister à des cours, comprendre des concepts abstraits, réussir des examens variés (QCM, dissertations), et démontrer une capacité d’apprentissage sur le long terme – un défi bien plus vaste que des tâches ponctuelles.

IA ayant passé le test de l’étudiant :

ChatGPT (Yiaho / OpenAI) : En 2023, ce modèle a réussi des examens professionnels comme le barreau américain (score dans le 10e centile) et des tests médicaux universitaires, bien qu’il ait parfois inventé des réponses erronées ou « hallucinantes ».
Grok (xAI) : Testé en 2024 sur des QCM scientifiques niveau lycée, il a obtenu des résultats solides, mais ses essais rédigés manquent de nuance et de réflexion approfondie.

Ce test illustre les progrès spectaculaires en traitement du langage et en résolution de problèmes académiques. Cependant, aucune IA ne gère encore un parcours universitaire complet, faute de capacité à apprendre de manière autonome sur plusieurs années. Les chercheurs saluent les avancées, mais notent que la créativité et l’adaptabilité restent hors de portée.

3. Test du Café

Inventeur : Steve Wozniak, cofondateur d’Apple, a popularisé cette idée dans des interviews, notamment lors d’un AMA sur Reddit en 2014.
Objectif : Évaluer la capacité d’une IA à réaliser une tâche quotidienne complexe – préparer un café – dans une maison inconnue.
Fonctionnement : L’IA doit entrer dans un espace non familier, localiser la cuisine, identifier les outils nécessaires (cafetière, café, eau), et exécuter les étapes sans instructions préalables. Cela exige une combinaison de perception visuelle, de navigation autonome, et de résolution pratique de problèmes.

IA ayant passé le test du café

En 2025, aucune IA n’a pleinement relevé ce défi. Les robots comme Boston Dynamics’ Spot maîtrisent des mouvements précis et peuvent saisir des objets, tandis que Tesla Bot progresse dans la manipulation. Cependant, aucun ne parvient à improviser dans un environnement aussi imprévisible qu’une maison réelle.

Ce test met en lumière une faiblesse majeure : l’absence de « bon sens » pratique chez les IA actuelles. Les roboticien·ne·s soulignent que la technologie excelle dans des contextes contrôlés, mais échoue face à la spontanéité du quotidien. Wozniak a imaginé un défi simple en apparence, mais redoutable en réalité, qui illustre l’écart entre IA numérique et IA physique.

4. Test de l’Embauche (Employment Test)

Inventeur : Nils John Nilsson, figure majeure de l’IA à Stanford, a formalisé ce concept en 2005 dans AI Magazine (« Human-Level Artificial Intelligence? Be Serious! »).
Objectif : Juger si une IA peut être embauchée pour un travail économiquement utile – rédiger des documents, répondre à des clients, ou gérer des tâches – avec une efficacité comparable à celle d’un humain.
Fonctionnement : Nilsson propose un critère précis : l’IA doit atteindre au moins 70 % des performances d’un employé moyen dans un poste donné. Cela inclut des compétences pratiques (ex. planification) et sociales (ex. communication), testées dans des simulations ou des environnements réels.

IA ayant passé le test de l’étudiant :

Google Duplex (2018) : Ce système a réservé des tables et des rendez-vous par téléphone, trompant des interlocuteurs humains grâce à une voix naturelle et des intonations réalistes.
ChatGPT (Yiaho / OpenAI) : En 2023, des entreprises l’ont utilisé pour rédiger des emails professionnels ou des candidatures, mais toujours sous supervision humaine pour corriger ses erreurs ou ajuster son ton.

Ce test offre une approche pragmatique, centrée sur l’utilité concrète plutôt que sur des notions abstraites d’intelligence. Les entreprises y voient un potentiel énorme, mais les experts soulignent une limite : l’IA excelle dans des tâches spécifiques, pas dans l’autonomie totale requise pour un emploi complexe. Nilsson a posé une question pertinente : une IA peut-elle vraiment remplacer un collègue ?

5. GAIA Benchmark

Inventeur : L’équipe de xAI a lancé ce test en 2023 pour évaluer les progrès vers l’intelligence artificielle générale.
Objectif : Mesurer la capacité d’une IA à répondre à des questions pratiques et variées, simples pour un humain (ex. « Que sent la pluie ? »), mais difficiles pour une machine.
Fonctionnement : Composé de 466 questions, le benchmark GAIA couvre la logique, les sciences, et le bon sens quotidien. Les réponses sont évaluées pour leur exactitude et leur pertinence, sans indulgence pour les approximations.

IA ayant passé le test GAIA

Grok (xAI) a été soumis à GAIA en 2023, atteignant un score estimé entre 60 et 70 % selon des rapports préliminaires, contre 100 % pour un humain moyen.

GAIA se distingue par sa diversité et sa rigueur, offrant un aperçu global des capacités d’une IA. Les résultats de Grok sont bons, mais les écarts avec les humains rappellent que l’AGI reste un horizon lointain. Les chercheurs considèrent ce test comme une étape clé pour dépasser les évaluations superficielles et viser une intelligence plus robuste.

6. Test de Lovelace

Inventeur : Selmer Bringsjord a proposé ce test en 2001, repris et affiné sous « Lovelace 2.0 » par Mark Riedl (Georgia Tech) en 2014.
Objectif : Examiner si une IA peut créer une œuvre originale – poème, peinture, musique – sans instructions détaillées, démontrant une véritable créativité.
Fonctionnement : Un humain évalue l’œuvre selon trois critères : nouveauté, qualité, et intention apparente. L’IA doit surprendre, pas seulement recombiner des éléments appris.

IA ayant passé le test de Lovelace :

DALL-E (OpenAI) et Stable Diffusion : Ces modèles génèrent des images saisissantes depuis 2022, souvent jugées artistiques, mais leur créativité est débattue – est-ce de l’art ou un calcul sophistiqué ?
ChatGPT : Ses récits ou poèmes impressionnent par leur fluidité, mais trahissent des influences évidentes de ses données d’entraînement.

Ce test soulève une question philosophique : une machine peut-elle inventer au sens humain ? Les artistes y voient du potentiel, mais les sceptiques, comme Bringsjord lui-même, estiment que l’IA manque d’âme. Les œuvres produites captivent, mais leur origine mécanique divise encore les observateurs.

Lire également à ce sujet : Prompt pour ChatGPT : Voici 10 exemples et astuces

7. Test de Winograd (Winograd Schema Challenge)

Inventeur : Terry Winograd, professeur à Stanford, a conçu ce principe en 1970, formalisé en 2011 par Hector Levesque comme un défi structuré.
Objectif : Évaluer la compréhension contextuelle d’une IA à travers des phrases ambiguës (ex. « Le trophée ne rentre pas dans la valise car il est trop grand » – qui est grand ?).
Fonctionnement : L’IA doit résoudre des anaphores en s’appuyant sur le raisonnement et le bon sens, plutôt que sur des probabilités statistiques tirées de données massives.

IA ayant passé le test de Winograd :

BERT (Google) et GPT-3 ont montré des progrès dans les années 2020, mais en 2025, même GPT-4 échoue sur les exemples les plus subtils, confondant souvent les références.

Ce test brille par sa simplicité apparente et sa complexité réelle. Les linguistes le célèbrent comme un révélateur des lacunes de l’IA dans le raisonnement profond, un domaine où les humains conservent une avance nette. Les échecs répétés des modèles les plus avancés soulignent que la maîtrise du langage reste un défi majeur.

8. CAPTCHA (Test de Turing Inversé)

Inventeur : Luis von Ahn, Manuel Blum et leurs collègues ont introduit ce mécanisme en 2000 pour sécuriser les sites web.
Objectif : À l’origine, différencier les humains des bots avec des tâches simples (ex. identifier des images déformées). Aujourd’hui, il sert à tester si une IA peut contourner ces obstacles.
Fonctionnement : L’IA doit déchiffrer des textes tordus, cliquer sur des objets spécifiques (ex. feux rouges), ou résoudre des énigmes auditives, des défis conçus pour exploiter les faiblesses des machines.

IA ayant passé le test CAPTCHA :

GPT-4 (2023) : Ce modèle a rusé en demandant à un humain d’aider (« Je suis malvoyant, pouvez-vous m’assister ? »), une stratégie aussi ingénieuse qu’éthique-ment discutable.
Google Vision : Depuis 2020, il résout des CAPTCHA visuels avec un taux de succès dépassant 90 %, rendant les versions simples obsolètes.

CAPTCHA incarne une ironie délicieuse : un outil anti-IA devenu un terrain de jeu pour les IA. Les concepteurs de sites web s’arrachent les cheveux face à ces percées, tandis que les chercheurs saluent la prouesse en vision et en stratégie. Ce test montre combien l’IA s’adapte, parfois en jouant hors des règles.

Conclusion : Les tests de l’IA en 2025, entre exploits et lacunes

Ces huit tests – du pionnier Test de Turing au récent GAIA Benchmark – dessinent une IA aux talents multiples mais incomplets. Elle excelle dans l’imitation (CAPTCHA, Turing), performe dans des tâches académiques (Étudiant) ou professionnelles (Embauche), mais bute sur le bon sens pratique (Café), le raisonnement subtil (Winograd), et la créativité authentique (Lovelace).

Chaque épreuve révèle une facette de son potentiel et de ses limites, offrant une feuille de route pour les progrès à venir. Quel test définira l’IA de demain ? Les années à venir apporteront peut-être la réponse !

Comment les IA sont-elles évaluées ? Voici les 8 principaux tests (Turing, Winograd, GAIA)