En intelligence artificielle, évaluer les capacités des systèmes devient un défi, mais aussi un jeu pour savoir quelle entreprise propose la meilleure IA sur le marché ! Les benchmarks, ou tests de référence, jouent un rôle clé pour mesurer les progrès des modèles d’IA.
Parmi les derniers venus, le benchmark GAIA (General AI Assistants), développé en 2023 par des chercheurs de Meta AI, Hugging Face, AutoGPT et GenAI, se distingue comme une étape importante vers la compréhension de l’intelligence artificielle générale (AGI).
Mais qu’est-ce que GAIA, pourquoi est-il différent, et que nous apprend-il sur l’état actuel de l’IA ? Cet article rédigé par l’équipe de Yiaho vous explique tout, simplement et en détail !
Qu’est-ce que le Benchmark GAIA ?
GAIA est un ensemble de 466 questions conçues pour tester les capacités des assistants IA dans des scénarios réalistes du monde réel.
Publié le 21 novembre 2023 sur arXiv, ce benchmark vise à évaluer si un système d’IA peut atteindre une robustesse comparable à celle d’un humain moyen face à des tâches variées. Vous pouvez trouver également les résultats sur HuggingFace.
Contrairement à d’autres tests qui se concentrent sur des compétences spécialisées (comme résoudre des problèmes mathématiques complexes ou répondre à des questions de droit), GAIA met l’accent sur des questions conceptuellement simples pour les humains, mais souvent difficiles pour les IA avancées.
Ces questions exigent des compétences fondamentales comme :
- Le raisonnement : faire des déductions logiques à partir d’informations données.
- La gestion multimodale : interpréter des textes, images, tableaux ou autres formats.
- La navigation sur le web : chercher des informations en ligne.
- L’utilisation d’outils : savoir quand et comment utiliser des ressources externes.
L’objectif ? Identifier si une IA peut réellement agir comme un assistant généraliste, capable de répondre à des besoins pratiques du quotidien, et non seulement exceller dans des domaines étroits.
Pourquoi GAIA est-il différent ?
La philosophie de GAIA marque un tournant par rapport aux benchmarks traditionnels. Voici pourquoi :
Simplicité pour les humains, défi pour les IA
Alors que certains tests récents cherchent à défier les humains avec des tâches ultra-complexes (par exemple, des examens professionnels), GAIA adopte l’approche inverse. Ses questions sont intuitives pour un humain non expert (92 % de taux de réussite), mais elles mettent en lumière les lacunes des modèles d’IA actuels. Par exemple, GPT-4, même avec des plugins, ne dépasse pas 15 % de réussite.
Focus sur le monde réel
GAIA ne se limite pas à des environnements artificiels ou à des bases de données fermées. Il demande aux IA de s’adapter à des situations ouvertes, comme chercher des informations sur le web ou interpréter des fichiers variés (images, feuilles de calcul, etc.).
Robustesse comme critère d’AGI
Les créateurs de GAIA estiment que l’intelligence artificielle générale ne se mesurera pas seulement à la capacité de surpasser les humains dans des tâches pointues, mais à sa robustesse – c’est-à-dire sa capacité à gérer une diversité de problèmes avec la même fiabilité qu’un humain moyen.
Comment GAIA fonctionne-t-il ?
Le benchmark est organisé en trois niveaux de difficulté :
- Niveau 1 : Questions accessibles aux meilleurs modèles de langage (LLM) avec un bon raisonnement.
- Niveau 2 : Tâches nécessitant plus de étapes ou d’outils.
- Niveau 3 : Problèmes complexes indiquant un saut significatif dans les capacités de l’IA.
Chaque question a une réponse unique et factuelle (un mot, un nombre ou une liste courte), ce qui facilite une évaluation automatisée et objective. Certaines incluent des fichiers supplémentaires (images, tableaux) pour tester la multimodalité.
Exemples concrets de questions GAIA
Niveau 1 : « Quel était le nombre d’inscrits à une étude mentionnée sur un site spécifique en 2022 ? »
- Pour un humain : Aller sur le site, lire l’article, repérer le chiffre. Simple, avec un peu d’attention.
- Pour une IA : Nécessite de naviguer sur le web, trouver la bonne page et extraire l’information exacte. GPT-4, même avec plugins, peut échouer à cause d’une mauvaise interprétation ou d’un manque de précision.
Niveau 2 : « Combien d’images contient l’article Wikipédia sur LEGO datant de 2022 ? »
- Pour un humain : Ouvrir Wikipédia, compter les images. Fastidieux mais faisable.
- Pour une IA : Exige de comprendre la question, accéder à une version spécifique de la page et compter correctement les éléments visuels – une tâche multimodale complexe.
Niveau 3 : « Quelle ville a accueilli l’Eurovision 2022 selon le site officiel ? »
- Pour un humain : Chercher le site officiel, vérifier l’info. Une recherche rapide suffit.
- Pour une IA : Nécessite une navigation précise, une gestion des sources fiables et une synthèse correcte, souvent hors de portée des modèles actuels sans ajustements.
Que nous apprend GAIA sur l’IA aujourd’hui ?
Les résultats initiaux de GAIA sont révélateurs :
- Humains : 92 % de réussite – preuve que les questions sont abordables pour le commun des mortels.
- GPT-4 avec plugins : 15 % de réussite – un écart énorme, malgré les capacités avancées de ce modèle.
Cet écart montre que les grands modèles de langage (LLM), bien qu’impressionnants dans des domaines comme la génération de texte ou les tâches académiques, peinent encore à gérer des scénarios pratiques nécessitant une combinaison de raisonnement, d’adaptabilité et d’interaction avec le monde réel. Même avec des outils externes (plugins), leurs limites en compréhension contextuelle et en utilisation intelligente des ressources sont évidentes.
Lire également : Comprendre l’Overfitting : Quand l’IA apprend trop bien !
Les forces et limites de GAIA
Forces :
- Praticité : Les questions reflètent des cas d’usage réels d’un assistant IA.
- Non manipulable : Les réponses factuelles évitent que les modèles soient “entraînés” spécifiquement pour tricher.
- Interprétabilité : Sa simplicité permet de comprendre facilement pourquoi une IA échoue ou réussit.
Limites :
- Dépendance au web : Certaines questions reposent sur des sources en ligne qui peuvent changer ou disparaître avec le temps.
- Coût de création : Chaque question demande environ deux heures de travail humain pour être conçue et validée.
- Manque de diversité : Les questions, bien que variées, pourraient ne pas couvrir toutes les cultures ou langues.
Pourquoi pas plus de données sur Grok ou Gemini ?
Bien que le benchmark GAIA ait été testé avec des modèles comme GPT-4, les données officielles sur d’autres IA avancées, telles que Grok 3 de xAI ou Gemini de Google, restent indisponibles à ce jour. Cette absence s’explique par le fait que les entreprises ne publient pas systématiquement leurs résultats sur des benchmarks publics comme GAIA, ou que les tests n’ont pas encore été réalisés à grande échelle.
Le classement officiel sur Hugging Face évolue lentement, et bien que des spéculations sur X évoquent des performances autour de 50-60 % pour ces modèles, rien n’est confirmé. En attendant, les scores humains (92 %) et ceux des premiers modèles testés restent les références principales pour évaluer ce benchmark.
Lire aussi : GPT 4.5 : L’IA qui parle comme un humain ?
GAIA et l’avenir de l’IA
Depuis sa sortie, GAIA a suscité l’intérêt de la communauté scientifique et des développeurs. Un classement public (leaderboard) sur Hugging Face permet de suivre les performances des modèles testés. En décembre 2024, par exemple, l’agent h2oGPTe de H2O.ai a atteint un score de 65 %, surpassant des concurrents comme Google (49 %) ou Microsoft (38 %), mais restant encore loin des 92 % humains. Cela montre des progrès, mais aussi le chemin qu’il reste à parcourir.
GAIA pourrait devenir un standard pour mesurer l’évolution vers l’AGI. En mettant l’accent sur la robustesse et la polyvalence, il pousse les chercheurs à repenser la conception des IA, au-delà de la simple puissance brute ou des tâches hyper spécialisées.
Pour les passionnés d’IA, c’est un outil fascinant à suivre – un miroir de nos attentes et un défi pour les machines de demain. Que pensez-vous de cette approche ? L’IA atteindra-t-elle un jour les 92 % de GAIA ? Le débat est ouvert dans notre espace commentaire !


