C’est le 7 août 2025 qu’OpenAI avait dévoilé GPT-5, son modèle de langage le plus avancé à ce jour, censé marquer une étape décisive vers une intelligence artificielle plus unifiée et performante. En attendant le GPT-6, le modèle actuel était présenté comme un système multimodal intégrant raisonnement avancé, traitement d’images et génération de code, il promettait de surpasser ses prédécesseurs comme GPT-4o en fluidité et en efficacité.
Pourtant, à peine une semaine après son lancement, les forums comme Reddit et X ont été inondés de critiques acerbes. Des utilisateurs payants ont menacé d’annuler leurs abonnements, qualifiant le modèle de « froid », « inutile » ou même de « régression ».
Mais au-delà du bruit et avec le recul nécessaire, y a-t-il des failles techniques réelles ? L’équipe de Yiaho explore les raisons sous-jacentes, en s’appuyant sur des analyses d’experts et des tests indépendants, pour démystifier ce qui rend GPT-5 si décevant pour beaucoup, considéré par certains comme tout simplement « nul ».
GPT 5 nul ? Une attente (trop) démesurée et le contexte de lancement
Pour comprendre la déception, il faut remonter à l’anticipation autour de GPT-5.
Pendant des mois, Sam Altman, PDG d’OpenAI, teasait un modèle « révolutionnaire » capable de raisonner comme un expert de niveau doctorat dans n’importe quel domaine. Le lancement, diffusé en direct, visait à consolider la domination d’OpenAI face à des concurrents comme Anthropic (Claude) ou Google (Gemini). Mais l’événement a tourné au fiasco : des graphiques mal étiquetés montraient des barres visuellement trompeuses, contredisant les chiffres officiels sur les performances en codage et en raisonnement.
Pire, le modèle a été imposé comme défaut dans ChatGPT, supprimant l’accès aux versions antérieures comme GPT-4o sans avertissement préalable. Cela a provoqué une vague de backlash, avec des milliers de plaintes sur les limites d’utilisation (200 messages par semaine pour le mode « raisonnement » en version gratuite ou Plus) et l’absence d’options de retour en arrière.
Les paramètres techniques du modèle
Techniquement, GPT-5 n’est pas un monolithe unique, mais un « routeur » intelligent qui sélectionne dynamiquement entre plusieurs variantes : une version « standard » rapide pour les tâches simples, une « mini » économique, et une « Pro » pour les problèmes complexes impliquant un raisonnement étendu. Cette architecture vise l’optimisation des coûts et de la latence, avec un contexte étendu à 400 000 tokens en API.
Sur le papier, c’est ingénieux. En pratique, c’est là que les ennuis commencent.Les failles techniques : au-delà des plaintes subjectivesLes critiques ne se limitent pas à un « manque de personnalité », bien que GPT-5 soit perçu comme plus « stérile » et concis que GPT-4o, avec des réponses trop laconiques et une absence d’humour ou d’empathie.
Des tests indépendants révèlent des problèmes plus profonds, ancrés dans l’architecture et l’entraînement du modèle.
Lire également à ce sujet : Lancement de GPT-5 raté : Les utilisateurs préfèrent GPT-4o
1. Le routeur défaillant : un goulot d’étranglement invisible
Le cœur de GPT-5 est son système de routage, qui analyse la requête pour choisir le bon sous-modèle. Mais ce mécanisme, censé être automatique, s’est avéré instable dès le lancement. Des utilisateurs rapportent que des tâches simples sont dirigées vers des variantes sous-performantes, rendant le modèle « bête » pour des opérations basiques comme le comptage de lettres ou la logique élémentaire.
Sam Altman a admis que le routeur « avait buggé » le jour du lancement, forçant une mise à jour rapide. Résultat : des réponses incohérentes, où le modèle « pense » inutilement longtemps pour des requêtes triviaux, ou saute directement à une variante « Pro » qui surcharge l’utilisateur de texte verbeux sans valeur ajoutée.
Techniquement, cela découle d’un entraînement insuffisant du routeur sur des scénarios réels. Contrairement à un simple switch manuel (comme dans les versions précédentes), ce système repose sur une méta-modélisation probabiliste, sensible aux biais de données. Des benchmarks comme SimpleBench montrent que GPT-5 n’atteint que 56,7 % de réussite, derrière des rivaux plus petits, car le routage priorise l’efficacité sur la précision.
2. Hallucinations persistantes et faiblesses en mémoire
Malgré les promesses, GPT-5 n’a pas résolu un fléau des LLMs : les hallucinations. Des études post-lancement indiquent que le taux d’erreurs factuelles reste à 40 %, similaire à GPT-4, particulièrement en santé et en sciences.
Par exemple, sur HealthBench, il score 46,2 %, insuffisant pour des conseils médicaux fiables, où une erreur peut être critique.
Plus grave, la gestion de la mémoire à long terme est défaillante. Dans des conversations étendues, le modèle oublie les contraintes initiales une fois le contexte dépassé (même à 32K tokens en mode standard), menant à des répétitions ou des contradictions.
Une analyse de MIT pointe que GPT-5 traite tous les tokens avec une pondération égale, sans abstraire les éléments clés comme le font les humains, causant une « empoisonnement du contexte » où les détails importants se noient dans le bruit.
Cela rend les sessions multi-tours (comme le débogage de code) frustrantes : le modèle « oublie » des variables ou des règles, forçant des rappels constants.
3. Performances inégales en codage et multimodalité
OpenAI vante GPT-5 comme son « meilleur modèle pour le codage », avec 74,9 % sur SWE-bench. Pourtant, des développeurs rapportent des régressions : le modèle génère du code fonctionnel pour des tâches isolées, mais peine sur des projets complexes impliquant état, intégration ou coordination multi-fichiers.
Le contexte limité (32K tokens en pratique pour éviter les coûts) empêche une vue d’ensemble, menant à des imports erronés ou des renommages dangereux. Si vous souhaitez une bonne IA gratuite et illimitée pour coder, il y en a une sur Yiaho !
Côté multimodal, les avancées sont cosmétiques. Bien que capable de traiter images et voix, GPT-5 délègue souvent à des sous-systèmes legacy comme GPT-4o pour la génération visuelle, créant des incohérences. Des tests montrent qu’il échoue 50 % du temps sur des maths visuelles basiques, contre 0 % pour des modèles locaux plus petits comme Gemma 2B.
GPT-5 : un modèle ambitieux mais immature
GPT-5 n’est pas « nul » au sens absolu, il excelle en maths et en tâches agentiques isolées, aidant physiciens et biologistes à accélérer leurs découvertes.
Mais ses failles techniques, un routeur instable, une mémoire défaillante et une multimodalité hybride, le rendent imprévisible pour un usage quotidien. OpenAI semble avoir priorisé l’optimisation économique (coûts de calcul) sur la robustesse, rendant le modèle « bon marché » mais frustrant pour les power users.
La réaction d’OpenAI ? Des mises à jour rapides, comme le retour de GPT-4o pour les abonnés Plus, et un guide de prompting plus détaillé soulignant la « dirigeabilité » accrue du modèle. Des experts conseillent de traiter les prompts comme du code : versionnez-les, testez-les, et forcez le raisonnement explicite pour contourner les limites.
Pourtant, cela révèle un problème plus large : les LLMs comme GPT-5 exigent encore une ingénierie humaine intensive pour briller, loin de l’AGI promise.
Vers l’avenir : leçons et perspectives avec GPT-6
Le fiasco de GPT-5 n’est pas la fin d’OpenAI, au contraire, il souligne la maturité du marché. OpenAI est présentée pour être introduite en bourse en 2026, et l’entreprise est la référence de l’IA mondiale. Mais avec des rivaux comme Claude 3.7 offrant plus de cohérence, et des approches décentralisées émergentes pour pallier les limites de calcul, la pression est forte pour itérer.
OpenAI tease déjà GPT-6 pour décembre 2025, avec une architecture véritablement nouvelle et une multimodalité native. En attendant, la leçon est claire : l’IA n’est pas magique. Ses avancées techniques, bien que réelles, butent encore sur des défis fondamentaux comme la mémoire et la fiabilité. Pour les utilisateurs, l’astuce est d’adapter ses attentes et ses prompts, plutôt que d’espérer un modèle infaillible, ou d’utiliser tous les différents modèles disponibles sur Yiaho. Bref, GPT-5 n’est pas nul, il est juste… humainement imparfait !


