Google vient de dévoiler une avancée majeure pour son intelligence artificielle Gemini, qui dépasse désormais le simple cadre de la conversation ou de la recherche textuelle. Grâce à une nouvelle fonctionnalité, implantée également sur les systèmes Android, cette IA peut désormais voir le monde à travers la caméra de votre smartphone, analysant votre environnement en temps réel pour vous assister comme jamais auparavant.
Présentée initialement sous le nom de code « Project Astra » lors d’une démonstration technologique en 2024, cette innovation promet de faire de votre téléphone un compagnon omnisensoriel, capable de décrypter ce qui vous entoure avec une précision impressionnante.
Disponible pour l’instant uniquement aux États-Unis via un abonnement payant, cette technologie pourrait redéfinir notre rapport aux outils numériques et ouvrir la voie à un futur résolument futuriste.
Gemini avec accès à votre caméra : Comment ça marche ? Une IA qui voit et comprend
Derrière cette prouesse se cache une combinaison sophistiquée de computer vision (vision par ordinateur) et de machine learning avancé, intégrée à Gemini. L’IA utilise la caméra de votre smartphone comme une paire d’yeux, traitant les images capturées à la volée grâce à des algorithmes capables de reconnaître objets, textes, formes et contextes.
Voici une vidéo de Google qui présente le Project Astra :
Cette capacité repose sur des années de recherche de Google dans des domaines comme la reconnaissance d’images (pensez à Google Lens) et l’intelligence artificielle conversationnelle, désormais fusionnées en un seul outil puissant. Concrètement, Gemini peut non seulement « voir », mais aussi interpréter ce qu’elle observe et y répondre de manière intelligente, en s’appuyant sur sa vaste base de connaissances.
Lire également : Gemini 2.0 : Un assistant IA meilleur que ChatGPT ?
Deux fonctionnalités qui changent la donne
Google a doté Gemini de deux capacités visuelles distinctes, chacune pensée pour simplifier et enrichir votre quotidien :
1 : Partage d’écran intelligent : un assistant dans vos activités
Avec cette fonctionnalité, Gemini devient un partenaire actif dans vos tâches quotidiennes. En activant le partage d’écran, l’IA regarde à travers votre caméra et analyse tout ce qui vous entoure en direct. Imaginez faire vos courses au supermarché : vous pointez votre téléphone vers une étagère, et Gemini identifie les produits, compare les prix ou vous rappelle si un article est sur votre liste.
Besoin d’un nouvel outfit ? Pendant une séance de shopping, l’IA peut suggérer des associations de vêtements en fonction de ce qu’elle voit dans le magasin. C’est comme avoir un ami expert à vos côtés, mais en version numérique et infatigable.
2 : Analyse visuelle en temps réel : un scanner du monde réel
La deuxième fonctionnalité transforme votre smartphone en un outil d’exploration. En pointant la caméra sur votre environnement, Gemini peut comprendre et expliquer ce qu’elle voit. Par exemple, scannez une bibliothèque, et l’IA listera les titres des livres, vous donnera des résumés ou vérifiera leur disponibilité en ligne. Montrez-lui une boîte à outils, et elle identifiera une perceuse avant de vous expliquer comment percer un mur sans tout casser.
Vous pourriez même filmer une plante dans un parc et demander : « Est-ce comestible ? » Cette capacité à interpréter le monde physique en fait un assistant éducatif et pratique, idéal pour les curieux comme pour les bricoleurs.
Disponibilité et coût : un lancement limité mais ambitieux
Pour l’instant, ce super-assistant visuel n’est accessible qu’aux États-Unis, réservé aux abonnés de Gemini Advanced, un service premium facturé 20 dollars par mois (environ 20 euros). Ce tarif inclut d’autres fonctionnalités avancées de Gemini, mais la composante visuelle est clairement la star de cette mise à jour.
Google n’a pas encore précisé quand, ou si cette technologie arrivera en Europe ou ailleurs, ce qui laisse supposer une phase de test sur le marché américain. Ce choix stratégique pourrait permettre à l’entreprise de peaufiner l’outil, d’ajuster ses performances et de répondre aux éventuelles préoccupations réglementaires (notamment sur la vie privée avec l’IA ACT Européen) avant un déploiement mondial.
Des lunettes intelligentes en vue : Google Glass 2.0 ?
L’ambition de Google ne s’arrête pas aux smartphones. Cette technologie visuelle est également prévue pour être intégrée dans des lunettes intelligentes, faisant renaître l’esprit des Google Glass, abandonnées il y a dix ans mais jamais oubliées. À l’image des Meta Ray-Ban, ces lunettes pourraient analyser votre environnement en continu, sans que vous ayez à sortir votre téléphone.
Imaginez marcher dans une ville inconnue : les lunettes identifient les monuments et affichent des infos historiques en surimpression. Ou encore conduire : l’IA détecte une intersection dangereuse et vous alerte discrètement. Ce projet, encore en développement, pourrait transformer notre façon de percevoir le monde, en superposant une couche d’intelligence numérique à notre réalité.
Lire aussi : Google lance « AI Mode » pour concurrencer Deep Research d’OpenAI
Les implications : entre promesses et questions
Cette innovation offre des perspectives enthousiasmantes. Pour les étudiants, Gemini pourrait devenir un tuteur visuel, expliquant un schéma ou une équation filmée sur un tableau. Pour les voyageurs, un guide instantané qui traduit les panneaux ou décrit les lieux. Pour les personnes malvoyantes, un outil d’assistance décrivant leur entourage avec précision. Mais elle soulève aussi des interrogations.
- Vie privée : que devient la confidentialité si votre caméra enregistre constamment ce que vous voyez ?
- Dépendance : risquons-nous de déléguer trop de tâches à cette IA, au point de perdre nos propres compétences ?
- Éthique : qui contrôle les données capturées, et comment Google les utilisera-t-il ?
Ces questions restent en suspens, mais elles accompagneront forcément l’évolution de cette technologie.
Un pas vers un futur omnisensoriel ?
Avec cette mise à jour, Gemini ne se limite plus au texte ou à la voix : il devient une IA multisensorielle, capable de voir, d’interpréter et d’agir sur le monde physique. Cela rapproche Google de son rêve d’une intelligence artificielle omniprésente, intégrée dans chaque aspect de notre vie.
Si les États-Unis servent de terrain d’expérimentation, il est probable que cette technologie, une fois mature, s’étende à d’autres marchés, peut-être avec des ajustements pour répondre aux lois locales (comme le RGPD en Europe).
Une avancée fascinante mais à double tranchant
Cette évolution de Gemini est une prouesse technique qui illustre le potentiel des Large Language Models lorsqu’ils s’allient à la vision par ordinateur. Elle pourrait simplifier des tâches banales, comme vérifier un ingrédient dans une recette en filmant votre cuisine, tout en ouvrant des usages créatifs ou éducatifs.
Mais fait aussi penser à un épisode de Black Mirror : un monde où tout est analysé en permanence peut être pratique, mais aussi intrusif. Google devra trouver un équilibre entre innovation et respect des utilisateurs pour que cette IA visuelle soit adoptée sans méfiance.
Vers un horizon futuriste
Gemini et ses yeux numériques marquent un tournant. Des smartphones aux lunettes intelligentes, Google dessine un avenir où l’IA ne se contente plus de répondre à nos questions, mais anticipe nos besoins en regardant le monde avec nous. Pour l’instant réservé à une poignée d’abonnés américains, cet assistant visuel n’est qu’un avant-goût de ce qui nous attend.
Un jour, peut-être, nos appareils ne se contenteront pas de voir : ils sentiront, toucheront, et comprendront le monde comme nous, ou mieux que nous. En attendant, Gemini nous rappelle que la science-fiction n’est plus si loin de la réalité.


