Google dévoile Gemini Omni : une IA capable de modifier des vidéos à la volée par simple conversation

Q: Qu’est-ce que le modèle omnimodal de Gemini Omni ?

Le modèle omnimodal de Gemini Omni est capable de traiter simultanément plusieurs types de données — images, vidéos, sons et textes — pour générer ou modifier des contenus vidéo en haute définition. Cette approche permet une édition intuitive, par simple conversation avec l’IA, sans nécessiter de compétences techniques en montage.

Google a présenté, le 19 mai 2026 lors de sa conférence annuelle Google I/O, un nouvel outil d’intelligence artificielle conçu pour révolutionner l’édition vidéo. Baptisé Gemini Omni, ce modèle omnimodal se distingue par sa capacité à traiter simultanément des fichiers de types variés — image, vidéo, son et texte — afin de générer ou de modifier des vidéos en haute définition en temps réel. Selon Numerama, cette innovation marque une avancée majeure dans l’accessibilité des outils de montage vidéo, en permettant aux utilisateurs de dialoguer avec l’IA pour ajuster leurs créations sans maîtriser les logiciels techniques traditionnels.

Ce qu'il faut retenir

Gemini Omni est un modèle omnimodal capable de fusionner des fichiers multimédias (image, vidéo, son, texte) pour créer ou éditer des vidéos en haute définition à la volée.
L’outil s’appuie sur une compréhension avancée de la physique et du monde réel pour garantir la cohérence et le réalisme des scènes modifiées.
La fonctionnalité phare permet de modifier une vidéo existante ou d’en créer une nouvelle simplement en conversant avec l’IA, sans nécessiter de compétences en montage.
Google déploie dès à présent Gemini Omni Flash pour ses abonnés payants (AI Plus, Pro, Ultra) et l’intègre gratuitement sur YouTube Shorts, mais exclut temporairement l’Europe.
Toutes les vidéos générées avec Omni seront dotées d’un filigrane numérique invisible (SynthID) pour identifier leur origine synthétique.

Gemini Omni s’inscrit dans la continuité de Gemini, le chatbot de Google lancé pour rivaliser avec ChatGPT, et dont la version initiale était déjà multimodale. « D’emblée, nous avons conçu Gemini pour qu’il soit multimodal dès sa conception, et nous franchissons aujourd’hui une nouvelle étape », a déclaré le groupe lors de la présentation. L’objectif affiché est de combiner raisonnement et créativité pour offrir une expérience utilisateur inédite. Concrètement, l’utilisateur peut fournir une image de référence, préciser un style visuel, ajouter une piste audio et inclure une consigne textuelle. L’IA se charge alors de fusionner ces éléments pour produire un clip cohérent, ou modifier une vidéo existante selon les instructions reçues.

Une édition vidéo conversationnelle, enfin accessible ?

La principale promesse de Gemini Omni Flash, premier modèle déployé par Google, repose sur la simplicité de son utilisation. Finis les réglages complexes des logiciels de montage : il suffit d’échanger avec l’IA pour ajuster une scène, prolonger une vidéo ou en créer une nouvelle. « L’outil permet d’éditer une vidéo naturellement, en tenant une conversation », précise le géant de Mountain View. La technologie garantit également la cohérence des personnages et des environnements, grâce à une modélisation fine de la physique (gravité, énergie cinétique, dynamique des fluides) et des connaissances du monde intégrées dans Gemini. Google met en avant la capacité de l’IA à maintenir le réalisme et l’homogénéité des clips, même après plusieurs modifications.

Pour illustrer cette innovation, Google a publié des captures d’écran montrant des exemples de modifications réalisées via des prompts textuels. Un utilisateur pourrait, par exemple, demander à ajouter un personnage dans une scène, changer l’éclairage ou prolonger une séquence en respectant le style visuel initial. Cette approche ouvre la voie à une démocratisation de l’édition vidéo, autrefois réservée aux professionnels équipés de logiciels coûteux et complexes.

L’Europe exclue temporairement, pour des raisons réglementaires

Si l’enthousiasme est de mise pour les utilisateurs américains et asiatiques, l’Europe devra patienter pour accéder à certaines fonctionnalités de Gemini Omni. Google a confirmé que les abonnés européens — qu’ils soient payants ou non — ne pourront pas utiliser la version complète de l’outil pour l’instant. Seules les fonctionnalités disponibles sur YouTube Shorts seront accessibles gratuitement, sans la possibilité d’importer des vidéos existantes pour les modifier. Selon Numerama, ce blocage s’explique probablement par des contraintes réglementaires liées au règlement européen sur l’intelligence artificielle (AI Act), entré en vigueur progressivement depuis 2024. Depuis plusieurs années, Google ajuste le déploiement de ses innovations en fonction des exigences légales locales, un phénomène déjà observé avec d’autres outils comme Lyria, Veo ou Nano Banana.

« Cela s’inscrit dans un découplage croissant entre les États-Unis et l’Europe sur les sorties technologiques liées à l’IA, en raison des règles strictes de l’UE », analyse un observateur du secteur. Le géant américain n’a pas détaillé les obstacles spécifiques rencontrés en Europe, mais cette exclusion pourrait durer tant que les négociations sur l’application des nouvelles normes n’auront pas abouti. En attendant, les utilisateurs européens devront se contenter des fonctionnalités limitées ou se tourner vers des alternatives locales.

Un filigrane numérique pour traquer les contenus synthétiques

Pour prévenir les risques de désinformation et de deepfakes, Google a annoncé que toutes les vidéos générées ou modifiées avec Gemini Omni intégreront systématiquement SynthID, un filigrane numérique invisible à l’œil nu. Ce système, déjà déployé sur d’autres outils de la firme comme Lyria (audio) ou Nano Banana (images), permet d’identifier l’origine synthétique d’un contenu et de vérifier son authenticité. « Cela fait partie de notre engagement à rendre l’IA responsable et transparente », a souligné un porte-parole de Google lors de la conférence. Les créateurs et les plateformes pourront ainsi distinguer plus facilement les vidéos authentiques des contenus altérés, un enjeu crucial à l’ère de la prolifération des médias générés par IA.

Cette initiative s’ajoute aux efforts des géants de la tech pour encadrer l’usage de l’intelligence artificielle, dans un contexte où les deepfakes et les manipulations de contenus se multiplient. En intégrant SynthID directement dans le flux de production, Google espère renforcer la confiance des utilisateurs et des régulateurs dans ses outils.

Et maintenant ?

Le déploiement de Gemini Omni Flash pour les abonnés payants et sur YouTube Shorts marque une première étape, mais Google a d’ores et déjà annoncé que d’autres modèles plus avancés suivraient, au gré des progrès algorithmiques. La firme n’a pas précisé de calendrier pour une éventuelle extension à l’Europe, mais les utilisateurs concernés devraient surveiller les mises à jour réglementaires de l’UE, notamment sur l’AI Act, dont les dernières phases d’application sont prévues pour 2027. Par ailleurs, l’intégration de SynthID dans toutes les vidéos générées pourrait devenir un standard de l’industrie, poussant les concurrents à adopter des solutions similaires pour se conformer aux attentes des autorités et des consommateurs.

Avec cette innovation, Google confirme sa volonté de placer l’IA au cœur de l’expérience utilisateur, tout en naviguant entre avancées technologiques et contraintes réglementaires. Reste à voir si les autres acteurs du secteur — comme Meta, Microsoft ou Adobe — parviendront à proposer des alternatives aussi ambitieuses, ou si l’Europe parviendra à négocier un accès plus large à ces outils, pour ne pas laisser ses citoyens à l’écart de la révolution vidéo en marche.

Le modèle omnimodal de Gemini Omni est capable de traiter simultanément plusieurs types de données — images, vidéos, sons et textes — pour générer ou modifier des contenus vidéo en haute définition. Cette approche permet une édition intuitive, par simple conversation avec l’IA, sans nécessiter de compétences techniques en montage.

Google n’a pas explicitement détaillé les raisons de ce blocage, mais il s’agit très probablement de contraintes liées au règlement européen sur l’IA (AI Act). Depuis plusieurs années, l’entreprise ajuste ses déploiements en fonction des exigences légales locales, un phénomène déjà observé avec d’autres outils comme Lyria ou Veo.