Nouveaux modèles et outils de génération de médias, créés avec et pour les créateurs

14 Mai, 2024

[[read-time]] mins de lecture

Nous présentons Veo, notre modèle le plus performant pour la génération de vidéos haute définition, et Imagen 3, notre modèle texte-image de la plus haute qualité. Nous partageons également de nouveaux enregistrements de démonstration créés avec notre Music AI Sandbox.

Douglas Eck

Senior Research Director

Eli Collins

VP, Product Management

Image montrant un créateur de costumes travaillant dans son atelier, avec les mots "Donnez vie à vos idées créatives" écrits sur l'image

Au cours de l'année écoulée, nous avons réalisé des progrès incroyables dans l'amélioration de la qualité de nos technologies de multimédia génératives. Nous avons travaillé en étroite collaboration avec la communauté créative pour explorer comment l'IA générative peut soutenir au mieux le processus créatif et pour nous assurer que nos outils d'IA soient aussi utiles que possible à chaque étape.

Aujourd'hui, nous présentons Veo, notre dernier modèle de génération vidéo le plus avancé, et Imagen 3, notre modèle texte-image de la plus haute qualité à ce jour.

Nous présentons aussi certaines de nos récentes collaborations avec le cinéaste Donald Glover et son studio de création, Gilga, ainsi que de nouveaux enregistrements de Wyclef Jean [Marc Rebillet, et l'auteur-compositeur Justin Tranter, réalisés avec l'aide de notre Music AI Sandbox.

Veo : notre modèle de génération vidéo le plus performant

Veo génère des vidéos de haute qualité à une résolution de 1080p qui peuvent dépasser une minute, dans une grande variété de styles cinématographiques et visuels. Grâce à une compréhension avancée du langage naturel et de la sémantique visuelle, il peut générer des vidéos qui représentent fidèlement la vision créative de l'utilisateur, en captant avec précision le ton d'une invite et en restituant les détails dans les invites plus longues.

Le modèle comprend également les termes cinématographiques tels que "timelapse" ou "plans aériens d'un paysage", offrant un niveau de contrôle créatif sans précédent. Et il crée des séquences cohérentes et homogènes, de sorte que les personnes, les animaux et les objets se déplacent de manière réaliste tout au long des plans.

Exemples des capacités de génération vidéo de haute qualité de Veo. Toutes les vidéos ont été générées par Veo et n'ont pas été modifiées.

Afin de découvrir comment Veo peut soutenir au mieux le processus créatif du narrateur, nous invitons une variété de cinéastes et de créateurs à expérimenter avec le modèle. Ces collaborations nous aident également à améliorer la façon dont nous concevons, construisons et déployons nos technologies pour nous assurer que les créateurs ont leur mot à dire sur la façon dont elles sont développées.

Voici un aperçu de notre travail avec le cinéaste Donald Glover et son studio créatif, Gilga, qui ont expérimenté avec Veo pour un projet de film.

A look at our work with filmmaker Donald Glover and his creative studio, Gilga, who experimented with Veo for a film project

10:25

Veo s'appuie sur des années de travail sur notre modèle de vidéo générative, notamment Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet et Lumiere - combinant architecture, lois de mise à l'échelle et autres techniques innovantes pour améliorer la qualité et la résolution de sortie.

Avec Veo, nous avons amélioré les techniques permettant au modèle d'apprendre à comprendre le contenu d'une vidéo, à rendre des images haute définition, à simuler la physique de notre monde et plus encore. Ces apprentissages alimenteront les avancées dans l'ensemble de notre recherche sur l'IA et nous permettront de créer des produits encore plus utiles qui aideront les gens à interagir et à communiquer de nouvelles façons.

À partir d'aujourd'hui, Veo est disponible pour certains créateurs en avant-première privée dans VideoFX, et vous pouvez vous inscrire sur la liste d'attente. À l'avenir, nous apporterons également certaines des capacités de Veo à YouTube Shorts et à d'autres produits.

Rendez-vous ici pour en savoir plus sur les capacités de Veo.

Imagen 3 : notre modèle texte-image de la plus haute qualité

Au cours de l'année dernière, nous avons réalisé des progrès majeurs dans l'amélioration de la qualité et de la fidélité de nos modèles et outils de génération d'images.

Imagen 3 est notre modèle texte-image de la plus haute qualité. Il génère un niveau de détail incroyable, produisant des images photoréalistes et réalistes, avec beaucoup moins d'artefacts visuels gênants que nos modèles précédents.

Prompt : un gros plan d'un loup élégant posant devant un fond gris, dans une photographie haute résolution avec des détails fins, isolé sur une image ordinaire avec un étalonnage des couleurs dans le style d'un style hyperréaliste
Prompt: Gros plan d'une méduse dans une eau cristalline, tentacules traînants, sur fond de récif de corail vibrant, macrophotographie, photo de stock, haute résolution, très détaillée, éclairage doux, étalonnage professionnel des couleurs, faible profondeur de champ, mise au point nette, prise avec un appareil photo reflex numérique dans le style des photographes professionnels
Prompt : Vue plongeante sur un magnifique canyon fluvial bordé d'arbres, mettant en valeur sa beauté naturelle époustouflante avec des montagnes verdoyantes et des eaux bleues. La photo capture l'immensité de la création de la nature dans le style de sa création.
Prompt : prise de vue dans le style d'un appareil photo reflex numérique avec un filtre polarisant. Une photo de deux montgolfières flottant au-dessus des formations rocheuses uniques de Cappadoce, en Turquie. Les couleurs et les motifs de ces ballons contrastent magnifiquement avec les tons terreux du paysage en contrebas. Cette photo capture le sentiment d’aventure qui accompagne une telle expérience.
Prompt : une paire de chaussures de randonnée bien usées, recouvertes de boue et reposant sur un sentier rocheux. La tête d'un écureuil sort d'une des bottes, et il regarde paresseusement la caméra, un petit roi de sa chaussure. Les lacets des deux bottes tombent lâchement jusqu'au sol. Il y a un paysage montagneux en arrière-plan. Film cinématographique, photo reflex numérique de haute qualité.
Prompt : Trois femmes rient ensemble, l'une d'elle est légèrement floue au premier plan. Le soleil se couche derrière, créant une lumière parasite et une lueur chaleureuse qui met en valeur leurs cheveux et crée un effet bokeh en arrière-plan. Le style photographique est franc et capture un véritable moment de connexion et de bonheur entre amies. La lumière chaude de la golden hour confère une atmosphère nostalgique et intime à l’image.

Imagen 3 comprend mieux le langage naturel, l'intention derrière votre prompt et intègre les petits détails des prompt plus longues. La compréhension avancée du modèle l’aide à maîtriser une gamme de styles.

Prompt : une photo d'un homme aux cheveux courts et à la barbe souriant à la caméra. L'arrière-plan est flou et montre des arbres et des bâtiments dans des couleurs claires
Vue de la main d'une personne alors qu'elle tient une petite figurine d'oiseau en argile et la sculpte avec un outil de modelage de son autre main. On peut voir le foulard de la personne. Ses mains sont couvertes de poussière d'argile. Une image macro DSLR mettant en valeur la texture et le savoir-faire.
Prompt : Croquis abstrait : Un flou de lignes expressives et d’énergie capture le mouvement dynamique d’un danseur dans un dessin gestuel au fusain. Esquisse sur papier parchemin vieilli.
Prompt : éléphant en Amigurumi marchant dans la savane, photographie professionnelle, arrière-plan flou
Prompt : Jeune fille en robe blanche se tenant au bord d'un lac infini tenant des fleurs et regardant le ciel plein de nuages roses. Le ciel se reflète sur la surface de l'eau, créant une magnifique scène animée. Il y avait de petites collines couvertes de fleurs sauvages autour d’elle, ajoutant à sa beauté. Fond de style anime, ton bleu violet, lumière douce, couleurs chaudes, atmosphère de rêve et émotions romantiques.
Un robot mécanique en bois patiné recouvert de vignes en fleurs se tient paisiblement dans un champ de grandes fleurs sauvages, avec un petit oiseau bleu posé sur sa main tendue. Dessin animé numérique, aux couleurs chaudes et aux lignes douces. Une grande falaise avec une cascade se profile derrière.

C’est aussi notre meilleur modèle à ce jour pour le rendu de texte, ce qui constitue un défi pour les modèles de génération d’images. Cette fonctionnalité ouvre la possibilité de générer des messages d'anniversaire personnalisés, des diapositives de titre dans des présentations et bien plus encore.

Prompt : une photographie de l'entrée d'une bibliothèque majestueuse avec les mots « Bibliothèque centrale » gravés dans la pierre
Prompt : Un hibou en origami en papier brun est perché sur une branche d'un arbre à feuilles persistantes. La chouette est tournée vers l’avant, les yeux fermés, ce qui lui donne une apparence paisible. L’arrière-plan est un flou de feuillage vert, créant un décor naturel et serein.
Prompt : Photo d'une scène de diorama de marionnettes en feutre représentant une scène de nature tranquille d'une clairière isolée avec un grand robot sympathique et rond, avec un rendu dans un style risographique. Un hibou est assis sur les épaules du robot et un renard est à ses pieds. Des lavis de couleurs doux, 5 couleurs et une palette remplie de lumière créent un sentiment de paix et de sérénité, invitant à la contemplation et à l'appréciation de la beauté naturelle.
Prompt : Pixel art d'une navette spatiale qui prend son envol. Cap Canaveral en arrière-plan, ciel bleu, avec des panaches de fumée qui s'échappent. "STS-1" est écrit en dessous
Prompt : Mot « lumière » composé de diverses plumes colorées, fond noir
Prompt : Scène en Claymation. Plan moyen large d'une femme âgée. Elle porte des vêtements fluides. Elle se tient dans un jardin luxuriant et arrose les plantes avec un arrosoir orange.

À partir d'aujourd'hui, Imagen 3 est disponible pour certains créateurs en aperçu privé dans ImageFX, et vous pouvez vous inscrire pour rejoindre la liste d'attente. Imagen 3 sera bientôt disponible sur Vertex AI.

En savoir plus sur les capacités d’Imagen 3.

Nos collaborations avec la communauté musicale

Dans le cadre de notre exploration continue du rôle que l'IA peut jouer dans la création artistique et musicale, nous travaillons en partenariat avec YouTube, des musiciens, auteurs-compositeurs et producteurs extraordinaires.

Ces collaborations éclairent aussi le développement de nos technologies musicales génératives, notamment Lyria, notre modèle le plus avancé pour la génération musicale fondée sur l'IA.

Dans le cadre de ce travail, nous avons développé une suite d’outils d’IA musicale appelée Music AI Sandbox. Ces outils sont conçus pour offrir un nouveau terrain de jeu à la créativité, permettant aux utilisateurs de créer de nouvelles sections instrumentales à partir de zéro, de transformer le son de nouvelles manières et bien plus encore.

Un court métrage présentant nos collaborations, en partenariat avec YouTube, avec des musiciens, auteurs-compositeurs et producteurs développant une suite d'outils d'IA musicale appelée Music AI Sandbox

10:25

Court métrage présentant nos collaborations, en partenariat avec YouTube, avec des musiciens, auteurs-compositeurs et producteurs développant une suite d'outils d'IA musicale appelée Music AI Sandbox.

Aujourd'hui, nous poursuivons cette expérimentation musicale avec le musicien Wyclef Jean, lauréat d'un Grammy, le musicien électronique Marc Rebillet et l'auteur-compositeur nominé aux Grammy Justin Tranter, qui ont publié de nouvelles démos sur leurs chaînes YouTube, créés avec l'aide de nos outils d'IA musicale.

Découvrez les démos du musicien récompensé aux Grammys Wyclef Jean, du musicien électronique Marc Rebillet et de l'auteur-compositeur nominé aux Grammy Awards Justin Tranter

Responsable de la conception au déploiement

Nous sommes conscients de l'importance non seulement de faire progresser l'état de l'art, mais aussi de le faire de manière responsable. C'est pourquoi nous prenons des mesures pour relever les défis posés par les technologies génératives et aider les individus et les organisations à travailler de manière responsable avec le contenu généré par l'IA.

Pour chacune de ces technologies, nous collaborons avec la communauté créative et d'autres parties prenantes externes, recueillant des informations et écoutant les commentaires pour nous aider à améliorer et à déployer nos technologies de manière sûre et responsable.

Nous menons des tests de sécurité, appliquons des filtres, mettons en place des garde-fous et plaçons nos équipes de sécurité au cœur du développement. Nos équipes sont également pionnières en matière d'outils, tels que SynthID, qui peut intégrer des filigranes numériques imperceptibles dans les images, l'audio, le texte et la vidéo générés par l'IA. Et à partir d'aujourd'hui, toutes les vidéos générées par Veo sur VideoFX seront marquées par SynthID.

Le potentiel créatif de l'IA générative est immense et nous sommes impatients de voir comment les gens du monde entier donneront vie à leurs idées grâce à nos nouveaux modèles et outils.

Publié dans:

Nouveaux modèles et outils de génération de médias, créés avec et pour les créateurs

Veo : notre modèle de génération vidéo le plus performant

Imagen 3 : notre modèle texte-image de la plus haute qualité

Nos collaborations avec la communauté musicale

Responsable de la conception au déploiement

Article similaire

NotebookLM devient accessible dans le monde entier et propose de nouvelles fonctionnalités

Accédez à l'application mobile Gemini en France et en Europe

Découvrez 24 startups qui mobilisent l’IA pour la santé

Découvrez Chromebook Plus avec Gemini et de nouvelles fonctionnalités d'IA générative

Modèles plus rapides, fenêtre de contexte étendue et avenir des assistants IA : Gemini entre dans une nouvelle ère

IA générative dans la recherche : laissez Google chercher pour vous