Meta Researcher a fait un bond significatif dans le domaine de la génération d’art de l’IA avec Make-A-Video, une nouvelle technique au nom créatif pour – vous l’avez deviné – créer des vidéos à partir d’une simple invite de texte. Les résultats sont impressionnants et variés, et tous sont, sans exception, un peu effrayants.
Nous avons déjà vu le modèle texte-vidéo – c’est une extension naturelle des modèles texte-image comme DALL-E, qui affiche des images fixes de commandes. Mais alors que le saut conceptuel des images fixes aux images animées est petit pour l’esprit humain, il est loin d’être trivial à mettre en œuvre dans les modèles d’apprentissage automatique.
Make-A-Video ne change pas vraiment grand-chose au jeu à l’arrière – comme le notent les chercheurs dans l’article le décrivant, « un modèle qui ne voit que du texte représentant des images est étonnamment efficace pour produire de courtes vidéos ».
L’IA utilise des techniques de diffusion existantes et efficaces pour créer une image, travaillant essentiellement à rebours de la statique visuelle pure, le « débruitage », vers l’invite cible. Ce qui est ajouté ici, c’est que le modèle reçoit également une formation non supervisée (c’est-à-dire qu’il examine les données elles-mêmes sans forte assistance humaine) sur un ensemble de contenu vidéo non étiqueté.
Ce que l’on sait dès le départ, c’est comment créer des images réalistes ; ce que l’on sait de la seconde, c’est à quoi ressemblent les images séquentielles de la vidéo. Étonnamment, il a pu les assembler très efficacement sans aucune formation spéciale sur la façon dont ils devraient être combinés.
« Dans tous les aspects, résolution spatiale et temporelle, fidélité au texte et qualité, Make-A-Video en définit un nouveau dans la génération de texte à vidéo, tel que déterminé par des mesures qualitatives et quantitatives », ont écrit les chercheurs.
Il est difficile d’être en désaccord. Les précédents systèmes de conversion de texte en vidéo utilisaient une approche différente et les résultats n’étaient pas impressionnants mais prometteurs. Désormais, Make-A-Video les sort de l’eau, atteignant une fidélité conforme aux images d’il y a peut-être 18 mois sur le DALL-E d’origine ou d’autres systèmes de génération précédente.
Mais il faut dire : il doit quand même y avoir quelque chose d’étrange chez eux. Non pas que nous devrions nous attendre à un photoréalisme parfait ou à un mouvement naturel, mais les résultats ont tous une sorte de … eh bien, il n’y a pas d’autre mot pour cela – ils sont un peu Horriblenon?
Crédit d’image : Méta
Crédit d’image : Méta
Il n’y a que quelques mauvaises qualités qui sont oniriques et terribles. La qualité du mouvement est étrange, comme un film en stop-motion. La corruption et les artefacts donnent à chaque pièce une sensation poilue et surréaliste, comme des fuites. Les gens se mêlent les uns aux autres – aucune compréhension des limites des objets ou de ce qu’il faut terminer ou appeler.
Crédit d’image : Méta
Crédit d’image : Méta
Je ne dis pas tout cela comme une sorte d’IA arrogante qui veut juste la meilleure imagerie réaliste haute définition. Je pense juste qu’il est intéressant de noter que ces vidéos, aussi réalistes soient-elles, sont toutes très bizarres et désagréables pour les autres. Qu’ils puissent être générés rapidement et arbitrairement est incroyable – et cela ne fait que s’améliorer. Mais même les meilleurs générateurs d’images ont toujours une qualité réelle difficile à utiliser.
Make-A-Video permet également de convertir des images fixes et d’autres vidéos en variantes ou extensions de celles-ci, tout comme des générateurs d’images peuvent également être demandés avec les images elles-mêmes. Le résultat est un peu moins gênant.
C’est vraiment un énorme pas en avant par rapport à ce qui s’est passé auparavant, et l’équipe doit être félicitée. Il n’est pas encore accessible au public, mais vous pouvez Inscrivez-vous ici être sur la liste pour la forme d’accès qu’ils décideront plus tard.
« Explorateur hardcore. Fanatique de la musique hipster. Érudit du café maléfique. Fervent défenseur de la télévision. »