Pas de place Tiananmen à ERNIE-ViLG, le nouveau créateur d'images chinois AI

Pas de place Tiananmen à ERNIE-ViLG, le nouveau créateur d’images chinois AI

Posted On: septembre 15, 2022

Lorsque la démo du logiciel a été publiée fin août, les utilisateurs ont rapidement découvert que certains mots – à la fois les mentions explicites des noms des dirigeants politiques et ceux qui ne sont potentiellement controversés que dans un contexte politique – sont qualifiés de « sensibles » et ne produisent aucun résultat. . Le système sophistiqué de censure en ligne de la Chine, semble-t-il, s’est étendu à la dernière tendance en matière d’IA.

Il n’est pas rare que des IA similaires empêchent les utilisateurs de générer certains types de contenu. DALL-E 2 interdit les contenus à caractère sexuel, les visages de personnalités publiques ou les images de soins médicaux. Mais l’affaire ERNIE-ViLG souligne la question de savoir où se situe exactement la frontière entre la modération et la censure politique.

Le modèle ERNIE-ViLG fait partie de Wenxin, un projet de traitement du langage naturel à grande échelle de la principale société chinoise d’intelligence artificielle Baidu. Il est formé sur un ensemble de données de 145 millions de paires image-texte et contient 10 milliards de paramètres – des valeurs ajustées par des réseaux de neurones au fur et à mesure de leur étude, que l’IA utilise pour distinguer les différences subtiles entre les concepts et les styles artistiques.

Cela signifie qu’ERNIE-ViLG a un ensemble de données d’apprentissage plus petit que DALL-E 2 (650 millions de paires) et Stable Diffusion (2,3 milliards de paires) mais plus de paramètres que les deux (DALL-E 2 a 3,5 milliards de paramètres et Stable Diffusion en a 890 millions) . Baidu a sorti une version démo sur sa propre plateforme fin août dernier plus tard dans Hugging Facecommunauté internationale populaire d’IA.

La principale différence entre les modèles ERNIE-ViLG et occidental est que le modèle développé par Baidu comprend les commandes écrites en chinois et est moins susceptible de faire des erreurs lorsqu’il s’agit de mots spécifiques à la culture.

Par exemple, vidéaste chinois comparer les résultats de différents modèles pour les invites qui incluent des personnages historiques chinois, des célébrités de la culture pop et de la nourriture. Il a découvert qu’ERNIE-ViLG produisait des images plus précises que DALL-E 2 ou Stable Diffusion. Après sa sortie, ERNIE-ViLG a également été accepté par les Communauté d’anime japonaisqui a constaté que le modèle produisait un art d’anime plus satisfaisant que les autres modèles, peut-être parce que le modèle incluait plus d’anime dans ses données d’entraînement.

Mais ERNIE-ViLG sera défini, comme tout autre modèle, par ce qui est possible. Contrairement à DALL-E 2 ou Stable Diffusion, ERNIE-ViLG n’a publié aucune explication de sa politique de modération de contenu, et Baidu a refusé de commenter cette histoire.

Lorsque la première démo ERNIE-ViLG est sortie sur Hugging Face, les utilisateurs qui ont saisi certains mots ont reçu le message « Mots sensibles trouvés. Veuillez entrer à nouveau (存在敏感词，请重新输入) », qui est une confession étonnamment honnête sur le mécanisme de filtrage. Cependant, depuis au moins le 12 septembre, le message indique « Le contenu saisi ne respecte pas les règles applicables. Veuillez réessayer après l’avoir ajusté. (输入内容不符合相关规则，请调整后再试！) »