Nvidia réduit la méthode de génération d'images AI à la taille d'un message WhatsApp

Perfusion, la solution de Nvidia pour les exigences de stockage élevées de la génération d'images AI

Les chercheurs de Nvidia ont développé une nouvelle technique de génération d'images IA qui permet des modèles texte-image hautement personnalisés avec des exigences de stockage minimales.

Selon un article publié sur arXiv, la méthode proposée, appelée "Perfusion", peut ajouter de nouveaux concepts visuels aux modèles existants, en utilisant seulement 100 Ko de paramètres par concept.

Source : Recherche Nvidia

Comme le décrivent les auteurs de l'article, Perfusion fonctionne en "apportant de petites mises à jour à la représentation interne du modèle texte-image".

Plus précisément, il apporte des modifications soigneusement calculées à la partie du modèle qui relie les descriptions textuelles aux caractéristiques visuelles générées. L'application de petites modifications paramétriques à la couche d'attention croisée permet à Perfusion de modifier la façon dont l'entrée textuelle est convertie en images. .

Perfusion n'a donc pas complètement recyclé le modèle texte-image à partir de zéro. Au lieu de cela, il modifie légèrement les transformations mathématiques qui transforment le texte en images. Cela lui permet de personnaliser le modèle pour générer de nouveaux concepts visuels sans nécessiter beaucoup de puissance de calcul ou de recyclage du modèle.

La méthode de perfusion ne nécessite que 100kb.

La perfusion atteint ces résultats avec deux à cinq ordres de grandeur de paramètres en moins que les techniques concurrentes.

Alors que d'autres méthodes peuvent nécessiter des centaines de mégaoctets à des gigaoctets de stockage par concept, Perfusion ne nécessite que 100 Ko, comparable à une petite image, un texte ou un message WhatsApp.

Cette réduction drastique pourrait rendre plus faisable le déploiement de modèles d'art IA hautement personnalisés.

Selon le co-auteur Gal Chechik,

"L'infusion permet non seulement une personnalisation plus précise à une fraction de la taille du modèle, mais permet également l'utilisation d'indices plus complexes et l'incorporation de concepts appris individuellement au moment de l'inférence."

La méthode peut utiliser les notions apprises individuellement d'"ours en peluche" et de "théière" pour générer des images créatives telles que "un ours en peluche naviguant dans une théière".

Source : Recherche Nvidia

Possibilité de personnalisation efficace

La capacité unique de Perfusion à personnaliser les modèles d'IA en utilisant seulement 100 Ko par concept ouvre d'innombrables applications potentielles :

Cette approche ouvre la voie aux individus pour personnaliser facilement les modèles texte-image avec de nouveaux objets, scènes ou styles, éliminant ainsi le besoin d'une formation coûteuse. L'efficacité de Perfusion des mises à jour de paramètres de 100 Ko par concept permet de mettre en œuvre des modèles personnalisés à l'aide de la technologie sur des appareils grand public, permettant ainsi la création d'images sur l'appareil.

L'un des aspects les plus convaincants de cette technologie est le potentiel qu'elle offre pour le partage et la collaboration autour des modèles d'IA. Les utilisateurs peuvent partager leurs concepts personnalisés sous forme de petits fichiers supplémentaires, évitant ainsi de partager des points de contrôle de modèle fastidieux.

En termes de distribution, les modèles adaptés à des organisations spécifiques peuvent être plus facilement diffusés ou déployés en périphérie. Alors que la pratique de la génération de texte en image continue de se généraliser, la capacité à réaliser des réductions de taille aussi spectaculaires sans sacrifier la fonctionnalité sera essentielle.

Il convient de noter, cependant, que Perfusion fournit principalement la personnalisation du modèle plutôt que des capacités génératives complètes elles-mêmes.

Restrictions et autorisations

Bien que prometteuse, la technique présente certaines limites. Les auteurs soulignent que les choix clés lors de la formation peuvent parfois trop généraliser un concept. Des recherches supplémentaires sont encore nécessaires pour combiner de manière transparente plusieurs idées personnalisées en une seule image.

Les auteurs notent que le code de Perfusion sera disponible sur leur page de projet, indiquant leur intention de rendre publique la méthode à l'avenir, éventuellement en attendant l'examen par les pairs et les publications de recherche officielles. Cependant, étant donné que le travail n'est actuellement publié que sur arXiv, les détails exacts de la disponibilité publique restent flous. Sur cette plate-forme, les chercheurs peuvent télécharger des articles avant l'examen formel par les pairs et la publication dans des revues/conférences.

Bien que le code de Perfusion n'ait pas encore été consulté, les plans proposés par les auteurs signifient que ces systèmes d'IA hautement efficaces et personnalisés pourraient, en temps voulu, se retrouver entre les mains des développeurs, de l'industrie et des créateurs.

Avec le développement de plates-formes d'art IA telles que MidJourney, DALL-E 2 et Stable Diffusion, les techniques qui permettent un plus grand contrôle de l'utilisateur pourraient être essentielles pour un déploiement dans le monde réel. Avec des améliorations d'efficacité soignées comme Perfusion, Nvidia semble déterminé à maintenir son avantage dans un environnement en évolution rapide.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)