Nvidia, AI görüntü oluşturma yöntemini bir WhatsApp mesajı boyutuna küçültüyor

Perfusion, Nvidia'nın AI görüntü oluşturmanın yüksek depolama talepleri için çözümü

Nvidia araştırmacıları, minimum depolama gereksinimleriyle yüksek düzeyde özelleştirilmiş metinden görüntüye modeller sağlayan yeni bir AI görüntü oluşturma tekniği geliştirdi.

arXiv'de yayınlanan bir makaleye göre, "Perfüzyon" adı verilen önerilen yöntem, kavram başına yalnızca 100 KB parametre kullanarak mevcut modellere yeni görsel kavramlar ekleyebilir.

Kaynak: Nvidia Araştırması

Makalenin yazarlarının açıkladığı gibi, Perfusion "metinden görüntüye modelinin dahili temsilinde küçük güncellemeler yaparak" çalışır.

Daha spesifik olarak, modelin metinsel açıklamaları oluşturulan görsel özelliklere bağlayan kısmında dikkatlice hesaplanmış değişiklikler yapar.Çapraz dikkat katmanına küçük parametrik düzenlemeler uygulamak, Perfusion'ın metinsel girdinin görüntülere dönüştürülme şeklini değiştirmesine izin verir.

Dolayısıyla Perfusion, metinden görüntüye modelini sıfırdan tamamen yeniden eğitmedi. Bunun yerine, metni resimlere dönüştüren matematiksel dönüşümleri biraz değiştirir. Bu, çok fazla bilgi işlem gücü veya model yeniden eğitimi gerektirmeden yeni görsel kavramlar oluşturmak için modeli özelleştirmesine olanak tanır.

Perfüzyon yöntemi sadece 100 kb gerektirir.

Perfüzyon, bu sonuçları, rakip tekniklerden iki ila beş kat daha az parametre ile elde eder.

Diğer yöntemler konsept başına yüzlerce megabayt ila gigabayt arasında depolama gerektirebilirken, Perfusion yalnızca 100 KB gerektirir, bu da küçük bir resim, metin veya WhatsApp mesajıyla karşılaştırılabilir.

Bu ciddi azalma, yüksek oranda özelleştirilmiş yapay zeka sanat modellerini devreye almayı daha uygun hale getirebilir.

Ortak yazar Gal Chechik'e göre,

"İnfüzyon, yalnızca model boyutunun bir kısmında daha doğru kişiselleştirme sağlamakla kalmıyor, aynı zamanda daha karmaşık ipuçlarının kullanılmasını ve bireysel olarak öğrenilen kavramların çıkarım zamanında birleştirilmesini de sağlıyor."

Yöntem, "bir çaydanlıkta yüzen oyuncak ayı" gibi yaratıcı görüntüler oluşturmak için bireysel olarak öğrenilen "oyuncak ayı" ve "çaydanlık" kavramlarını kullanabilir.

Kaynak: Nvidia Araştırması

Verimli kişiselleştirme imkanı

Perfusion'ın yapay zeka modellerini konsept başına yalnızca 100 KB kullanarak kişiselleştirmeye yönelik benzersiz yeteneği, sayısız potansiyel uygulamanın kapılarını açar:

Bu yaklaşım, bireylerin metinden görüntüye modelleri yeni nesneler, sahneler veya stiller ile kolayca özelleştirmesinin yolunu açar ve böylece maliyetli yeniden eğitim ihtiyacını ortadan kaldırır. Perfusion'ın konsept başına 100 KB parametre güncelleme verimliliği, teknoloji kullanılarak özelleştirilmiş modellerin tüketici cihazlarında uygulanmasına olanak tanıyarak cihaz üzerinde görüntü oluşturmaya olanak tanır.

Bu teknolojinin en ilgi çekici yönlerinden biri, yapay zeka modelleri etrafında paylaşım ve işbirliği için sunduğu potansiyeldir. Kullanıcılar, can sıkıcı model kontrol noktalarını paylaşmaktan kaçınarak, kişiselleştirilmiş konseptlerini küçük ek dosyalar olarak paylaşabilir.

Dağıtım açısından, belirli kuruluşlara göre uyarlanmış modeller uçta daha kolay dağıtılabilir veya konuşlandırılabilir. Metinden görüntüye oluşturma uygulaması daha yaygın hale gelmeye devam ettikçe, işlevsellikten ödün vermeden bu tür dramatik boyut küçültmeleri elde etme yeteneği kritik olacaktır.

Bununla birlikte, Perfusion'ın tam üretken yeteneklerden ziyade öncelikle model kişiselleştirme sağladığını belirtmekte fayda var.

Kısıtlamalar ve sürümler

Umut verici olmakla birlikte, tekniğin bazı sınırlamaları vardır. Yazarlar, eğitim sırasındaki temel seçimlerin bazen bir kavramı aşırı genelleyebildiğine dikkat çekiyor. Birden fazla kişiselleştirilmiş fikri tek bir görüntüde sorunsuz bir şekilde birleştirmek için daha fazla araştırma yapılması gerekiyor.

Yazarlar, Perfusion'ın kodunun kendi proje sayfalarında bulunacağını ve yöntemin gelecekte muhtemelen akran incelemesi ve resmi araştırma yayınları bekleyen halka açık bir şekilde yayınlanması niyetini gösterdiğini belirtiyorlar. Bununla birlikte, çalışma şu anda yalnızca arXiv'de yayınlandığından, kamuya açık olup olmadığına ilişkin kesin ayrıntılar belirsizliğini koruyor. Bu platformda, araştırmacılar makalelerini resmi akran değerlendirmesi ve dergilerde/konferanslarda yayınlamadan önce yükleyebilirler.

Perfusion'ın koduna henüz erişilmemiş olsa da, yazarların önerdiği planlar, bu tür yüksek verimli, kişiselleştirilmiş AI sistemlerinin zamanı geldiğinde geliştiricilerin, endüstrinin ve yaratıcıların eline geçebileceği anlamına geliyor.

MidJourney, DALL-E 2 ve Stable Diffusion gibi yapay zeka sanat platformlarının geliştirilmesiyle birlikte, daha fazla kullanıcı kontrolüne izin veren teknikler, gerçek dünyaya dağıtım için kritik olabilir. Perfusion gibi düzgün verimlilik iyileştirmeleriyle Nvidia, hızla gelişen bir ortamda üstünlüğünü korumaya kararlı görünüyor.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Repost
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)