Perfusion, solusi Nvidia untuk permintaan penyimpanan tinggi dari pembuatan gambar AI
Peneliti Nvidia telah mengembangkan teknik pembuatan gambar AI baru yang memungkinkan model teks-ke-gambar yang sangat disesuaikan dengan persyaratan penyimpanan minimal.
Menurut sebuah makalah yang diterbitkan di arXiv, metode yang diusulkan, yang disebut "Perfusion," dapat menambahkan konsep visual baru ke model yang ada, hanya menggunakan 100KB parameter per konsep.
Sumber: Penelitian Nvidia
Seperti yang dijelaskan oleh penulis makalah, Perfusion bekerja dengan "membuat pembaruan kecil pada representasi internal model teks-ke-gambar."
Lebih khusus lagi, itu membuat perubahan yang diperhitungkan dengan hati-hati pada bagian model yang menghubungkan deskripsi tekstual ke fitur visual yang dihasilkan. Menerapkan suntingan parametrik kecil ke lapisan cross-attention memungkinkan Perfusion mengubah cara input tekstual diubah menjadi gambar. .
Jadi Perfusion tidak sepenuhnya melatih ulang model teks-ke-gambar dari awal. Sebaliknya, itu sedikit mengubah transformasi matematis yang mengubah teks menjadi gambar. Ini memungkinkannya menyesuaikan model untuk menghasilkan konsep visual baru tanpa memerlukan banyak daya komputasi atau pelatihan ulang model.
Metode perfusi hanya membutuhkan 100kb.
Perfusi mencapai hasil ini dengan parameter dua hingga lima urutan besarnya lebih sedikit daripada teknik yang bersaing.
Sementara metode lain dapat membutuhkan ratusan megabyte hingga gigabyte penyimpanan per konsep, Perfusion hanya membutuhkan 100KB, sebanding dengan gambar kecil, teks, atau pesan WhatsApp.
Pengurangan drastis ini dapat membuatnya lebih layak untuk menerapkan model seni AI yang sangat disesuaikan.
Menurut rekan penulis Gal Chechik,
"Infusion tidak hanya memungkinkan personalisasi yang lebih akurat pada sebagian kecil dari ukuran model, tetapi juga memungkinkan penggunaan isyarat yang lebih kompleks dan penggabungan konsep yang dipelajari secara individual pada waktu inferensi."
Metode ini dapat menggunakan pengertian "boneka beruang" dan "poci teh" yang dipelajari secara individual untuk menghasilkan gambar kreatif seperti "boneka beruang berlayar di dalam teko".
Sumber: Penelitian Nvidia
Kemungkinan personalisasi yang efisien
Kemampuan unik Perfusion untuk mempersonalisasi model AI hanya dengan menggunakan 100KB per konsep membuka aplikasi potensial yang tak terhitung jumlahnya:
Pendekatan ini membuka jalan bagi individu untuk dengan mudah menyesuaikan model teks-ke-gambar dengan objek, pemandangan, atau gaya baru, sehingga menghilangkan kebutuhan akan pelatihan ulang yang mahal. Efisiensi Perfusion dari pembaruan parameter 100 KB per konsep memungkinkan model yang disesuaikan menggunakan teknologi untuk diimplementasikan pada perangkat konsumen, memungkinkan pembuatan gambar di perangkat.
Salah satu aspek yang paling menarik dari teknologi ini adalah potensi yang ditawarkannya untuk berbagi dan berkolaborasi seputar model AI. Pengguna dapat membagikan konsep hasil personalisasi mereka sebagai file tambahan kecil, menghindari berbagi pos pemeriksaan model yang membosankan.
Dalam hal distribusi, model yang disesuaikan dengan organisasi tertentu dapat lebih mudah disebarluaskan atau diterapkan di edge. Karena praktik pembuatan teks-ke-gambar terus menjadi arus utama, kemampuan untuk mencapai pengurangan ukuran yang dramatis tanpa mengorbankan fungsionalitas akan menjadi sangat penting.
Perlu dicatat, bagaimanapun, bahwa Perfusion terutama menyediakan personalisasi model daripada kemampuan generatif penuh itu sendiri.
Pembatasan dan rilis
Meski menjanjikan, teknik ini memang memiliki beberapa keterbatasan. Para penulis menunjukkan bahwa pilihan-pilihan kunci selama pelatihan kadang-kadang dapat menggeneralisasikan suatu konsep secara berlebihan. Penelitian lebih lanjut masih diperlukan untuk menggabungkan beberapa ide yang dipersonalisasi dengan mulus ke dalam satu gambar.
Para penulis mencatat bahwa kode Perfusion akan tersedia di halaman proyek mereka, menunjukkan niat untuk merilis metode ini secara publik di masa mendatang, mungkin menunggu tinjauan sejawat dan publikasi penelitian resmi. Namun, karena karya tersebut saat ini hanya dipublikasikan di arXiv, detail pasti ketersediaan publik masih belum jelas. Di platform ini, peneliti dapat mengunggah makalah sebelum peer review formal dan publikasi di jurnal/konferensi.
Sementara kode Perfusion belum diakses, rencana yang diusulkan penulis berarti bahwa sistem AI yang dipersonalisasi dan sangat efisien, pada waktunya, dapat menemukan jalan mereka ke tangan pengembang, industri, dan pencipta.
Dengan pengembangan platform seni AI seperti MidJourney, DALL-E 2, dan Stable Diffusion, teknik yang memungkinkan kontrol pengguna yang lebih besar dapat menjadi sangat penting untuk penerapan di dunia nyata. Dengan peningkatan efisiensi yang rapi seperti Perfusion, Nvidia tampaknya bertekad untuk mempertahankan keunggulannya di lingkungan yang berkembang pesat.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Nvidia mengecilkan metode pembuatan gambar AI menjadi seukuran pesan WhatsApp
Perfusion, solusi Nvidia untuk permintaan penyimpanan tinggi dari pembuatan gambar AI
Peneliti Nvidia telah mengembangkan teknik pembuatan gambar AI baru yang memungkinkan model teks-ke-gambar yang sangat disesuaikan dengan persyaratan penyimpanan minimal.
Menurut sebuah makalah yang diterbitkan di arXiv, metode yang diusulkan, yang disebut "Perfusion," dapat menambahkan konsep visual baru ke model yang ada, hanya menggunakan 100KB parameter per konsep.
Sumber: Penelitian Nvidia
Seperti yang dijelaskan oleh penulis makalah, Perfusion bekerja dengan "membuat pembaruan kecil pada representasi internal model teks-ke-gambar."
Lebih khusus lagi, itu membuat perubahan yang diperhitungkan dengan hati-hati pada bagian model yang menghubungkan deskripsi tekstual ke fitur visual yang dihasilkan. Menerapkan suntingan parametrik kecil ke lapisan cross-attention memungkinkan Perfusion mengubah cara input tekstual diubah menjadi gambar. .
Jadi Perfusion tidak sepenuhnya melatih ulang model teks-ke-gambar dari awal. Sebaliknya, itu sedikit mengubah transformasi matematis yang mengubah teks menjadi gambar. Ini memungkinkannya menyesuaikan model untuk menghasilkan konsep visual baru tanpa memerlukan banyak daya komputasi atau pelatihan ulang model.
Metode perfusi hanya membutuhkan 100kb.
Perfusi mencapai hasil ini dengan parameter dua hingga lima urutan besarnya lebih sedikit daripada teknik yang bersaing.
Sementara metode lain dapat membutuhkan ratusan megabyte hingga gigabyte penyimpanan per konsep, Perfusion hanya membutuhkan 100KB, sebanding dengan gambar kecil, teks, atau pesan WhatsApp.
Pengurangan drastis ini dapat membuatnya lebih layak untuk menerapkan model seni AI yang sangat disesuaikan.
Menurut rekan penulis Gal Chechik,
"Infusion tidak hanya memungkinkan personalisasi yang lebih akurat pada sebagian kecil dari ukuran model, tetapi juga memungkinkan penggunaan isyarat yang lebih kompleks dan penggabungan konsep yang dipelajari secara individual pada waktu inferensi."
Metode ini dapat menggunakan pengertian "boneka beruang" dan "poci teh" yang dipelajari secara individual untuk menghasilkan gambar kreatif seperti "boneka beruang berlayar di dalam teko".
Sumber: Penelitian Nvidia
Kemungkinan personalisasi yang efisien
Kemampuan unik Perfusion untuk mempersonalisasi model AI hanya dengan menggunakan 100KB per konsep membuka aplikasi potensial yang tak terhitung jumlahnya:
Pendekatan ini membuka jalan bagi individu untuk dengan mudah menyesuaikan model teks-ke-gambar dengan objek, pemandangan, atau gaya baru, sehingga menghilangkan kebutuhan akan pelatihan ulang yang mahal. Efisiensi Perfusion dari pembaruan parameter 100 KB per konsep memungkinkan model yang disesuaikan menggunakan teknologi untuk diimplementasikan pada perangkat konsumen, memungkinkan pembuatan gambar di perangkat.
Salah satu aspek yang paling menarik dari teknologi ini adalah potensi yang ditawarkannya untuk berbagi dan berkolaborasi seputar model AI. Pengguna dapat membagikan konsep hasil personalisasi mereka sebagai file tambahan kecil, menghindari berbagi pos pemeriksaan model yang membosankan.
Dalam hal distribusi, model yang disesuaikan dengan organisasi tertentu dapat lebih mudah disebarluaskan atau diterapkan di edge. Karena praktik pembuatan teks-ke-gambar terus menjadi arus utama, kemampuan untuk mencapai pengurangan ukuran yang dramatis tanpa mengorbankan fungsionalitas akan menjadi sangat penting.
Perlu dicatat, bagaimanapun, bahwa Perfusion terutama menyediakan personalisasi model daripada kemampuan generatif penuh itu sendiri.
Pembatasan dan rilis
Meski menjanjikan, teknik ini memang memiliki beberapa keterbatasan. Para penulis menunjukkan bahwa pilihan-pilihan kunci selama pelatihan kadang-kadang dapat menggeneralisasikan suatu konsep secara berlebihan. Penelitian lebih lanjut masih diperlukan untuk menggabungkan beberapa ide yang dipersonalisasi dengan mulus ke dalam satu gambar.
Para penulis mencatat bahwa kode Perfusion akan tersedia di halaman proyek mereka, menunjukkan niat untuk merilis metode ini secara publik di masa mendatang, mungkin menunggu tinjauan sejawat dan publikasi penelitian resmi. Namun, karena karya tersebut saat ini hanya dipublikasikan di arXiv, detail pasti ketersediaan publik masih belum jelas. Di platform ini, peneliti dapat mengunggah makalah sebelum peer review formal dan publikasi di jurnal/konferensi.
Sementara kode Perfusion belum diakses, rencana yang diusulkan penulis berarti bahwa sistem AI yang dipersonalisasi dan sangat efisien, pada waktunya, dapat menemukan jalan mereka ke tangan pengembang, industri, dan pencipta.
Dengan pengembangan platform seni AI seperti MidJourney, DALL-E 2, dan Stable Diffusion, teknik yang memungkinkan kontrol pengguna yang lebih besar dapat menjadi sangat penting untuk penerapan di dunia nyata. Dengan peningkatan efisiensi yang rapi seperti Perfusion, Nvidia tampaknya bertekad untuk mempertahankan keunggulannya di lingkungan yang berkembang pesat.