تقوم Nvidia بتقليص طريقة إنشاء الصور بالذكاء الاصطناعي إلى حجم رسالة WhatsApp

Perfusion ، حل Nvidia لمتطلبات التخزين العالية لتوليد الصور بالذكاء الاصطناعي

طور باحثو Nvidia تقنية جديدة لتوليد الصور بالذكاء الاصطناعي تتيح نماذج تحويل نص إلى صورة مخصصة للغاية مع الحد الأدنى من متطلبات التخزين.

وفقًا للورقة المنشورة على arXiv ، فإن الطريقة المقترحة ، المسماة "Perfusion" ، يمكن أن تضيف مفاهيم مرئية جديدة إلى النماذج الحالية ، باستخدام 100 كيلوبايت فقط من المعلمات لكل مفهوم.

المصدر: Nvidia Research

كما يصف مؤلفو الورقة ، يعمل الإرواء من خلال "إجراء تحديثات صغيرة على التمثيل الداخلي لنموذج تحويل النص إلى صورة".

وبشكل أكثر تحديدًا ، يقوم بإجراء تغييرات محسوبة بعناية على جزء النموذج الذي يربط الأوصاف النصية بالميزات المرئية التي تم إنشاؤها. يسمح تطبيق تعديلات حدودية صغيرة على طبقة الانتباه المتبادل لـ Perfusion بتعديل طريقة تحويل الإدخال النصي إلى صور.

لذلك لم يقم Perfusion بإعادة تدريب نموذج تحويل النص إلى صورة بالكامل من البداية. بدلاً من ذلك ، يقوم بتعديل طفيف للتحولات الرياضية التي تحول النص إلى صور. هذا يسمح لها بتخصيص النموذج لتوليد مفاهيم مرئية جديدة دون الحاجة إلى الكثير من قوة الحوسبة أو إعادة تدريب النموذج.

تتطلب طريقة التروية 100 كيلو بايت فقط.

يحقق الإرواء هذه النتائج بمعلمات أقل من 2 إلى 5 أوامر من حيث الحجم مقارنة بالتقنيات المنافسة.

في حين أن الطرق الأخرى قد تتطلب مئات الميجابايت إلى جيجابايت من التخزين لكل مفهوم ، فإن Perfusion لا يتطلب سوى 100 كيلوبايت ، مقارنة بالصورة الصغيرة أو النص أو رسالة WhatsApp.

هذا التخفيض الكبير يمكن أن يجعل نشر نماذج فنية مخصصة للغاية للذكاء الاصطناعي أكثر جدوى.

وفقًا للمؤلف المشارك غال شيشيك ،

"لا يتيح التسريب إمكانية التخصيص الأكثر دقة في جزء صغير من حجم النموذج فحسب ، بل يتيح أيضًا استخدام إشارات أكثر تعقيدًا وإدماج المفاهيم التي تم تعلمها بشكل فردي في وقت الاستدلال."

يمكن لهذه الطريقة استخدام المفاهيم التي تم تعلمها بشكل فردي مثل "دمية دب" و "إبريق شاي" لإنشاء صور إبداعية مثل "دمية دب تبحر في إبريق شاي".

المصدر: Nvidia Research

** إمكانية التخصيص الفعال **

تفتح قدرة Perfusion الفريدة على تخصيص نماذج الذكاء الاصطناعي باستخدام 100 كيلوبايت فقط لكل مفهوم تطبيقات محتملة لا حصر لها:

يمهد هذا النهج الطريق للأفراد لتخصيص نماذج تحويل النص إلى صورة بسهولة باستخدام كائنات أو مشاهد أو أنماط جديدة ، مما يلغي الحاجة إلى إعادة التدريب المكلفة. تسمح كفاءة Perfusion's 100KB لكل تحديث لمعلمة المفهوم للنماذج المخصصة باستخدام التكنولوجيا التي سيتم تنفيذها على أجهزة المستهلك ، مما يتيح إنشاء الصور على الجهاز.

أحد الجوانب الأكثر إقناعًا لهذه التكنولوجيا هو الإمكانات التي توفرها للمشاركة والتعاون حول نماذج الذكاء الاصطناعي. يمكن للمستخدمين مشاركة مفاهيمهم الشخصية كملفات إضافية صغيرة ، وتجنب مشاركة نقاط فحص النماذج المملة.

من حيث التوزيع ، يمكن نشر أو نشر النماذج المصممة خصيصًا لمنظمات معينة بسهولة أكبر أو نشرها على الحافة. نظرًا لأن ممارسة إنشاء النص إلى صورة لا تزال أكثر شيوعًا ، فإن القدرة على تحقيق مثل هذه التخفيضات الهائلة في الحجم دون التضحية بالوظائف ستكون أمرًا بالغ الأهمية.

ومع ذلك ، تجدر الإشارة إلى أن Perfusion يوفر في المقام الأول تخصيصًا للنموذج بدلاً من القدرات التوليدية الكاملة نفسها.

** القيود والإصدارات **

في حين أن هذه التقنية واعدة ، إلا أن لها بعض القيود. يشير المؤلفون إلى أن الخيارات الرئيسية أثناء التدريب يمكن أن تعمم مفهومًا بشكل مفرط في بعض الأحيان. لا تزال هناك حاجة إلى مزيد من البحث لدمج الأفكار الشخصية المتعددة بسلاسة في صورة واحدة.

لاحظ المؤلفون أن كود Perfusion سيكون متاحًا على صفحة المشروع الخاصة بهم ، مما يشير إلى نية إطلاق الطريقة علنًا في المستقبل ، وربما في انتظار مراجعة الأقران ومنشورات البحث الرسمية. ومع ذلك ، نظرًا لأن العمل لا يُنشر حاليًا إلا على arXiv ، فإن التفاصيل الدقيقة للتوافر العام تظل غير واضحة. على هذه المنصة ، يمكن للباحثين تحميل الأوراق قبل مراجعة النظراء الرسمية والنشر في المجلات / المؤتمرات.

بينما لم يتم الوصول إلى رمز Perfusion بعد ، فإن الخطط المقترحة من المؤلفين تعني أن أنظمة الذكاء الاصطناعي عالية الكفاءة والشخصية يمكن أن تجد طريقها في الوقت المناسب إلى أيدي المطورين والصناعة والمبدعين.

مع تطوير منصات فنية للذكاء الاصطناعي مثل MidJourney و DALL-E 2 و Stable Diffusion ، فإن التقنيات التي تسمح بتحكم أكبر للمستخدم يمكن أن تكون حاسمة للنشر في العالم الحقيقي. بفضل التحسينات الرائعة في الكفاءة مثل Perfusion ، يبدو أن Nvidia مصممة على الحفاظ على تفوقها في بيئة سريعة التطور.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت