تعتبر عملية توليد صور عالية الجودة بكفاءة تحديًا كبيرًا، خاصة للتطبيقات مثل تدريب السيارات ذاتية القيادة، وتصميم بيئات ألعاب الفيديو، أو محاكاة السيناريوهات الواقعية. ورغم التقدم الكبير الذي أحرزته نماذج الذكاء الاصطناعي في هذا المجال، لا تزال الأساليب الحالية تواجه مفاضلة بين السرعة والجودة.
وتولّد نماذج الانتشار مثل تلك المستخدمة في «DALL-E» و«Stable Diffusion» صورًا مذهلة من حيث الواقعية، لكنها تتطلب قوة حاسوبية هائلة ووقتًا طويلاً. في المقابل، النماذج الانحدارية الذاتية (مثل تلك المستخدمة في نماذج اللغة الكبيرة مثل «تشات جي بي تي») تُنتج صورًا بسرعة، ولكن غالبًا ما تفتقر إلى التفاصيل الدقيقة مما يؤدي إلى نتائج ضبابية أو مشوهة. الآن، طور فريق من الباحثين من معهد «ماساتشوستس للتكنولوجيا» (MIT) وشركة «إنفيديا» (NVIDIA) نموذجًا مبتكرًا يسمى «هارت» (HART)، وهو يجمع بين مزايا الطريقتين لتقديم صور عالية الجودة بسرعة غير مسبوقة.
دمج أفضل ما في الطريقتين
يعتمد نموذج «HART» على مبدأ بسيط وفعّال. أولًا، يقوم بتوليد الخطوط العريضة للصورة بسرعة، ثم يُستخدم نموذج انتشار صغير لتنقية التفاصيل. وفقًا لشرح هاوتيان تانغ، طالب الدكتوراه في «MIT» والمؤلف الرئيسي للبحث، يشبه الأمر الرسم، حيث تبدأ برسم عام ثم تنقحه تدريجيًا للحصول على نتيجة دقيقة.
وفي حين تعمل نماذج الانتشار التقليدية على إزالة الضوضاء من الصورة تدريجيًا لضمان دقة عالية، لكنها تكون بطيئة وتستهلك الكثير من الموارد. بينما تولد نماذج «HART» الصور بشكل تسلسلي، وتتنبأ بأجزاء صغيرة في كل مرة، مما يزيد السرعة ولكن قد يؤثر على التفاصيل. ليملأ «HART» هذه الفجوة، يستخدم نموذج انحداري ذاتي للتعامل مع الجزء الأكبر من عملية التوليد، ثم يطبق نموذج انتشار خفيف لتحسين التفاصيل الدقيقة مثل ملمس الشعر وبريق العين.
السرعة دون التضحية بالجودة
يُعتبر من أبرز إنجازات «HART» كفاءته العالية. على عكس نماذج الانتشار التقليدية التي تحتاج إلى مليارات المعلمات وعدد كبير من الخطوات لتنقيح الصور، يمكن لـ«HART» تحقيق نفس النتائج أو حتى أفضل بكثير باستخدام أقل من التكلفة الحاسوبية.
في الاختبارات، أنتج «HART» صورًا أسرع بتسع مرات من نماذج الانتشار الرائدة، مع الحفاظ على نفس مستوى التفاصيل، كما استخدم طاقة حاسوبية أقل بنسبة 31%، مما يجعله قابلًا للتشغيل على الأجهزة العادية مثل اللابتوب أو الهواتف الذكية.
فتح آفاق جديدة
يعد تأثير «HART» أكثر من مجرد تسريع عملية توليد الصور. تصميمه الهجين يجعله مثاليًا للتكامل مع أنظمة الذكاء الاصطناعي متعددة الوسائط، مثل النماذج التي تجمع بين الرؤية واللغة، مما يمكنها من تفسير وتوليد النصوص والصور معًا.
يمكن استخدامه في تطبيقات مثل إرشاد المساعد الذكي في تجميع قطع الأثاث مع عرض مرئي في الوقت الفعلي، أو تدريب السيارات الذاتية القيادة في بيئات افتراضية واقعية لتجنب المخاطر قبل الوصول إلى الطريق.
الخطوة التالية نحو ذكاء اصطناعي أذكى
يُعد «HART» تقدمًا كبيرًا في الذكاء الاصطناعي التوليدي، حيث يثبت أن السرعة والجودة يمكن أن يتماشيان بشكل مثالي. بفضل دمج نقاط القوة في نماذج الانحدار الذاتي والانتشار، يفتح الباحثون آفاقًا جديدة لتوليد الصور عالية الدقة في الوقت الفعلي، مما يقترب بنا من المستقبل الذي يمكن للذكاء الاصطناعي فيه أن يجمع بين الإبداع والكفاءة.
ويجري دعم هذا البحث من قبل مختبر «MIT-IBM Watson» للذكاء الاصطناعي، مركز «MIT» و«Amazon للعلوم»، ومؤسسة «العلوم الوطنية الأميركية»، وسيتم عرضه في المؤتمر الدولي للتمثيلات التعليمية. ومع المزيد من التطوير، قد يصبح «HART» حجر الزاوية لتطبيقات الذكاء الاصطناعي المستقبلية.