Hunyuan T1

أطلقت شركة Tencent نموذج الاستدلال Hunyuan T1 الذي يهدف إلى منافسة نموذج DeepSeek-R1 من حيث الأداء والتكلفة. يعتمد النموذج الجديد على تقنية التعلم المعزز واسع النطاق (LSRL)، التي كانت قد اعتمدتها شركة DeepSeek في نموذجها.

تم اختبار Hunyuan T1 على روبوت الدردشة Yuanbao التابع لشركة Tencent، وحقق هذا النموذج أداءً متميزًا، حيث سجل 87.2 نقطة في اختبار Massive Multitask Language Understanding (MMLU) Pro، وهو مقياس يستخدم لتقييم قدرة النماذج اللغوية. تفوق النموذج على DeepSeek-R1 الذي سجل 84 نقطة، ولكن لم يتفوق على نموذج o1 من OpenAI الذي سجل 89.3 نقطة في ديسمبر الماضي.

وفي اختبارات أخرى، حصل Hunyuan T1 على 78.2 نقطة في اختبار AIME 2024 للرياضيات، مما يجعله قريبًا من نموذج DeepSeek-R1 الذي سجل 79.8 نقطة، وكذلك من o1 الذي حقق 79.2 نقطة. أما في اختبار C-Eval الخاص باللغة الصينية، حقق Hunyuan T1 91.8 نقطة، مما يعادل أداء DeepSeek-R1، وتفوق على o1 الذي سجل 87.8 نقطة.

فيما يتعلق بالتسعير، يتبع Hunyuan T1 نموذجًا مشابهًا لـ DeepSeek-R1، حيث تبلغ تكلفة إدخال البيانات 1 يوان لكل مليون رمز، وهو نفس سعر DeepSeek-R1 خلال النهار، لكن يختلف عن التسعيرة المخفضة التي تبلغ 0.25 يوان خلال الليل. أما تكلفة الحصول على مخرجات بيانية، فهي 4 يوانات لكل مليون رمز، وهي أقل من السعر النهاري لـ DeepSeek-R1 الذي يصل إلى 16 يوانًا لكل مليون رمز، بينما يتساوى السعر بين النموذجين في الاستخدام الليلي.

من الناحية التقنية، يُعتبر Hunyuan T1 أول نموذج صناعي يستخدم هيكلية هجينة تجمع بين Transformer (التي طورتها جوجل) وMamba (التي طورتها جامعتي كارنيجي ميلون وبرينستون). يساهم هذا الهيكل في تقليل تكاليف التدريب والاستخدام من خلال تقليل استهلاك الذاكرة مقارنة بالنماذج التي تعتمد على Transformer فقط، مما يحسن الكفاءة ويوفر في التكاليف التشغيلية.

في تطور آخر من شركة “بايت دانس”، المالكة لتطبيق “تيك توك”، تم الكشف عن تقنية ذكاء اصطناعي جديدة تسمى DAPO (Decoupled Clip and Dynamic Sampling Policy Optimisation). تعتمد هذه الخوارزمية على التعلم المعزز القابل للتوسع، وهي تهدف إلى تحسين قدرات النماذج اللغوية في الإدراك والتفكير المعقد. تساعد التقنية على تحسين آلية التحقق الذاتي من المعلومات المدخلة وتنقيحها تلقائيًا، ما يساهم في تحسين جودة الإجابات المقدمة للمستخدمين.

تم تطوير هذه التقنية بالتعاون مع معهد بحوث صناعة الذكاء الاصطناعي في جامعة تسينجهوا، وقد أظهرت الاختبارات أن DAPO تفوقت على تقنية Group Relative Policy Optimisation (GRPO) التي تستخدمها DeepSeek في تدريب نماذجها.

البحث