الذكاء الاصطناعي

أظهرت دراسة جديدة أن الأساليب المستخدمة لتقييم قدرات أنظمة الذكاء الاصطناعي غالبًا ما تبالغ في تقدير أدائها وتفتقر إلى الدقة العلمية.

قاد الدراسة باحثون من معهد أكسفورد للإنترنت بالتعاون مع أكثر من 30 باحثًا من مؤسسات مختلفة، حيث فحصوا 445 اختبارًا بارزًا للذكاء الاصطناعي تُعرف باسم معايير الأداء المرجعية، والتي تُستخدم عادة لتقييم أداء النماذج في مجالات متنوعة. ويعتمد مطورو الذكاء الاصطناعي على هذه المعايير لتقديم ادعاءات حول تقدمهم في مجالات مثل هندسة البرمجيات أو التفكير المجرد.

لكن الدراسة أظهرت أن هذه الاختبارات قد لا تكون موثوقة، وتشير إلى أن العديد من معايير الأداء لا تقيس ما يُفترض أن تقيسه، وتعتمد على بيانات وطرق اختبار من معايير سابقة بشكل مكرر، ونادرًا ما تستخدم أساليب إحصائية دقيقة لمقارنة النتائج بين النماذج.

وقال آدم مهدي، الباحث الأول في الدراسة: “غالبًا ما نقيس مفاهيم مختلفة تمامًا عما نهدف إلى قياسه عند اختبار نماذج الذكاء الاصطناعي.” واتفق معه أندرو بين، الباحث المشارك، مؤكدًا أن حتى المعايير الموثوقة غالبًا ما تُمنح ثقة عمياء وتحتاج إلى مزيد من التدقيق.

وأوضحت الدراسة أن بعض المعايير تقيس مهارات محددة، مثل اللغة الروسية أو العربية، بينما تقيس أخرى قدرات أكثر عمومية مثل التفكير المكاني والتعلم المستمر. وأشارت إلى أن نصف المعايير تقريبا لا تحدد المفاهيم التي تهدف لقياسها بشكل واضح، مما يثير الشكوك حول فاعليتها.

واختتم الباحثون الدراسة بتقديم ثماني توصيات وقائمة تدقيق لتحسين الشفافية والدقة في معايير الأداء، بما في ذلك تحديد نطاق الاختبار، وإنشاء مجموعات مهام تمثل القدرات بشكل أفضل، واستخدام التحليل الإحصائي لمقارنة أداء النماذج.

يُذكر أن أبحاثًا سابقة أظهرت عيوبًا مماثلة في معايير الأداء المرجعية للذكاء الاصطناعي، وقد دعا باحثون في العام الماضي إلى زيادة التحليل الإحصائي للتأكد من أن الفروق في الأداء تعكس قدرات حقيقية للنموذج، وليس مجرد صدفة ناتجة عن طبيعة المهام والأسئلة في المعايير.

البحث