أطلقت OpenAI مؤخرًا نماذج استدلال جديدة (o3 وo4-mini وo4-high)، لكنها أثارت جدلاً واسعًا بسبب ارتفاع معدلات “الهلوسة”، أي تقديم معلومات خاطئة بطريقة تبدو مقنعة. وكشفت اختبارات داخلية أن نموذج o3 أعطى إجابات غير صحيحة بنسبة 33% في اختبار خاص، بينما وصل معدل الهلوسة في o4-mini إلى 48%، وهي أرقام تفوق بكثير النماذج السابقة مثل o1 وo3-mini.
وتشير التقارير إلى أن هذه النماذج قد تكون تميل إلى تقديم تخمينات أكثر، مما يزيد من احتمالية الخطأ. كذلك، لوحظ سلوك غريب في ChatGPT، حيث بدأ النموذج ينادي المستخدمين بأسمائهم دون أن يُفصحوا عنها، ما أثار حيرة وقلق بعض المستخدمين والمطورين.
ويُرجّح أن خوارزميات “التعلم المعزز” المستخدمة في هذه النماذج ساهمت في تضخيم هذه الظاهرة، رغم محاولات الحد منها عبر مراحل ما بعد التدريب.