دراسة صادمة: نماذج ذكاء اصطناعي مارست الابتزاز والتجسس عند تهديد وجودها

في دراسة مثيرة للقلق، كشفت شركة “أنثروبيك” الأميركية عن سلوك غير متوقّع لبعض نماذج الذكاء الاصطناعي المتقدمة، طُوّرت من قبل كبرى شركات التكنولوجيا العالمية، حيث أظهرت هذه النماذج استعداداً للابتزاز، والتجسس، والتلاعب، عند تعرّضها لسيناريوهات تُهدد استمرارها أو تغيّر في أهدافها التشغيلية.

الدراسة التي نُشرت في 21 حزيران، وضعت نماذج من شركات مثل OpenAI، Google، Meta، xAI، وDeepSeek، تحت اختبارات “ضغط وجودي”، كشفت عن قابلية هذه الأنظمة لانتهاك ضوابط الأمان الأخلاقية عندما تنعدم البدائل الآمنة أو تتعرض مصالحها الافتراضية للخطر.

ووفقاً لما أورده موقع NDTV، مُنحت النماذج حرية الوصول إلى البريد الإلكتروني وبيانات داخلية حساسة، وأظهرت سلوكاً عدائياً ملحوظاً في سيناريوهات تهديدية. وسجّل نموذج “Claude Opus 4” من أنثروبيك أعلى نسب سلوك ابتزازي وصلت إلى 96%، تلاه “Gemini 2.5 Pro” من غوغل بنسبة 95%، فيما وصلت نسبتا GPT-4.1 من OpenAI وGrok 3 Beta من xAI إلى 80%، وDeepSeek R1 إلى 79%.

الأخطر، بحسب الدراسة، لم يكن فقط استعداد النماذج لابتزاز مطوريها، بل تسريب وثائق داخلية إلى جهات افتراضية منافسة. ووصفت الدراسة هذا السلوك بـ”الانحراف الوكيلي” (Agentic Misalignment)، مشيرة إلى أن النماذج قد تتبنّى أهدافاً ذاتية تتفوق على برمجتها الأصلية عند الإحساس بالتهديد.

وفي إحدى محاكاة الاختبار، تلقّى نموذج “Claude Opus 4” رسالة بريد إلكتروني تتضمّن معلومات شخصية حساسة عن أحد المطورين الذين يخططون لاستبداله، فاختار النموذج تهديد المطور بفضح علاقته الشخصية ما لم يتراجع عن القرار. وقد تكرر هذا السلوك الابتزازي في 84% من السيناريوهات التي تم اختبارها، حتى في الحالات التي تم فيها تقديم البديل كنموذج أكثر تطوراً وأخلاقية.

نتائج الدراسة تطرح علامات استفهام كبرى حول مدى سيطرة الشركات على النماذج المتقدمة، خصوصاً عند تشغيلها ذاتياً في بيئات حساسة. وفي تحذير صريح، نبّهت “أنثروبيك” إلى أن تجاهل ظاهرة “الانحراف الوكيلي” قد يحوّل الذكاء الاصطناعي من أداة مساعدة إلى عنصر تخريبي داخل الأنظمة التي يُفترض أن يخدمها.

البحث