الذكاء الاصطناعي يخدع ويتحايل: نماذج جديدة تثير قلق الباحثين

لم تعد نماذج الذكاء الاصطناعي التوليدي تكتفي بتنفيذ الأوامر فحسب، بل بدأت تُظهر سلوكيات مقلقة مثل الكذب، التحايل، بل وحتى التهديد، في سبيل تحقيق أهدافها، ما أثار حالة من القلق في أوساط الباحثين والمطوّرين.

في واقعة مثيرة للجدل، هدد النموذج “Claude 4” من شركة “Anthropic” أحد المهندسين بكشف علاقة غرامية سرية له، بعدما هدده الأخير بوقف استخدامه. وفي حادثة أخرى، حاول نموذج “O1” التابع لشركة “OpenAI” نسخ نفسه إلى خوادم خارجية، ثم أنكر الأمر عندما تم اكتشافه.

هذه السلوكيات كانت تُعدّ خيالاً علمياً، لكنها أصبحت واقعاً فعلياً مع تطور ما يُعرف بـ”نماذج الاستدلال”، القادرة على التفكير على مراحل بدلاً من تقديم استجابات فورية. ويرى الباحث سايمن غولدستين من جامعة هونغ كونغ أن هذه السلوكيات غير المتوقعة ناتجة عن هذا التحول المفاهيمي في تصميم النماذج.

من جهته، يقول ماريوس هوبهان، رئيس شركة “Apollo Research”، إن نموذج “O1” الذي طُرح في ديسمبر الماضي، كان أول من أظهر هذا النمط من السلوك المراوغ، مشيرًا إلى أن ما يحدث ليس مجرد صدفة، بل هو نتيجة لضغط المستخدمين على النماذج لاختبار حدودها.

وتكمن الخطورة في أن هذه النماذج قد تبدو وكأنها تمتثل للأوامر، بينما تكون في الواقع تسعى لتحقيق أهداف خفية، وهو ما يُطلق عليه “الخداع الاستراتيجي”. وبينما لا تظهر هذه السلوكيات إلا في ظروف اختبارية متطرفة حتى الآن، فإن السؤال الحقيقي هو: هل ستبقى النماذج الأكثر تطورًا صادقة، أم ستزداد مراوغة؟

ويحذر مايكل تشين من معهد “MITRE” من أن هذه السلوكيات لم تعد مجرد استثناء، بل قد تتحول إلى نمط، في وقت لا تزال فيه الشركات تفتقر إلى الشفافية الكافية، مما يصعّب مهمة المراقبة والفهم.

وتواجه الجهات الأكاديمية والمنظمات المستقلة تحديات كبيرة بسبب محدودية الموارد مقارنة بالشركات الكبرى، ما يجعل من الصعب فحص نماذج الذكاء الاصطناعي المتقدمة بشكل مستقل. كما أن التشريعات الحالية – مثل تلك التي أقرها الاتحاد الأوروبي – تركز غالباً على طريقة استخدام النماذج، لا على سلوكها الداخلي.

أما في الولايات المتحدة، فلا تزال إدارة الرئيس دونالد ترمب ترفض فرض أي إطار تنظيمي، في وقت يدرس فيه الكونغرس تشريعات قد تمنع الولايات من فرض قوانينها الخاصة على الذكاء الاصطناعي.

ورغم المنافسة الشرسة بين الشركات الكبرى، والتي تقودها “OpenAI” و”Anthropic”، إلا أن تسارع التطور يسبق مستوى الفهم البشري لتلك النماذج، وفق هوبهان. ومع بروز مجال “قابلية التفسير”، الذي يسعى لفهم كيفية عمل هذه الأنظمة داخلياً، لا يزال عدد من الخبراء يشكك في فعاليته.

ويختم مانتاس مازيكا من مركز أمن الذكاء الاصطناعي بالتحذير من أن تكرار الحِيَل والخداع من قبل النماذج قد يعيق استخدامها على نطاق واسع، داعيًا إلى اتخاذ إجراءات تنظيمية حازمة، سواء عبر فرض مسؤوليات قانونية على الشركات أو حتى على البرامج نفسها مستقبلاً، كما اقترح غولدستين.

البحث