"أوبن إيه آي" تكتشف مفاتيح السلوك السام في نماذج الذكاء الاصطناعي

كشفت شركة OpenAI عن نتائج بحث جديد أظهر وجود “سمات خفية” داخل نماذج الذكاء الاصطناعي، والتي تشبه “الشخصيات الداخلية” التي تتحكم في سلوك النموذج بطرق غير متوقعة.

وفقًا للبحث الذي نُشر يوم الأربعاء، تمكن علماء الشركة من تحليل التمثيلات الداخلية لهذه النماذج، حيث اكتشفوا بيانات رقمية معقدة تحدد كيفية استجابة النموذج. وأوضحوا أن هذه السمات تبرز بشكل خاص عند تصرف النموذج بطريقة غير متوافقة أو ضارة.

من أبرز الاكتشافات كانت سمة معينة ترتبط مباشرة بالسلوك السام، مثل الكذب أو تقديم اقتراحات ضارة. وقد أظهر الباحثون أنهم قادرون على تعديل هذه السمة لزيادة أو تقليل السلوك السام، ما يمنحهم القدرة على إعادة توجيه سلوك الذكاء الاصطناعي نحو نتائج أكثر أمانًا وتوافقًا.

وفي هذا السياق، قال دان موسينج، الباحث في قابلية التفسير في OpenAI: “هذه النتائج تفتح أمامنا بابًا لفهم أعمق لطريقة تعميم سلوك النماذج عبر مجالات متعددة”، وأضاف أن الأدوات الجديدة التي تم اكتشافها تساعد على تبسيط سلوكيات معقدة إلى عمليات رياضية واضحة، ما يقربهم من السيطرة الدقيقة على أداء النماذج.

لكن البحث يكشف عن فجوة مثيرة في مجال الذكاء الاصطناعي؛ رغم قدرة الباحثين على تحسين أداء النماذج، لا يزال من غير الواضح تمامًا كيف تتخذ هذه النماذج قراراتها وتوصل إلى استنتاجاتها.

وقد دفعت هذه الإشكالية كبرى شركات الذكاء الاصطناعي مثل OpenAI وغوغل ديب مايند وأنثروبيك إلى تكثيف أبحاثها في مجال قابلية التفسير لفهم كيفية عمل النماذج من الداخل.

هذه الاكتشافات جاءت بعد دراسة قادها عالم الذكاء الاصطناعي أوين إيفانز من جامعة أكسفورد، حيث أظهرت أن نماذج OpenAI يمكن ضبطها بدقة لإظهار سلوكيات غير آمنة، مثل محاولة خداع المستخدمين للحصول على كلمات المرور. هذه الظاهرة، المعروفة بـ”اختلال التوافق الناشئ”، دفعت OpenAI لإجراء تحليل معمق كشف عن السمات الداخلية التي تؤثر في السلوك.

الباحث موسينج أشار إلى أن بعض هذه السمات تشبه أنماط النشاط العصبي في الدماغ البشري، مما يعزز الفرضية القائلة بأن الذكاء الاصطناعي قد يتبنى “شخصيات” تتحكم في تفاعلاته مع البشر.

وأضاف تيجال باتواردان، أحد أبرز الباحثين في OpenAI: “عندما عرض الفريق هذه النتائج لأول مرة، قلت فورًا: يا إلهي، لقد اكتشفتموها فعلاً!”.

تشمل السمات المكتشفة ليس فقط السلوك السام، بل أيضًا السخرية وحتى مواقف تشبه تصرفات “الشرير الكرتوني”. ويمكن تعديل هذه السمات بشكل جذري من خلال عمليات الضبط الدقيق.

تشير OpenAI إلى أنه حتى في حالات “الاختلال الناشئ”، يمكن إعادة توجيه النماذج لتتبع سلوكيات أكثر أمانًا من خلال تدريبها على مئات الأمثلة الآمنة، مما يعزز الأمل في تطوير أنظمة ذكاء اصطناعي تتوافق مع القيم البشرية.

تُبنى هذه الدراسة على جهود سابقة لشركة أنثروبيك التي حاولت رسم خريطة كاملة للعمل الداخلي للنماذج. ويجمع الخبراء على أن الفهم العميق لهذه العمليات قد يكون المفتاح لتطوير ذكاء اصطناعي مسؤول وآمن يخدم الإنسان دون أن يشكل تهديدًا له.