الذكاء الاصطناعي

في سباق تطوير أنظمة الذكاء الاصطناعي الأكثر تطورًا وقوة في التفاعل مع البشر، تكشف دراسة جديدة من جامعة «جونز هوبكنز» عن حقيقة مقلقة: حتى التقنيات الأكثر تطورًا للذكاء الاصطناعي لا تزال غير قادرة على فهم أحد أبسط الأمور التي يتقنها البشر بشكل طبيعي، وهو تفسير التفاعلات الاجتماعية.

من السيارات ذاتية القيادة إلى الروبوتات المساعدة والمساعدين الافتراضيين، يعتمد المستقبل في الذكاء الاصطناعي بشكل كبير على قدرته على فهم السلوك البشري في سياقات الحياة الحقيقية. ولكن، وفقًا لهذه الدراسة الرائدة، يواجه الذكاء الاصطناعي صعوبة كبيرة في «قراءة المشهد».

تقول ليلى إيشيك، الأستاذة المساعدة في علم الإدراك بجامعة «جونز هوبكنز» والمؤلفة الرئيسية للدراسة: «تواجه هذه الأنظمة قيودًا أساسية عند محاولة فهم كيفية تفاعل البشر مع بعضهم البعض». وتضيف: «إذا كنت تصمم ذكاءً اصطناعيًا لسيارة ذاتية القيادة، يجب أن يكون قادرًا على التنبؤ بحركة المشاة، مثل معرفة ما إذا كان أحدهم على وشك العبور أو إذا كان شخصان يتحدثان فقط. وفي الوقت الحالي، لا يمكن للذكاء الاصطناعي القيام بذلك بدقة كافية».

تطبيق عملي تم عرض الدراسة في مؤتمر التعلم التمثيلي الدولي (ICLR)، حيث حاول الباحثون اختبار قدرة الذكاء الاصطناعي على فهم الديناميكيات الاجتماعية مقارنة بالبشر. صمم الفريق تجربة بسيطة وفعّالة، حيث طُلب من المشاركين البشريين مشاهدة مقاطع فيديو قصيرة مدتها ثلاث ثوانٍ، يظهر فيها أشخاص يتفاعلون مع بعضهم البعض، أو يقومون بأنشطة متجاورة أو يعملون بشكل مستقل. وبعد ذلك، طلب منهم تقييم مدى التفاعل الاجتماعي في كل مقطع على مقياس من 1 إلى 5.

ثم طُبّق التقييم ذاته على أكثر من 350 نموذجًا من الذكاء الاصطناعي، بما في ذلك نماذج متقدمة لمعالجة الصور والفيديو واللغة. وكانت النتائج واضحة.

نتائج مقلقة اتفق المشاركون من البشر إلى حد كبير في تقييماتهم، لكن نماذج الذكاء الاصطناعي، بغض النظر عن تطورها أو حجم بياناتها، فشلت في الوصول إلى نفس الدقة. كانت النماذج المعتمدة على الفيديو هي الأسوأ، إذ لم تتمكن من التعرف على التفاعلات الاجتماعية في المشاهد الديناميكية. حتى النماذج المعتمدة على الصور الثابتة لم تتمكن من التنبؤ بدقة ما إذا كان الأشخاص يتواصلون أم لا.

أما النماذج اللغوية، التي أُعطيت أوصافًا مكتوبة للمشاهد، فقد أظهرت أداءً أفضل إلى حد ما، خصوصًا في محاولة التنبؤ بكيفية تفسير البشر للمشاهد. لكنها لم تتمكن من التقاط الصورة الكاملة لسياق المشهد المتغير. وتعتبر كاثي غارسيا، الباحثة في مختبر إيشيك والمؤلفة المشاركة الأولى، التي عرضت النتائج في المؤتمر، أن هذا يعكس قصورًا بنيويًا في الطريقة التي يتم بها بناء أنظمة الذكاء الاصطناعي.

تقول غارسيا: «إن القدرة على التعرف على الوجوه أو الأجسام في الصور الثابتة كانت إنجازًا مهمًا في مجال الذكاء الاصطناعي، لكنها ليست كافية. الحياة ليست صورة ثابتة. الناس يتحركون، يتفاعلون، ويتجاوبون مع بعضهم البعض. وهذه هي القدرة التي يجب أن يمتلكها الذكاء الاصطناعي».

ما السبب؟ يعتقد الباحثون أن السبب يعود إلى الأساس الذي بُنيت عليه الشبكات العصبية للذكاء الاصطناعي، والذي يركز على جزء من الدماغ المسؤول عن معالجة الصور الثابتة. أما التفاعلات الاجتماعية، فهي تتطلب فهمًا أعمق للحركة والسياق والنية، وهي عمليات يعالجها جزء مختلف تمامًا في دماغ الإنسان. توضح إيشيك أن هناك العديد من التفاصيل الدقيقة، لكن الرسالة الكبرى هي أن أيًا من نماذج الذكاء الاصطناعي التي اختبروها لم تتمكن من محاكاة استجابة الدماغ البشري أو السلوك البشري للمشاهد المتحركة كما تفعل مع الصور الثابتة. هناك عنصر أساسي في طريقة معالجة البشر للمشاهد الديناميكية، ما زالت هذه النماذج تفتقر إليه.

تأثيرات بعيدة المدى مع تزايد دخول الذكاء الاصطناعي في حياتنا اليومية، سواء في السيارات أو المستشفيات أو الأماكن العامة، يصبح من الضروري أن يفهم الذكاء الاصطناعي سلوك البشر في سياقات اجتماعية دقيقة. إشارات بسيطة مثل تردد أحد المشاة، أو لغة الجسد الخفية، أو حتى تبادل نظرات بين شخصين، كلها إشارات يفهمها البشر دون تفكير، لكنها ما زالت لغزًا للذكاء الاصطناعي. هذه الدراسة لا تدعو إلى إيقاف استخدام الذكاء الاصطناعي في هذه السياقات، بل تشير إلى ضرورة إعادة التفكير في كيفية تدريب وتصميم هذه الأنظمة لتكون أكثر توافقًا مع طريقة تفكير الدماغ البشري.

تختتم غارسيا قائلة: «هذه دعوة للاستيقاظ. إذا أردنا بناء ذكاء اصطناعي يفهمنا فعلاً، علينا إعادة النظر في الطريقة التي نصمم بها هذه النماذج من الأساس». وفي نهاية المطاف، ربما يكون أكبر تحدٍ للذكاء الاصطناعي ليس التفوق على البشر في الألعاب أو تأليف القصائد، بل فهم لحظة صامتة أو إيماءة بين اثنين. وحتى الآن، لا يزال البشر هم الأفضل في ذلك.

البحث