شركة OpenAI

أطلقت شركة OpenAI ميزة جديدة باسم ChatGPT Agent، تمثل قفزة كبيرة في تطوير نماذج الذكاء الاصطناعي، حيث أصبح بإمكان ChatGPT التفكير والتصرف عبر جهاز حاسوبي افتراضي خاص به لتنفيذ مهام متكاملة نيابة عن المستخدم. وتشمل هذه المهام التحليل، البحث، التفاعل مع مواقع الإنترنت، وإنتاج نتائج قابلة للتعديل مثل عروض الشرائح وجداول البيانات.

وفقًا لبيان رسمي، يمكن للمستخدم الآن توجيه أوامر متقدمة للنموذج مثل: “راجع تقويمي وأعد لي ملخصًا لاجتماعات العملاء القادمة استنادًا إلى آخر الأخبار”، أو “خطط واشترِ مكونات لتحضير وجبة إفطار يابانية لأربعة أشخاص”، أو “حلل ثلاثة منافسين وأعد عرض شرائح تقديمي”. ولإنجاز هذه المهام، يستخدم النموذج أدوات متنوعة تشمل متصفحًا بصريًا للويب، متصفحًا نصيًا، واجهة طرفية لتنفيذ الأكواد، بالإضافة إلى إمكانية الوصول المباشر إلى واجهات برمجة التطبيقات (APIs). كما يمكن للنموذج طلب تسجيل الدخول الآمن من المستخدم للتحكم الكامل في إتمام المهام.

تعتمد هذه المنظومة على ما وصفته الشركة بـ”نظام وكيل موحد” يجمع بين ثلاث ركائز رئيسية: خدمة “Operator” للتفاعل مع المواقع الإلكترونية، وتقنية “البحث العميق Deep Research” لتحليل وتلخيص المعلومات، وروبوت الدردشة ChatGPT. هذا الدمج يتيح للنموذج الانتقال بسلاسة بين مراحل التفكير والتنفيذ لإنجاز المهام المطلوبة من البداية حتى النهاية بدقة عالية.

تشدد OpenAI على أن المستخدم يظل متحكمًا كاملاً في سير العمل، حيث لا يتخذ ChatGPT أي قرار أو إجراء له تبعات حقيقية دون موافقة صريحة من المستخدم، الذي يمكنه إيقاف العملية أو تغييرها أو استلام التحكم في أي وقت.

ميزة ChatGPT Agent متاحة لمشتركي خطط Pro وPlus وTeam، ويمكن تفعيلها من قائمة الأدوات ضمن أي محادثة عبر خيار “وضع الوكيل” (Agent Mode).

وتوضح الشركة أن هذه الميزة تمثل خطوة أولى فقط، وسيتم توسيع قدراتها وتحسين أدائها مع مرور الوقت. فقد دمجت OpenAI مميزات “Operator” و”البحث العميق” داخل النموذج الجديد بعد أن تبين أن العديد من استفسارات المستخدمين يمكن تلبيتها بكفاءة أعلى من خلال الدمج. فميزة Operator كانت تتيح التصفح والتنقل والكتابة على الإنترنت، بينما كان “البحث العميق” يقدم تحليلات دقيقة وتقارير معمقة، لكن كل منهما كان محدودًا في التعامل مع مهام الآخر.

بفضل هذا التكامل، أصبح بإمكان ChatGPT التفاعل بذكاء مع المواقع الإلكترونية، تصفح المحتوى، تطبيق الفلاتر، وتحقيق نتائج أكثر دقة وكفاءة. كما يمكن للمحادثة أن تبدأ بسؤال بسيط وتتطور بسلاسة إلى تنفيذ المهام ضمن نفس السياق.

ويحتوي ChatGPT Agent على مجموعة متكاملة من الأدوات تشمل: متصفحًا بصريًا للتفاعل مع المواقع عبر واجهة رسومية، متصفحًا نصيًا للاستفسارات البسيطة، واجهة طرفية لتنفيذ الأوامر البرمجية، بالإضافة إلى الوصول المباشر إلى واجهات التطبيقات مثل Gmail وGitHub. كما يمكن للمستخدم السماح للنموذج بتسجيل الدخول إلى المواقع، مما يوسع نطاق البحث والتنفيذ.

وتعمل هذه الأدوات عبر جهاز افتراضي يحافظ على سياق المهمة، حتى عند استخدام أدوات متعددة في آن واحد. فعلى سبيل المثال، يمكن للنموذج فتح صفحة باستخدام المتصفح النصي، تحميل ملف، تعديله، ثم عرض النتائج مجددًا عبر المتصفح البصري.

البحث