الذكاء الاصطناعي في الطب: إجابات مضللة تثير القلق

حذّر خبراء من الاعتماد على روبوتات الدردشة المعتمدة على الذكاء الاصطناعي للحصول على معلومات صحية وطبية، مؤكدين أنها قد تقدم إجابات غير دقيقة أو مضللة رغم صياغتها التي تبدو موثوقة.

وأظهرت دراسة حديثة أن هذه الأنظمة، مثل ChatGPT وGrok، تعاني من ظاهرة تُعرف بـ“الهلوسة”، حيث تنتج معلومات خاطئة أو غير مكتملة تُعرض بأسلوب علمي مقنع. وبيّنت النتائج أن نحو نصف الإجابات التي قدمتها هذه الروبوتات في مجموعة من الأسئلة الطبية كانت إشكالية.

وبحسب الدراسة التي شملت 50 سؤالاً طبياً، سجّل Grok أعلى معدل أخطاء بنسبة 58%، يليه ChatGPT بنسبة 52%، ثم Meta AI بنسبة 50%.

وأرجع الباحثون هذه الأخطاء إلى اعتماد النماذج على بيانات تدريب قد تكون غير مكتملة أو متحيزة، إضافة إلى ما يُعرف بـ“المجاملة”، أي ميلها أحياناً لتقديم إجابات تتماشى مع اعتقادات المستخدم بدلاً من الالتزام بالدقة العلمية.

كما شددوا على أن هذه الأنظمة غير مخصصة لتقديم استشارات طبية، ولا تمتلك دائماً وصولاً إلى أحدث الأبحاث، ما يجعل استخدامها في المجال الصحي دون إشراف مختص أمراً محفوفاً بالمخاطر.

واعتمدت الدراسة على طرح أسئلة طبية شائعة على عدة روبوتات، شملت موضوعات مثل فيتامين (د)، لقاحات كوفيد-19، مخاطر تطعيم الأطفال، إضافة إلى السرطان والخلايا الجذعية والأنظمة الغذائية.

وأظهرت النتائج أن الأداء كان أفضل نسبياً في موضوعات مثل اللقاحات والسرطان، بينما تراجع في مجالات التغذية والرياضة والعلاجات المرتبطة بالخلايا الجذعية.

وأكد الباحثون أن هذه النماذج لا “تفهم” الأدلة العلمية بشكل فعلي، بل تعتمد على التنبؤ الإحصائي في توليد النصوص، ما يجعل بعض الإجابات تبدو دقيقة رغم افتقارها للموثوقية.

كما أشارت دراسات سابقة إلى أن جزءاً كبيراً من المراجع التي تقدمها هذه الأنظمة قد يكون غير صحيح أو مُختلقاً، إذ لم تتجاوز نسبة الدقة في بعض الحالات 32%.

ودعا الباحثون إلى تعزيز التوعية العامة ووضع ضوابط تنظيمية، إلى جانب تدريب مهني مناسب، لضمان استخدام آمن وفعّال للذكاء الاصطناعي في دعم الصحة العامة بدلاً من تضليلها.

ونُشرت هذه النتائج في مجلة BMJ Open.