تسلّط التطورات الحديثة في مجال الذكاء الاصطناعي التوليدي الضوء على الإمكانات الكبيرة لهذه التقنيات في تحسين الرعاية الصحية. تُظهر النماذج اللغوية الكبيرة، المستخدمة في إنشاء الملخّصات الطبية، قدرة ملحوظة على تسهيل الوثائق الطبية وتخفيف العبء الإداري عن العاملين في القطاع الصحي. ومع ذلك، تُعدّ الهلوسات التي تولّدها هذه النماذج، والتي تتضمن معلومات خاطئة أو مضلّلة، من التحدّيات الرئيسية التي تواجه تطبيق هذه التقنيات في البيئات السريرية ذات الأهمية القصوى.
لمواجهة هذه التحدّيات، طوّر فريق من الباحثين في جامعة "ماساتشوستس أمهرست" Massachusetts Amherst وشركة "ميندل" Mendel للذكاء الاصطناعي الصحي، إطار عمل لكشف الهلوسة في الملخّصات الطبية التي تولّدها النماذج اللغوية. تمّ تطبيق هذا الإطار على مجموعة من الملخّصات الطبية التي أنتجتها نماذج GPT-4o وLlama 3 لاختبار قدرته على تحديد وتصنيف الهلوسات بشكل منهجي.
كشفت النتائج عن وجود هلوسات في إستجابات كلا النموذجين عبر 5 فئات من عدم الاتساق في الأحداث الطبية: معلومات المريض، تاريخ المريض، التشخيص والإجراءات، التعليمات المتعلقة بالأدوية والمتابعة. كما تمّ الإبلاغ عن هلوسات متعلقة بعدم الاتساق الزمني والاستدلال الخاطئ.
أنتجت نماذج GPT-4o ملخّصات أطول، بمتوسط يزيد عن 500 كلمة، وقّدمت بيانات استدلالية من خطوتين، ما أدّى إلى 21 حالة من عدم الاتساق في الأحداث الطبية، و44 حالة من الاستدلال الخاطئ، وحالتين من عدم الاتساق الزمني.
من ناحية أخرى، كانت ملخّصات Llama-3 أقصر وأقل في الاستنتاجات، ما أدّى إلى انخفاض في الجودة مقارنةً بردود GPT-4o. بشكل عام، أنتجت Llama-3 استجابات تحتوي على 18 حالة من عدم الاتساق في الأحداث الطبية، و26 حالة من الاستدلال الخاطئ، وحالة واحدة من عدم الاتساق الزمني.
بالإضافة إلى ذلك، بحث الفريق القدرة على استخدام نظام Hypercube التابع لشركة "ميندل" لتشغيل عملية توثيق الهلوسة آليًا، لتجاوز التحدّيات المتعلقة بتوثيق الهلوسة يدويًا، والتي تُعدّ عملية مكلفة وتستغرق وقتًا طويلًا.
يستفيد النظام من قواعد المعرفة الطبية ومعالجة اللغة الطبيعية والاستدلال الرمزي لتمثيل وثائق المرضى، ما يسمح بمعالجة المعلومات المتداخلة والمتعارضة في سجلات الصحة الإلكترونية وتجميعها في مجموعات من الخصائص والأحداث.