في دراسة حديثة نُشرت في مجلة Nature، تمّ تحليل أداء النسخ الأحدث والأكبر من ثلاثة من أهم برامج الدردشة الذكية المدعومة بالذكاء الاصطناعي. وأظهرت النتائج أن هذه النماذج الكبيرة والمتقدمة قد تميل إلى تقديم إجابات خاطئة بدلاً من الامتناع عن الإجابة، عندما لا تكون لديها المعرفة الكافية.
تتمتع النماذج اللغوية الكبيرة LLMs المتقّدمة بقدرة أكبر على معالجة البيانات وتقديم إجابات دقيقة. ومع ذلك، تبرز مشكلة رئيسية وهي أن هذه النماذج باتت تجيب عن المزيد من الأسئلة، ما يزيد من احتمالية تقديم إجابات غير صحيحة.
أشار خوسيه هيرنانديز-أورالو، الباحث في معهد فالنسيا للذكاء الاصطناعي، إلى أن هذه النماذج "تجيب عن كل شيء تقريباً"، ما يؤدي إلى زيادة كل من الإجابات الصحيحة والخاطئة.
وأوضحت الدراسة أن المستخدمين يجدون صعوبة في التمييز بين الإجابات الصحيحة والخاطئة، حيث تبدو الإجابات التي تقدمها هذه النماذج مقنعة بشكل كبير، حتى وإن كانت غير صحيحة. وقد أطلق مايك هيكس، فيلسوف العلوم في جامعة غلاسكو، مصطلح "الهراء" على هذه الظاهرة، موضحاً أن هذه النماذج أصبحت "أفضل في التظاهر بالمعرفة" رغم كونها خاطئة.
بدلاً من مصطلح "الهلوسة" المستخدم في الصناعة لوصف هذه الأخطاء، اقترح هيكس استخدام "الهراء" للإشارة إلى تلك الإجابات التي تبدو موثوقة لكنها في الواقع خاطئة. وعلى الرغم من أن هذه الأخطاء قد تشكّل بين 3% و10% من الإجابات، إلّا أن هناك طرقاً للتخفيف منها، مثل إضافة حواجز حماية إلى النماذج المتخصّصة لتعزيز دقة المعلومات.
قام فريق البحث بفحص ثلاث عائلات من النماذج اللغوية الكبيرة، بما في ذلك نموذج GPT من "أوبن إيه آي"، ونموذج Llama من "ميتا"، والنموذج مفتوح المصدر BLOOM من BigScience وأظهرت الاختبارات أن دقة الإجابات تزداد مع زيادة حجم النماذج، لكنها تنخفض مع زيادة صعوبة الأسئلة. وكان الباحثون يأملون أن تتجنّب النماذج الإجابة عن الأسئلة التي تفوق قدرتها، ولكن نماذج مثل GPT-4 استمرت في محاولة الإجابة عن كل شيء تقريباً.
تعدّ هذه الظاهرة مشكلة خاصة عند مطالبة الأشخاص بتصنيف الإجابات، حيث وجد الباحثون أن المشاركين يميلون إلى تصنيف الإجابات غير الدقيقة على أنها صحيحة بنسبة ملحوظة، تتراوح من 10% في الأسئلة السهلة إلى 40% في الأسئلة الصعبة.
لمعالجة هذه المشكلة، يقترح الباحثون أن يقوم مطورو النماذج بتعديلها، بحيث يمكنها التعامل بشكل أفضل مع الأسئلة السهلة لتقليل الأخطاء، والامتناع عن الإجابة عن الأسئلة الصعبة. هذا النهج قد يساعد المستخدمين في فهم حدود دقة النماذج وتحديد المجالات التي يمكن الوثوق فيها بأدائها.
ختاماً، يشدّد هيرنانديز-أورالو على ضرورة أن يدرك البشر متى يمكنهم الاعتماد على هذه النماذج ومتى يجب عليهم توخي الحذر في استخدامها، قائلاً: "نحتاج إلى أن يفهم الناس: 'يمكنني استخدامه في هذا المجال، ولا يجب عليّ استخدامه في ذلك المجال".