تحذير من انهيار نماذج الذكاء الاصطناعي بسبب البيانات المكررة

المصدر: النهار

تكنولوجيا
31-07-2024 | 15:17

تحذير من انهيار نماذج الذكاء الاصطناعي بسبب البيانات المكررة

تعبيرية:خطر الانهيار الذاتي

A+ A-

نُشر بحث جديد في مجلة Nature بعنوان "انهيار نماذج الذكاء الاصطناعي عند تدريبها على البيانات المولّدة بشكل متكرّر". ويسلّط البحث الضوء على مخاطر دورة التغذية الراجعة السلبية التي قد تنشأ عند استخدام البيانات المولّدة بوساطة الذكاء الاصطناعي التوليدي لتدريب نماذج الذكاء التوليدي نفسها. يحذّر الباحثون من أن هذه العملية قد تؤدي إلى تدهور جودة المحتوى المنتج وتقليل تنوعه، مما يُعرّض النماذج لخطر الانهيار إلى ما يُعرف بـ"الهراء".

تبدأ الدراسة بتحليل الزيادة الكبيرة في استخدام أنظمة توليد النصوص مثل "شات جي بي تي"، والتي أدّت إلى تكاثر المحتوى الذي يصنعه الذكاء التوليدي على الإنترنت. يشير الباحثون إلى أن عدداً من الشركات تستخدم النصوص المأخوذة من الإنترنت لتدريب نماذجها، ما قد يؤدي إلى حلقة مفرغة حيث يجري تدريب النماذج على محتوى أقل جودة وأقل تنوعًا بمرور الوقت.

تُظهر الدراسة أنه بعد بضع دورات فقط من توليد المحتوى وتدريب النماذج عليه، يمكن أن تبدأ النماذج في إنتاج محتوى غير متماسك ومتكرّر.

ومثلاً، وُجد أن نموذجًا جرى اختباره بنص حول العمارة في العصور الوسطى، قد أنتج بعد تسعة "أجيال" قائمة متكرّرة من الأرانب البرية، مما يُظهر كيف يمكن للنماذج أن تفقد القدرة على إنتاج محتوى ذي معنى.

يُطلق الباحثون على هذه الظاهرة اسم "انهيار النموذج" Model Collapse، ويحذّرون من أنها قد تصبح أكثر شيوعًا مع الاستخدام المتزايد لأنظمة الذكاء التوليدي على الإنترنت. يشدّدون على أهمية التعامل مع هذه المشكلة بجدّية للحفاظ على فوائد التدريب من البيانات واسعة النطاق التي تمّ جمعها من الويب، ويقترحون حلولًا مثل وضع علامات مائية على المخرجات لتسهيل اكتشافها وتصفيتها من مجموعات التدريب.

تبرز الدراسة الحاجة إلى تطوير استراتيجيات فعّالة لضمان تنوّع وجودة البيانات المستخدمة في تدريب نماذج الذكاء التوليدي، وتحذّر من أن الفشل في القيام بذلك قد يؤدي إلى تقليل تنوّع المحتوى المتاح على الإنترنت وإضعاف قدرة الأنظمة على عكس التنوع الحقيقي للعالم.