تواجه شركات التكنولوجيا تحديًا جديدًا يتمثل بمحو المعلومات الحساسة من أدمغة الذكاء الاصطناعي التوليدي، إذ ثبت وجود صعوبات ضخمة في تقنيات "النسيان القسري" التي تهدف إلى إزالة البيانات الخاصة أو المحمية بحقوق الطبع والنشر من نماذج الذكاء الاصطناعي العملاقة. بالتالي، هنالك عوائق تقنية ضخمة تحول دون دفع الذكاء الاصطناعي إلى "نسيان" ما تعلّمه.
ظهرت تلك الخلاصة في دراسة جديدة شارك في تأليفها باحثون من جامعات واشنطن وبرينستون وشيكاغو وجنوب كاليفورنيا، بالإضافة إلى محرك البحث "غوغل". ووجدت الدراسة أن أكثر تقنيات النسيان القسري شيوعًا اليوم تميل إلى إضعاف نماذج الذكاء الاصطناعي، إلى درجة تجعلها غير قابلة للاستخدام، في أغلب الأحيان.
وفي هذا الصدد،، نقل موقع "تيك كرانش" عن ويجيا شي، الباحثة المشاركة وطالبة الدكتوراه في علوم الكمبيوتر في جامعة واشنطن، قولها: "تُشير تقييماتنا إلى أن طرق النسيان القسري الممكنة حاليًا ليست جاهزة للاستخدام أو وضعها قيد التطبيق الفعلي في ظروف واقعية. حاليًا، لا توجد طرق فعالة تمكن النموذج من نسيان بيانات محددة من دون خسارة كبيرة في الفائدة".
تدريب النماذج
لا تمتلك نماذج الذكاء الاصطناعي التوليدي ذكاء حقيقيًا. إنها أنظمة إحصائية تتنبأ بالكلمات والصور والكلام والموسيقى والفيديوهات وغيرها من البيانات. ومن خلال تغذيتها بعدد هائل من الأمثلة (مثل الأفلام والتسجيلات الصوتية والمقالات وما إلى ذلك)، تتعلم نماذج الذكاء الاصطناعي احتمال حدوث أشياء معينة، بالاستناد إلى ملاحظتها للأنماط المتعلقة بها. مثلاً، بناء على تكرار جُمل وكلمات معيّنة لشخص ما في مناسبات محددة (كأعياد الميلاد والفصح والشكر)، تستطيع الآلات التنبّؤ بما قد يكتبه في مناسبات أخرى (كعيد ميلاد ابنته)، مع الاستفادة مما قد يتوافر لديها من بيانات عن السياق المتعلّق بتلك المناسبات الاخرى.
واستكمالاً، يجري تدريب معظم النماذج، بما في ذلك الرائدة، مثل "جي بي تي 4 او" GPT-4o، على بيانات مستمدة من المواقع العامة على الإنترنت، إضافة إلى ما يتوافر من بيانات أخرى على شبكة الـ"ويب". ويجادل معظم صُنّاع نماذج الذكاء الاصطناعي بأن الاستخدام العادل يحمي ممارستهم في الاغتراف من بيانات الإنترنت واستخدامها للتدريب، من دون إبلاغ أصحاب البيانات أو تعويضهم أو حتى منحهم الاعتماد.
لكن ليس جميع أصحاب حقوق الطبع والنشر يوافقون على ذلك. وقد رفع عديدون منهم، من المؤلفين إلى الناشرين إلى شركات التسجيلات، دعاوى قضائية ضد أولئك الصُنّاع لإجبارهم على تغيير ذلك.
النسيان القسري
تمثل معضلة حقوق الطبع والنشر أحد الأسباب التي أكسبت تقنيات النسيان القسري الكثير من الاهتمام أخيراً، إذ تعتمد تقنيات النسيان اليوم على خوارزميات مصمّمة لـ" توجيه" النماذج بعيدًا عن البيانات المراد نسيانها. وتتمثل الفكرة في التأثير على تنبّؤات وإجابات تلك النماذج كيلا تخرج أبدًا بيانات معيّنة، أو تحصل في أوقات نادرة جدًا .
لرؤية مدى فاعلية خوارزميات النسيان هذه، صممت شي وزملاؤها معيارًا لقياس النسيان، واختارت ثماني خوارزميات مفتوحة مختلفة لاختبارها في تلك المسألة. ويهدف المعيار، الذي يسمّى MUSE، اختصاراً لعبارة "تقييم النسيان الآلي بست طرق "Machine Unlearning Six ways Evaluation"، إلى اختبار قدرة الخوارزمية على عدم السماح للنموذج بإخراج بيانات التدريب بحرفيَّتِها (ظاهرة تعرف باسم الاستفراغ)، إضافة إلى القضاء على معرفة النموذج بتلك البيانات جنبًا إلى جنب مع أيّ دليل على أنه دُرِّب في الأصل على تلك البيانات (المطلوب نسيانها).
في تلك الدراسة، وجد الباحثون أن خوارزميات النسيان التي اختبروها جعلت النماذج تنسى معلومات معيّنة. لكنها أيضًا أثرت على مجمل قدرات تلك النماذج في الإجابة عن الأسئلة، ممّا يعني أن الحصول على "النسيان" جرى مقابل خفض القدرات الذكيّة في تلك النماذج.
وبالاستناد إلى ذلك، فإن قدرة نماذج الذكاء الاصطناعي على نسيان المعلومات بشكل فعّال ستحدّد مستقبل هذه التكنولوجيا، ذلك أن الفشل في تطوير حلول فعالة قد يؤدي إلى عواقب وخيمة، بما في ذلك تآكل الثقة في الذكاء الاصطناعي وتقييد إمكاناته الهائلة.