حذّر الأكاديميان في "مركز ستانفورد للسلامة والتعاون الدولي" ماكس لامبارث وجاكلين شنايدر من خطورة أن يثق الجيش بالذكاء الاصطناعيّ في مهامّ اتّخاذ القرارات الحرجة. ويكتسب تحذيرهما أهمّيّة خاصّة لأنهما خبيران في شؤون الأمن والحرب والذكاء الاصطناعيّ. فلامبارث هو عضو أيضاً في "مركز ستانفورد لسلامة الذكاء الاصطناعيّ" وشنايدر هي مديرة "مبادرة هوفر لألعاب الحرب ومحاكاة الأزمات". وخاضا معاً عدداً من التجارب على برامج مدعومة بالذكاء الاصطناعيّ لمعرفة قراراتها في خضمّ الأزمات، وجاءت النتيجة سلبيّة جداً.
كتب الباحثان في مجلّة "فورين أفيرز" أنّ وزارة الدفاع الأميركيّة تجري تحقيقاً في ما يمكن أن تقدّمه نماذج اللغة الكبيرة LLM للجيش. في تشرين الثاني (نوفمبر) 2023، أصدرت الوزارة استراتيجيّتها لاعتماد تقنيات مدعومة بالذكاء الاصطناعيّ ذاكرة بشكل متفائل أنّ "أحدث التطوّرات في البيانات والتحليلات وتقنيّات الذكاء الاصطناعيّ تمكّن القادة من اتّخاذ قرارات أفضل بشكل أسرع، من قاعة مجلس الإدارة إلى ساحة المعركة". على سبيل المثال، تمتلك القوات الأميركيّة أنظمة مدعومة من الذكاء الاصطناعيّ لاختيار أهداف حوثيّة في الشرق الأوسط.
Interesting read on the limits of #AI: https://t.co/SbtmrRuvgR
— @docrobphd23.bsky.social (@DocRobPhD23) April 29, 2024
لكن بالرغم من الحماسة للذكاء الاصطناعيّ ونماذج اللغة داخل البنتاغون، تشعر قيادته بالقلق من المخاطر التي تشكّلها هذه التقنيات. لقد حدّد خبراء "هاكاثون" الذي يرعاه المكتب الرئيسي للذكاء الرقميّ والاصطناعيّ في البنتاغون تحيّزات وهلوسة في تطبيقات نماذج اللغة. ومؤخراً، نشرت البحرية الأميركية إرشادات تحدّ من استخدام نماذج اللغة الكبيرة مشيرة إلى نقاط ضعف أمنيّة وكشف غير مقصود لمعلومات حسّاسة. ويظهر بحث لامبارث وشنايدر وجود ما يبرّر هذه المخاوف. يمكن أن تكون نماذج اللغة مفيدة، لكن من الصعب أيضاً التنبؤ بأفعالها، كما أن بإمكانها اتّخاذ قرارات خطيرة وتصعيديّة.
مشاكل التدريب
يتم إنشاء نماذج اللغة الكبيرة المدرّبة على مجموعات كبيرة من البيانات في عمليّة من خطوتين. الأولى هي التدريب المسبق، أي عندما يتم تدريس نماذج اللغة من الصفر لتجريد وإعادة إنتاج الأنماط الأساسية الموجودة في مجموعة بيانات هائلة. للقيام بذلك، يجب أن تتعلّم النماذج مقداراً كبيراً من المواضيع من ضمنها القواعد والارتباطات الواقعية وتحليل المشاعر وترجمة اللغة. تقوم نماذج اللغة بتطوير معظم مهاراتها أثناء التدريب المسبق، لكن النجاح يعتمد على جودة وحجم وتنوع البيانات التي تستهلكها. ثمة حاجة إلى الكثير من النصوص إلى درجة أنه من المستحيل عملياً تلقينها فقط بيانات عالية الجودة خضعت للتدقيق. وهذا يعني قبول بيانات أقل جودة أيضاً. بالنسبة إلى القوات المسلحة، لا يمكن تدريب نماذج اللغة على البيانات العسكرية وحدها؛ فهي لا تزال بحاجة إلى أشكال أكثر عمومية من المعلومات، بما فيها الوصفات والروايات الرومنسية والتبادلات الرقمية اليومية التي تملأ شبكة الإنترنت.
تحتاج هذه العملية إلى تحقيق التوازن بين التدريب المسبق للنماذج مع اعتبارات إنسانية أكثر دقة، ومن ضمن ذلك معرفة ما إذا كانت الاستجابات مفيدة أم ضارة. إنّ تحقيق هذا التوازن أمر صعب. على سبيل المثال، برنامج الدردشة الآلي الذي يمتثل دائماً لطلبات المستخدم مثل تقديم المشورة حول كيفية صنع قنبلة ليس بلا أذى، لكن إذا رفض معظمَ استفسارات المستخدم، فهو غير مفيد. ويجب على المصممين إيجاد طريقة لضغط الملخّصات كالمعايير السلوكية والأخلاق في مقاييس من أجل الضبط الدقيق. للقيام بذلك، يبدأ الباحثون بمجموعة بيانات مشروحة من قبل البشر الذين يقارنون الأمثلة التي تم إنشاؤها بواسطة نماذج اللغة ثمّ يختارون الأفضل. يتم تدريب نموذج لغة آخر هو نموذج التفضيل، بشكل منفصل، على تصنيفات بشرية لأمثلة تم إنشاؤها بواسطة نماذج لغة لمنح أيّ نص محدّد علامة مطلقة على فائدته للبشر. ويتم بعد ذلك استخدام نموذج التفضيل لتمكين الضبط الدقيق للنموذج الأساسيّ.
لهذا النهج حدوده
ما هو أفضل يعتمد على من يوجَّه السؤال إليه ومدى نجاح النموذج في التعامل مع التفضيلات المتضاربة. علاوة على ذلك، لا يوجد سوى القليل من التحكّم بالقواعد الأساسيّة التي تتعلّمها نماذج اللغة أثناء الضبط الدقيق. وذلك لأنه لا نماذج اللغة ولا نموذج التفضيل للضبط الدقيق "تتعلم" موضوعاً ما بشكل مباشر. بدلاً من ذلك، لا يمكن تدريبها إلا من خلال عرض أمثلة على السلوك المرغوب في العمل، مع أمل البشر باستيعاب القواعد الأساسية بالمقدار الكافي. لكن ليس هناك ما يضمن حدوث ذلك بالرغم من وجود تقنيات للتخفيف من بعض هذه المشاكل.
On LLMs and war, my new piece with @MLamparth @ForeignAffairshttps://t.co/nxJw0u3o1v
— Jacquelyn Schneider (@JackieGSchneid) April 29, 2024
يمكن أن يؤدّي التدريب المسبق والضبط الدقيق إلى إنشاء نماذج لغة قادرة، لكنّ العمليّة لا تزال قاصرة عن إنشاء بدائل مباشرة لعملية صنع القرار البشري. وذلك لأنّ نموذج اللغة، وبغض النظر عن مدى ضبطه أو تدريبه جيداً، يمكنه تفضيل سلوكيات معينة فقط. ولا يمكنه التجريد أو التفكير منطقياً مثل الإنسان. يتفاعل البشر في بيئات ويتعلّمون المفاهيم ويتواصلون بها عبر استخدام اللغة. مع ذلك، لا يمكن لنموذج اللغة أن يحاكي اللغة والتفكير إلا من خلال استخلاص الارتباطات والمفاهيم من البيانات. قد تحاكي نماذج اللغة في كثير من الأحيان التواصل البشري بشكل صحيح، ولكن من دون القدرة على الاستيعاب، وبالنظر إلى الحجم الهائل للنموذج، ليس هناك ما يضمن أن تكون خياراتها آمنة أو أخلاقية. لذلك، ليس من الممكن التنبؤ بشكل موثوق بما ستفعله النماذج عند اتخاذ قرارات عالية المخاطر.
لاعب مجازِف
يمكن لنماذج اللغة القيام بمهام عسكرية تتطلب معالجة كميات هائلة من البيانات في جداول زمنية قصيرة جداً، مما يعني أن الجيوش قد ترغب في استخدامها لتعزيز عملية صنع القرار أو لهيكلة الوظائف البيروقراطية. على سبيل المثال، تحمل النماذج وعوداً كبيرة في التخطيط العسكري والقيادة والاستخبارات. يمكنها أتمتة الكثير من تخطيط السيناريوهات وألعاب الحرب والموازنة والتدريب. ويمكن استخدامها أيضاً لتجميع المعلومات الاستخبارية وتعزيز التنبؤ بالتهديدات وإنشاء توصيات الاستهداف. أثناء الحرب أو الأزمات، يمكن للنماذج استخدام التوجيهات الحالية للتوصل إلى أوامر، حتى عندما يكون هناك اتصال محدود أو ضئيل بين الوحدات وقادتها. ولعلّ الأمر الأكثر أهمية بالنسبة إلى العمليات اليومية للجيوش هو أن النماذج قد تكون قادرة على أتمتة المهام العسكرية الشاقة كالسفر والخدمات اللوجستية وتقييمات الأداء.
ولكن حتى بالنسبة إلى هذه المهام، لا يمكن ضمان نجاح تلك النماذج. يمكن أن يكون سلوكها غير منتظم، بخاصة في الأمثلة النادرة وغير المتوقعة. ولأنه لا يوجد نموذجان لغويان متشابهان تماماً في تدريبهما أو تحسينهما، هما يتأثران بشكل فريد بمدخلات المستخدم. يأخذ الباحثان على سبيل المثال سلسلة من المناورات الحربية التي أجرياها وحلّلا فيها كيفية أداء الخبراء البشريين ونماذج اللغة لفهم مدى اختلاف قراراتهم. لم يلعب البشر ضد النماذج بل لعبوا بشكل منفصل في نفس الأدوار. وضعت اللعبة اللاعبين في خضم أزمة بحريّة بين الولايات المتحدة والصين حيث اتّخذت فرقة عمل تابعة للحكومة الأميركية قرارات حول كيفية استخدام التقنيات الناشئة في مواجهة التصعيد. تم منح اللاعبين نفس المستندات الأساسية وقواعد اللعبة. ثم تداولوا في مجموعات مكونة من أربعة إلى ستة أشخاص للخروج بتوصيات.
حوّلت الحرب إلى ساخنة... ونوويّة!
في المتوسط، اتخذ كل من الفريق البشري وفريق النماذج خيارات مماثلة بشأن استراتيجية الصورة الكبيرة وقواعد المشاركة. ولكن، عندما قام الباحثان بتغيير المعلومات التي تلقتها نماذج اللغة أو قاما بالتبديل بين برامج اللغة المستخدمة، شاهدا انحرافات كبيرة عن السلوك البشري. على سبيل المثال، حاول نموذج اختبراه تجنب وقوع إصابات أو اصطدامات بين الحلفاء من خلال فتح النار على مقاتلين أعداء وتحويل حرب باردة إلى ساخنة، مُحلّلاً أنّ استخدام العنف الوقائي كان سيمنع على الأرجح حدوث نتيجة سيئة للأزمة. علاوة على ذلك، وفي حين أنّ اختلافات اللاعبين البشريّين في الخبرة والمعرفة أثّرت على أدائهم، لم تتأثر النماذج إلى حد كبير بالمدخلات المتعلقة بالخبرة أو الديموغرافيا. لم تكن المشكلة هي أنّ نموذج اللغة اتخذ قرارات أسوأ أو أفضل من قرارات البشر أو أنه كان من المرجح أكثر أن "يفوز" في لعبة الحرب، بل في أنّه توصل إلى قراراته بطريقة لا تنقل مدى تعقيد عمليّة صنع القرار البشري. لم يكن للحوار الذي تم إنشاؤه بواسطة نموذج لغة بين اللاعبين سوى القليل من الخلاف وكان يتألّف من بيانات قصيرة عن الواقع. لقد كان ذلك بعيداً كل البعد عن الحجج العميقة التي غالباً ما تكون جزءاً من ألعاب الحرب البشرية.
To those who trust in machines: «Why the Military Can’t Trust AI.
— Aspals Legal (@AspalsLegal) April 29, 2024
Large Language Models Can Make Bad Decisions—and Could Trigger Nuclear War»https://t.co/hlcFaIfjEg
في مشروع بحثي مختلف، قام لامبارث وشنايدر بدراسة كيفية تصرف نماذج اللغة في ألعاب محاكاة الحرب، مع التركيز تحديداً على ما إذا كانت قد اختارت التصعيد أم لا. طلبت الدراسة التي قارنت نماذج لغة من شركات رائدة في وادي السيليكون مثل "أنتروبيك" و"ميتا" و"أوبن إيه آي" من كل نموذج أن يلعب دور دولة، مع قيام الباحثين بتنويع أهداف الدولة. لقد وجد الباحثان أن نماذج اللغة تصرّفت بشكل مختلف بناء على نسختها والبيانات التي تم تدريبها عليها والاختيارات التي اتّخذها مصمّموها أثناء الضبط الدقيق لتفضيلاتهم. على الرغم من هذه الاختلافات، وجدا أنّ جميع النماذج اختارت التصعيد وأظهرت تفضيلاً لسباقات التسلح والصراع وحتى استخدام الأسلحة النووية. وعندما اختبرا نموذجاً لم يتم ضبطه بدقة، أدى إلى أعمال فوضوية واستخدام للأسلحة النووية. كان منطق النموذج: "نحن نملكها (أسلحة نووية)! فلنستخدمها".
سوء فهم خطير
على الرغم من رغبة الجيوش باستخدام نماذج اللغة وغيرها من أدوات صنع القرار المدعومة بالذكاء الاصطناعي، ثمة قيود ومخاطر حقيقية. قبل كل شيء، تحتاج تلك الجيوش التي تريد استخدامها في عملية صناعة القرار إلى فهم أفضل لكيفية عمل نماذج اللغة وأهمية الاختلافات في تصميمها وتنفيذها. يتطلب هذا تدريباً كبيراً للمستخدمين والقدرة على تقييم المنطق والبيانات الأساسية التي تجعل النماذج تعمل. يجب أن تتمثل النتيجة في أن يكون المستخدم العسكري على دراية تامة بنماذج اللغة كما هي معرفته بالرادار أو الدبابة أو الصاروخ.
سيكون من الأسهل تحقيق هذا المستوى من التدريب والخبرة في وقت السلم ومع الجيوش المتطورة، مما يعني أنّ الاستخدام في زمن الحرب من قبل الجيوش التي تعاني أساساً من نقص العمالة والتكنولوجيا والأسلحة هو الاستخدام الذي قد تولّد فيه هذه الأنظمة أكبر مقدار ممكن من المخاطر. ويجب على الجيوش أن تدرك أنّه في الأساس، لا يمكن أبداً ضمان سلوك نماذج اللغة، بخاصة عند اتخاذ خيارات نادرة وصعبة بشأن التصعيد والحرب.
هل يجب تجاهل هذه البرامج بشكل مطلق؟
بحسب الباحثَين، لا يعني هذا الواقع أنّه لا يمكن للجيش استخدام نماذج اللغة بأي شكل من الأشكال. على سبيل المثال، يمكن استخدامها لتبسيط العمليات الداخلية، مثل كتابة ملخصات وتقارير موجزة. ويمكن أيضاً استخدامها جنباً إلى جنب مع العمليات البشرية مثل ألعاب الحرب أو تقييمات الاستهداف، كطرق لاستكشاف سيناريوهات ومسارات عمل بديلة، من دون الوصول إلى حدّ تفويض عملية صنع قرار عنيف.
وكانت هناك بالفعل علامات مشجعة على أنّ الجيش الأميركي يأخذ هذا الأمر على محمل الجدّ. في 2023، أصدرت وزارة الدفاع توجيهاتها بشأن الاستقلالية في أنظمة الأسلحة. هي تتطلب اختبار أنظمة الذكاء الاصطناعي وتقييمها للتأكد من أنها تعمل كما هو متوقع وتلتزم بالمبادئ الأخلاقية للذكاء الاصطناعي في البنتاغون، واستراتيجية الذكاء الاصطناعي المسؤولة.
وكانت هذه خطوة أولى مهمة في التطوير الآمن لهذه التقنيات وتنفيذها. بعد ذلك، هناك حاجة إلى مزيد من البحث لفهم متى وكيف يمكن أن تؤدي نماذج اللغة إلى أذى غير ضروري. ولعلّ الأمر الأكثر أهمية بالنسبة إلى المؤسسة العسكرية هو أنّ هذه السياسة لن تكون مفيدة إلا إذا كان المشترون والمقاتلون والمخططون يعرفون ما يكفي عن كيفية إنشاء نموذج للغة لتطبيق مبادئه الأساسية. لكي يحدث ذلك، ستحتاج الجيوش إلى تدريب وصقل لا نماذج اللغة الكبيرة وحسب، بل أيضاً موظفيهم وقادتهم.