درّبت شركة "أوبن إيه آي" نموذج الذكاء الاصطناعي الخاص بها "جي بي تي 4" على محتوى من منصة "يوتيوب" المملوكة لـ"غوغل"، حسبما كشف تقرير لصحيفة "نيويورك تايمز".
وأشارت الصحيفة إلى أن الشركة كانت في حاجة ماسة إلى بيانات التدريب، وطورت نموذج النسخ الصوتي "ويسبر" من أجل تحويل الصوت في مقاطع الفيديو المنشورة في "يوتيوب" إلى نصوص، ثم استخدامها في تدريب نموذج "جي بي تي 4"، الذي يُعد أشهر نماذجها في الوقت الحالي.
وتُعد تلك الآلية موضع تساؤل من الناحية القانونية، وهي تقع ضمن المنطقة الرمادية لقانون حقوق الطبع والنشر للذكاء الاصطناعي، لكن الصحيفة أفادت بأن "أوبن إيه آي" تعتقد أن ذلك يُعد "استخدامًا عادلًا".
وزعمت الصحيفة أن رئيس "أوبن إيه آي"، غريغ بروكمان، شارك بنفسه في جمع مقاطع الفيديو التي استُخدمت في التدريب، فيما صرحت المتحدثة باسم الشركة ليندساي هيلد لموقع "ذا فيرج" بأن الشركة تستخدم "مصادر عديدة ومنها البيانات المتاحة للجمهور والشراكات للبيانات غير العامة".
وكانت الشركة عام 2021 قد دربت نماذجها على كافة مصادر البيانات المفيدة، وبحثت فكرة تحويل مقاطع الفيديو والبودكاست والكتب الصوتية في "يوتيوب" إلى نصوص كأفضل الموارد المتاحة للبيانات، وفي ذلك الوقت، كانت الشركة قد دربت نماذجها على بيانات تضمنت الأكواد البرمجية في منصة "غيت هاب"، ومحتوى الواجبات المدرسية في منصة "كويز ليت" وغيرها.
وزعمت الصحيفة أن هناك أشخاصًا في "غوغل" كانوا على علم بما تفعله "أوبن إيه آي"، لكنهم لم يتخذوا أي إجراء تجاهها لأن "غوغل" نفسها كانت تستخدم مقاطع الفيديو في "يوتيوب" لتدريب نماذج الذكاء الاصطناعي الخاصة بها.
وصرحت "غوغل" للصحيفة بأنها تفعل ذلك فقط مع مقاطع الفيديو الخاصة بمنشئي المحتوى الذين وافقوا على ذلك.
وحديثًا، حذر الرئيس التنفيذي لـ"يوتيوب" شركة "أوبن إيه آي" من تدريب نموذجها الجديد لتحويل النص إلى فيديو على مقاطع الفيديو المرئية المنشورة في المنصة.