تقوم شركة "غوغل" بتطوير تقنيّة الذكاء الاصطناعي التوليدي الخاصّة بإنشاء مقاطع صوتية لمقاطع الفيديو، وذلك بحسب ما ورد عن DeepMind، وهو مختبر أبحاث الذكاء الاصطناعي التابع للشركة.
وفي منشور على المدوّنة الرسمية للشركة، تقول DeepMind إنّها ترى التكنولوجيا V2A، التي تجعل توليد الصوت والصورة المتزامن ممكنًا، حيث يجمع V2A بين وحدات بكسل الفيديو والمطالبات النصية باللغة الطبيعية لإنشاء مقاطع صوتية غنية خاصة بالحركة التي تظهر على الشاشة، باعتبارها جزءاً أساسيًا من أحجيّة الوسائط التي يولّدها الذكاء الاصطناعي التوليدي.
تتقدّم نماذج توليد الفيديو بوتيرة عالية ومذهلة، لكنّ العديد من الأنظمة الحالية لا يمكنها سوى توليد مخرجات صامتة. وبحسب ما طرحت الشركة، يمكن أن تصبح تقنية V2A طريقة واعدة لإضفاء الحيوية على الأفلام التي تم إنشاؤها.
كذلك، يمكن استخدامها لإضافة موسيقى درامية ومؤثرات صوتية واقعية وحوار يتوافق مع نغمة الفيديو. وتقول "غوغل" إنّ نموذج اللغة الكبير الجديد يعمل أيضًا مع "اللقطات التقليدية" مثل الأفلام الصامتة والموادّ الأرشيفية.
ويمكن للنموذج الجديد إنشاء "عدد غير محدود من المقاطع الصوتية" لأيّ فيديو. ويتميّز بـ"المطالبة الإيجابية" و"المطالبة السلبية" الاختياريّتين، اللتين يمكن استخدامهما لضبط الإخراج، حسب تفضيلات المستخدم ، كما أنه يضع علامة مائية على الصوت الذي تم إنشاؤه باستخدام تقنية SynthID.
وتأخذ هذه التقنية وصف الصوت كمدخل، وتستخدم نموذج نشر تم تدريبه على مجموعة من الأصوات ونصوص الحوار ومقاطع الفيديو. وبما أنّ النموذج لم يتم تدريبه على الكثير من مقاطع الفيديو، فقد يجري تشويه الإخراج في بعض الأحيان، إذ تقول "غوغل " إنها لن تطلق V2A للجمهور لمنع سوء الاستخدام في أيّ وقت قريب.