تقوم شركة "غوغل" بتطوير تقنية الذكاء الاصطناعي التوليدي الخاصة بإنشاء مقاطع صوتية لمقاطع الفيديو، وذلك بحسب ما ورد عن DeepMind، مختبر أبحاث الذكاء الاصطناعي التابع للشركة.
وفي منشور على المدونة الرسمية للشركة، تقول DeepMind إنها ترى التكنولوجيا V2A ، والتي تجعل توليد الصوت والصورة المتزامن ممكنًا، حيث يجمع V2A بين وحدات بكسل الفيديو والمطالبات النصية باللغة الطبيعية، لإنشاء مقاطع صوتية غنية للحركة التي تظهر على الشاشة، باعتبارها جزءًا أساسيًا من أحجية الوسائط التي يولّدها الذكاء الاصطناعي التوليدي.
تتقدّم نماذج توليد الفيديو بوتيرة عالية ومذهلة، لكن العديد من الأنظمة الحالية لا يمكنها سوى توليد مخرجات صامتة. وبحسب ما طرحت الشركة، يمكن أن تصبح تقنية V2A طريقة واعدة لإضفاء الحيوية على الأفلام التي تمّ إصدارها.
كما يمكن استخدامها لإضافة موسيقى درامية ومؤثرات صوتية واقعية وحوار يتوافق مع نغمة الفيديو.
وتقول "غوغل" إن نموذج اللغة الكبير الجديد يعمل أيضًا مع "اللقطات التقليدية" مثل الأفلام الصامتة والمواد الأرشيفية.
ويمكن للنموذج الجديد إنشاء "عدد غير محدود من المقاطع الصوتية" لأي فيديو، ويتميز بـ "المطالبة الإيجابية" و"المطالبة السلبية" الاختياريتين، والتي يمكن استخدامها لضبط الإخراج حسب تفضيلات المستخدم، كما أنه يضع علامة مائية على الصوت الذي تمّ إنشاؤه باستخدام تقنية SynthID.
وتأخذ هذه التقنية وصف الصوت كمدخل، وتستخدم نموذج نشر تمّ تدريبه على مجموعة من الأصوات ونصوص الحوار ومقاطع الفيديو. وبما أن النموذج لم يتمّ تدريبه على الكثير من مقاطع الفيديو، فقد يتمّ تشويه الإخراج في بعض الأحيان. وتقول "غوغل" إنها لن تطلق V2A للجمهور لمنع سوء الاستخدام، في أي وقت قريب.