'غوغل' ستُطلق ميّزات جديدة بالذكاء الاصطناعي: موسيقى تصويرية وحوارات لمقاطع الفيديو (فيديو)

"غوغل" ستُطلق ميّزات جديدة بالذكاء الاصطناعي: موسيقى تصويرية وحوارات لمقاطع الفيديو (فيديو)

المصدر: "النهار"

تقوم شركة "غوغل" بتطوير تقنية الذكاء الاصطناعي التوليدي الخاصة بإنشاء مقاطع صوتية لمقاطع الفيديو، وذلك بحسب ما ورد عن DeepMind، مختبر أبحاث الذكاء الاصطناعي التابع لشركة.

تكنولوجيا
19-06-2024 | 09:13

"غوغل" ستُطلق ميّزات جديدة بالذكاء الاصطناعي: موسيقى تصويرية وحوارات لمقاطع الفيديو (فيديو)

شعار "غوغل" (تصميم ديما قصاص).

A+ A-

تقوم شركة "غوغل" بتطوير تقنيّة الذكاء الاصطناعي التوليدي الخاصّة بإنشاء مقاطع صوتية لمقاطع الفيديو، وذلك بحسب ما ورد عن DeepMind، وهو مختبر أبحاث الذكاء الاصطناعي التابع للشركة.

وفي منشور على المدوّنة الرسمية للشركة، تقول DeepMind إنّها ترى التكنولوجيا V2A، التي تجعل توليد الصوت والصورة المتزامن ممكنًا، حيث يجمع V2A بين وحدات بكسل الفيديو والمطالبات النصية باللغة الطبيعية لإنشاء مقاطع صوتية غنية خاصة بالحركة التي تظهر على الشاشة، باعتبارها جزءاً أساسيًا من أحجيّة الوسائط التي يولّدها الذكاء الاصطناعي التوليدي.

We're sharing progress on our video-to-audio (V2A) generative technology. 🎥

It can add sound to silent clips that match the acoustics of the scene, accompany on-screen action, and more.

Here are 4 examples - turn your sound on. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62
— Google DeepMind (@GoogleDeepMind) June 17, 2024

تتقدّم نماذج توليد الفيديو بوتيرة عالية ومذهلة، لكنّ العديد من الأنظمة الحالية لا يمكنها سوى توليد مخرجات صامتة. وبحسب ما طرحت الشركة، يمكن أن تصبح تقنية V2A طريقة واعدة لإضفاء الحيوية على الأفلام التي تم إنشاؤها.

كذلك، يمكن استخدامها لإضافة موسيقى درامية ومؤثرات صوتية واقعية وحوار يتوافق مع نغمة الفيديو. وتقول "غوغل" إنّ نموذج اللغة الكبير الجديد يعمل أيضًا مع "اللقطات التقليدية" مثل الأفلام الصامتة والموادّ الأرشيفية.

ويمكن للنموذج الجديد إنشاء "عدد غير محدود من المقاطع الصوتية" لأيّ فيديو. ويتميّز بـ"المطالبة الإيجابية" و"المطالبة السلبية" الاختياريّتين، اللتين يمكن استخدامهما لضبط الإخراج، حسب تفضيلات المستخدم ، كما أنه يضع علامة مائية على الصوت الذي تم إنشاؤه باستخدام تقنية SynthID.

وتأخذ هذه التقنية وصف الصوت كمدخل، وتستخدم نموذج نشر تم تدريبه على مجموعة من الأصوات ونصوص الحوار ومقاطع الفيديو. وبما أنّ النموذج لم يتم تدريبه على الكثير من مقاطع الفيديو، فقد يجري تشويه الإخراج في بعض الأحيان، إذ تقول "غوغل " إنها لن تطلق V2A للجمهور لمنع سوء الاستخدام في أيّ وقت قريب.