كشفت شركة "ميتا" عن نموذج ذكاء اصطناعي جديد يدعى Movie Gen، مصمم لدعم وإلهام صنّاع الأفلام تحديداً، بغض النظر عن حجم مشاريعهم. يستخدم هذا النموذج تقنية التحويل النصيّ إلى فيديو، فيقوم بتحويل النصوص إلى مقاطع فيديو مع صوت، بالرغم من أن هذه التقنية ليست متاحة للعامة في الوقت الحالي، ومن المتوقع أن تبقى غير متاحة للعامة لبعض الوقت قبل أن تُطرح للاستخدام.
ومع أنها غير متوافرة، أكّدت "ميتا" في الرابع من تشرين الأول (أكتوبر) 2023 أنها تشارك هذه الأبحاث إيمانًا منها بقوة هذه التكنولوجيا في تمكين الأفراد من التعبير عن أنفسهم بطرق جديدة، وتقديم فرص لأشخاص قد لا تتاح لهم وسائل أخرى للإبداع. وتهدف الشركة في المستقبل إلى تمكين الجميع من استخدام هذه التقنية لتحويل رؤاهم الفنية إلى واقع ملموس.
Movie Gen ليس مجرّد نموذج واحد، بل مجموعة من النماذج الأساسية التي تعمل معًا، مع التركيز على تقنية تحويل النص إلى فيديو. يتمّ إنتاج الصوت ليتوافق مع الإعداد أو الموضوع المحدّد للفيديو، مثل صوت قطار يغادر المحطة أو المطر الغزير أثناء عاصفة رعدية، بالإضافة إلى إمكانية إضافة الموسيقى إن كان ذلك مناسباً.
تمّ تدريب Movie Gen على مزيج من البيانات المرخّصة والمتاحة للجمهور، بما في ذلك محتوى الفيديو من منصات "ميتا" مثل "فايسبوك وإنستغرام". يتميّز هذا النموذج بـ 4 قدرات رئيسيّة: إنتاج الفيديو، وتخصيص الفيديو، والتحرير الدقيق للفيديو، وإنتاج الصوت.
من أبرز ميزات النموذج أيضًا قدرته على التحرير النصيّ للفيديو، إذ يمكنك إجراء تعديلات أساسية، مثل تغيير الخلفية إلى مشهد ليليّ للمدينة. وبالنسبة إلى جودة الفيديو، يمكن أن ينتج Movie Gen مقاطع تصل إلى 16 ثانية بسرعة 16 إطارًا في الثانية، أو 10 ثوانٍ بسرعة 24 إطارًا في الثانية، بدقة عرض تبلغ 768 بكسل.
ويُسجّل أن هذا النموذج لا يشتمل حاليًا على ميزة توليد الصوت البشري، إلّا أن "ميتا" برّرت ذلك بتحدّيات التحكم بهذه التقنية وأخطار إساءة استخدامها، لا سيما مع انتشار ظاهرة "التزييف العميق" (Deepfake)، وفي ظل الأجواء السياسية الحالية. وتؤكد الشركة أنها تسعى لمواصلة تطوير هذه التكنولوجيا بالتعاون مع صنّاع المحتوى، بهدف الوصول إلى منتج نهائي يدعم الإبداع والابتكار في المستقبل.