أعلنت شركة "OpenAI" يوم الخميس عن نموذجها "Sora"، وهو نموذج جديد تمامًا يُنشئ مقاطع فيديو عالية الوضوح يصل طولها إلى دقيقة واحدة وفقاً للمطالبات النصية.
ولن يكون "Sora"، الذي يعني "السماء" باللغة اليابانية، متاحًا لعامة الناس في وقت قريب. وبدلاً من ذلك، تعمل الشركة على إتاحته لمجموعة صغيرة من الأكاديميين والباحثين الذين سيقومون بتقييم الضرر واحتمال إساءة استخدامه.
وقالت الشركة على موقعها على الإنترنت: "إن Sora قادر على إنشاء مشاهد معقدة بشخصيات متعددة، وأنواع محددة من الحركة، وتفاصيل دقيقة للموضوع والخلفية".
يُظهر أحد مقاطع الفيديو التي أنشأها النموذج والتي شاركتها "OpenAI" على موقعها على الإنترنت حبيبين يسيران في مدينة طوكيو المغطاة بالثلوج بينما تتطاير الأزهار وندف الثلج من حولهما.
ويُظهر فيديو آخر نشرته الشركة على حسابها على "إكس" ماموثًا يبدو حقيقيًّا وهو يسير عبر مرج ثلجي مع خلفية من سلاسل الجبال المغطاة بالثلوج.
في هذا السياق، تؤكد الشركة أن النموذج يعمل نتيجة "للفهم العميق للغة"، ما يتيح له تفسير المطالبات النصية بدقة.
ومع ذلك، مثل جميع مولدات الصور والفيديو التي تعمل بتقنية الذكاء الاصطناعي التي رأيناها، فإن "Sora" ليس مثاليًا. إذ تحذر "OpenAI" أيضًا من أن النموذج قد يواجه صعوبة في فهم السبب والنتيجة، فيمكنه إنشاء مقطع فيديو لشخص يأكل الكوكيز، على سبيل المثال، ولكن قد لا تحتوي الكوكيز على علامات عض.
يذكر أن "Sora" ليس النموذج الأول لتحويل النص إلى فيديو. فقد قامت شركات أخرى، بما في ذلك "Meta وGoogle وRunway"، إما بإثارة أدوات تحويل النص إلى فيديو أو جعلتها متاحة للجمهور. ومع ذلك، لا توجد أداة أخرى قادرة حاليًا على إنشاء مقاطع فيديو تصل مدتها إلى 60 ثانية، وفقاً لـ"إن غادجت".
أثار ظهور أدوات تحويل النص إلى فيديو مخاوف بشأن قدرتها على إنشاء لقطات مزيفة ذات مظهر واقعي بسهولة أكبر. في هذا الإطار، قالت الشركة إنها تعمل مع خبراء لاختبار الأداة قبل إتاحتها للجمهور.
كذلك، تقوم "OpenAI" أيضًا ببناء أدوات قادرة على اكتشاف مقاطع الفيديو التي يتم إنشاؤها بواسطة "Sora". ورفضت إخبار صحيفة "التايمز" بكيفية تدريب نموذجها، باستثناء الإشارة إلى أنها استخدمت "مقاطع الفيديو المتاحة للعامة" بالإضافة إلى مقاطع الفيديو المرخصة من أصحاب حقوق الطبع والنشر.