يكشف Google DeepMind عن نموذج فيديو جديد لمنافسة Sora
اشراق العالم 24 متابعات تقنية:
نقدم لكم في اشراق العالم 24 خبر بعنوان “يكشف Google DeepMind عن نموذج فيديو جديد لمنافسة Sora
” نترككم مع محتوى الخبر
يريد Google DeepMind، وهو مختبر أبحاث الذكاء الاصطناعي الرائد في Google، التغلب على OpenAI في لعبة إنشاء الفيديو – وربما يحدث ذلك، على الأقل لفترة قصيرة.
أعلنت شركة DeepMind يوم الاثنين عن Veo 2، وهو الجيل التالي من الذكاء الاصطناعي لتوليد الفيديو وخليفة Veo، الذي يشغل عددًا متزايدًا من المنتجات عبر مجموعة Google. يمكن لـ Veo 2 إنشاء مقاطع تزيد مدتها عن دقيقتين بدقة تصل إلى 4K (4096 × 2160 بكسل).
والجدير بالذكر أن هذه الدقة تبلغ 4 أضعاف – وأكثر من 6 أضعاف المدة – التي يمكن لـ Sora من OpenAI تحقيقها.
إنها ميزة نظرية في الوقت الحالي. في أداة إنشاء الفيديو التجريبية من Google، VideoFX، حيث يتوفر Veo 2 الآن حصريًا، يتم تحديد مدة مقاطع الفيديو بدقة 720 بكسل وثماني ثوانٍ. (يمكن لـ Sora إنتاج مقاطع تصل دقتها إلى 1080 بكسل مدتها 20 ثانية.)
يوجد VideoFX خلف قائمة الانتظار، لكن جوجل تقول إنها تعمل على زيادة عدد المستخدمين الذين يمكنهم الوصول إليه هذا الأسبوع.
أخبر Eli Collins، نائب رئيس المنتج في DeepMind، موقع TechCrunch أيضًا أن Google ستجعل Veo 2 متاحًا عبر منصة مطور Vertex AI الخاصة بها “عندما يصبح النموذج جاهزًا للاستخدام على نطاق واسع”.
وقال كولينز: “خلال الأشهر المقبلة، سنواصل التكرار بناءً على تعليقات المستخدمين”. [we’ll] نتطلع إلى دمج إمكانات Veo 2 المحدثة في حالات الاستخدام المقنعة عبر نظام Google البيئي… [W]وأتوقع مشاركة المزيد من التحديثات في العام المقبل.
أكثر قابلية للتحكم
مثل Veo، يمكن لـ Veo 2 إنشاء مقاطع فيديو بمطالبة نصية (على سبيل المثال، “سيارة تتسابق على طريق سريع”) أو نص وصورة مرجعية.
إذن ما الجديد في Veo 2؟ حسنًا، يقول DeepMind إن النموذج، الذي يمكنه إنشاء مقاطع بمجموعة من الأساليب، يتمتع بـ “فهم” محسّن للفيزياء وأدوات التحكم في الكاميرا، وينتج لقطات “أكثر وضوحًا”.
من خلال الوضوح، يعني DeepMind أن الأنسجة والصور في المقاطع أكثر وضوحًا – خاصة في المشاهد التي تحتوي على الكثير من الحركة. أما بالنسبة لعناصر التحكم المحسنة في الكاميرا، فهي تمكن Veo 2 من وضع “الكاميرا” الافتراضية في مقاطع الفيديو التي تولدها بشكل أكثر دقة، وتحريك تلك الكاميرا لالتقاط الأشياء والأشخاص من زوايا مختلفة.
تدعي DeepMind أيضًا أن Veo 2 يمكنه تصميم نموذج أكثر واقعية للحركة وديناميكيات السوائل (مثل صب القهوة في الكوب)، وخصائص الضوء (مثل الظلال والانعكاسات). يقول ديب مايند إن ذلك يشمل عدسات مختلفة وتأثيرات سينمائية، بالإضافة إلى التعبير البشري “الدقيق”.
شاركت DeepMind بعض العينات المختارة من Veo 2 مع TechCrunch الأسبوع الماضي. بالنسبة لمقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي، بدت جيدة جدًا، وحتى جيدة بشكل استثنائي. يبدو أن Veo 2 يتمتع بفهم قوي للانكسار والسوائل الصعبة، مثل شراب القيقب، وموهبة لمحاكاة الرسوم المتحركة على طراز بيكسار.
ولكن على الرغم من إصرار DeepMind على أن النموذج أقل احتمالاً لعناصر الهلوسة مثل الأصابع الإضافية أو “الأشياء غير المتوقعة”، إلا أن Veo 2 لا يستطيع مسح الوادي الغريب تمامًا.
لاحظ العيون الهامدة في هذا المخلوق الكرتوني الذي يشبه الكلب:
والطريق الزلق بشكل غريب في هذه اللقطات – بالإضافة إلى المشاة في الخلفية الذين يمتزجون مع بعضهم البعض والمباني ذات الواجهات المستحيلة ماديًا:
اعترف كولينز أن هناك عملاً يتعين القيام به.
وقال: “إن التماسك والاتساق هما مجالان للنمو”. “يمكن لـ Veo الالتزام دائمًا بالمطالبة لبضع دقائق، ولكن [it can’t] الالتزام بالمطالبات المعقدة على مدى آفاق طويلة. وبالمثل، يمكن أن يشكل اتساق الشخصية تحديًا. هناك أيضًا مجال للتحسين في توليد تفاصيل معقدة، وحركات سريعة ومعقدة، والاستمرار في دفع حدود الواقعية.
وأضاف كولينز أن DeepMind مستمرة في العمل مع الفنانين والمنتجين لتحسين نماذج وأدوات إنتاج الفيديو.
قال كولينز: “لقد بدأنا العمل مع مبدعين مثل دونالد جلوفر، وذا ويكند، وd4vd، وغيرهم منذ بداية تطوير Veo لفهم عمليتهم الإبداعية حقًا وكيف يمكن للتكنولوجيا أن تساعد في تحقيق رؤيتهم”. “لقد أدى عملنا مع المبدعين على Veo 1 إلى تطوير Veo 2، ونحن نتطلع إلى العمل مع المختبرين والمبدعين الموثوقين للحصول على تعليقات حول هذا النموذج الجديد.”
السلامة والتدريب
تم تدريب Veo 2 على الكثير من مقاطع الفيديو. هذه هي الطريقة العامة التي تعمل بها نماذج الذكاء الاصطناعي: بتزويدها بمثال تلو الآخر لبعض أشكال البيانات، تلتقط النماذج الأنماط الموجودة في البيانات التي تسمح لها بإنشاء بيانات جديدة.
لن تذكر شركة DeepMind بالضبط المكان الذي قامت فيه بنسخ مقاطع الفيديو لتدريب Veo 2، لكن موقع YouTube هو أحد المصادر المحتملة؛ تمتلك Google موقع YouTube، وقد أخبرت DeepMind سابقًا موقع TechCrunch أن نماذج Google مثل Veo “قد” يتم تدريبها على بعض محتويات YouTube.
وقال كولينز: “لقد تم تدريب Veo على عمليات الاقتران عالية الجودة لوصف الفيديو”. “أزواج وصف الفيديو عبارة عن فيديو ووصف مرتبط به لما يحدث في هذا الفيديو.”
في حين أن DeepMind، من خلال Google، تستضيف أدوات للسماح لمشرفي المواقع بمنع روبوتات المختبر من استخراج بيانات التدريب من مواقعهم على الويب، فإن DeepMind لا تقدم آلية للسماح للمبدعين بإزالة الأعمال من مجموعات التدريب الحالية الخاصة بها. ويؤكد المختبر والشركة الأم أن نماذج التدريب التي تستخدم البيانات العامة هي استخدام عادل، مما يعني أن DeepMind تعتقد أنها غير ملزمة بطلب الإذن من مالكي البيانات.
لا يتفق جميع المبدعين مع هذا الرأي، خاصة في ضوء الدراسات التي تقدر أن عشرات الآلاف من وظائف السينما والتلفزيون يمكن أن تتعطل بسبب الذكاء الاصطناعي في السنوات المقبلة. العديد من شركات الذكاء الاصطناعي، بما في ذلك الشركة الناشئة التي تحمل اسمها وراء تطبيق الذكاء الاصطناعي الشهير Midjourney، تتعرض لدعاوى قضائية تتهمها بانتهاك حقوق الفنانين من خلال التدريب على المحتوى دون موافقة.
وقال كولينز: “نحن ملتزمون بالعمل بشكل تعاوني مع المبدعين وشركائنا لتحقيق الأهداف المشتركة”. “نحن نواصل العمل مع المجتمع الإبداعي والأشخاص عبر الصناعة الأوسع، وجمع الأفكار والاستماع إلى التعليقات، بما في ذلك أولئك الذين يستخدمون VideoFX.”
بفضل الطريقة التي تتصرف بها النماذج التوليدية اليوم عند تدريبها، فإنها تحمل مخاطر معينة، مثل القلس، والذي يشير إلى الوقت الذي يقوم فيه النموذج بإنشاء نسخة طبق الأصل من بيانات التدريب. الحل الذي تقدمه DeepMind هو مرشحات سريعة المستوى، بما في ذلك المحتوى العنيف والرسومي والصريح.
وقال كولينز إن سياسة التعويض الخاصة بشركة Google، والتي توفر دفاعًا لبعض العملاء ضد مزاعم انتهاك حقوق الطبع والنشر الناجمة عن استخدام منتجاتها، لن تنطبق على Veo 2 حتى تصبح متاحة بشكل عام.
للتخفيف من مخاطر التزييف العميق، تقول DeepMind إنها تستخدم تقنية العلامات المائية الخاصة بها، SynthID، لتضمين علامات غير مرئية في الإطارات التي ينشئها Veo 2. ومع ذلك، مثل كل تقنيات العلامات المائية، فإن SynthID ليس مضمونًا.
ترقيات الصورة
بالإضافة إلى Veo 2، أعلنت Google DeepMind هذا الصباح عن ترقيات إلى Imagen 3، نموذجها التجاري لتوليد الصور.
يتم طرح إصدار جديد من Imagen 3 لمستخدمي ImageFX، أداة إنشاء الصور من Google، بدءًا من اليوم. يمكنه إنشاء صور وصور “أكثر سطوعًا وأفضل تكوينًا” بأنماط مثل الصور الواقعية والانطباعية والأنيمي، وفقًا لـ DeepMind.
“هذه الترقية [to Imagen 3] “يتبع أيضًا المطالبات بشكل أكثر إخلاصًا، ويعرض تفاصيل وأنسجة أكثر ثراءً،” كتب DeepMind في منشور مدونة مقدم إلى TechCrunch.
يتم طرح تحديثات واجهة المستخدم لـ ImageFX جنبًا إلى جنب مع النموذج. الآن، عندما يكتب المستخدمون المطالبات، ستصبح المصطلحات الرئيسية في تلك المطالبات “شرائح” مع قائمة منسدلة للكلمات المقترحة ذات الصلة. يمكن للمستخدمين استخدام الرقائق لتكرار ما كتبوه، أو الاختيار من صف من الأوصاف التي تم إنشاؤها تلقائيًا أسفل المطالبة.
نشكركم على قراءة الخبر على اشراق 24. اشترك معنا في النشرة الإخبارية لتلقي الجديد كل لحظة.
اقرأ على الموقع الرسمي
روابط قد تهمك
مؤسسة اشراق العالم خدمات المواقع والمتاجر باك لينكات باقات الباك لينك
اكتشاف المزيد من اشراق العالم 24
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.