يمكن أن تمثل مقاطع الفيديو الفورية القفزة التالية في تقنية الذكاء الاصطناعي
كان كيد ميتز يكتب عن التقدم في مجال الذكاء الاصطناعي لأكثر من عقد من الزمان.
كتب إيان سانسافيرا ، مهندس برمجيات في شركة ناشئة في نيويورك تدعى Runway AI ، وصفًا موجزًا لما يريد رؤيته في مقطع فيديو. كتب “نهر هادئ في الغابة”.
بعد أقل من دقيقتين ، أنتجت خدمة إنترنت تجريبية مقطع فيديو قصيرًا لنهر هادئ في غابة. كانت المياه الجارية للنهر تتلألأ في الشمس وهي تقطع بين الأشجار والسراخس ، وتحولت إلى زاوية ، وتناثرت بلطف على الصخور.
تعد Runway ، التي تخطط لفتح خدمتها لمجموعة صغيرة من المختبرين هذا الأسبوع ، واحدة من عدة شركات تقوم ببناء تقنية ذكاء اصطناعي تتيح قريبًا للأشخاص إنشاء مقاطع فيديو ببساطة عن طريق كتابة عدة كلمات في صندوق على شاشة الكمبيوتر.
إنهم يمثلون المرحلة التالية في سباق الصناعة – وهو سباق يتضمن عمالقة مثل Microsoft و Google بالإضافة إلى شركات ناشئة أصغر بكثير – لإنشاء أنواع جديدة من أنظمة الذكاء الاصطناعي التي يعتقد البعض أنها قد تكون الشيء الكبير التالي في التكنولوجيا ، على نفس القدر من الأهمية متصفحات الويب أو iPhone.
يمكن للجيل الجديد من أنظمة الفيديو تسريع عمل صانعي الأفلام والفنانين الرقميين الآخرين ، بينما يصبح طريقة جديدة وسريعة لإنشاء معلومات خاطئة يصعب اكتشافها عبر الإنترنت ، مما يجعل من الصعب معرفة ما هو حقيقي على الإنترنت.
الأنظمة هي أمثلة لما يعرف بالذكاء الاصطناعي التوليدي ، والذي يمكنه على الفور إنشاء نصوص وصور وأصوات. مثال آخر هو ChatGPT ، برنامج الدردشة الآلي عبر الإنترنت الذي أنشأته شركة OpenAI الناشئة في سان فرانسيسكو ، والتي أذهلت صناعة التكنولوجيا بقدراتها في أواخر العام الماضي.
كشفت Google و Meta ، الشركة الأم لـ Facebook ، النقاب عن أول أنظمة إنشاء مقاطع الفيديو العام الماضي ، لكنهما لم تشاركهما مع الجمهور لأنهما كانا قلقين من إمكانية استخدام الأنظمة في نهاية المطاف لنشر معلومات مضللة بسرعة وكفاءة جديدة.
لكن الرئيس التنفيذي لشركة Runway ، Cris Valenzuela ، قال إنه يعتقد أن التكنولوجيا مهمة للغاية بحيث لا يمكن الاحتفاظ بها في مختبر أبحاث ، على الرغم من مخاطرها. قال: “هذه واحدة من أكثر التقنيات إثارة للإعجاب التي بنيناها في المائة عام الماضية”. “أنت بحاجة إلى أن يستخدمه الناس بالفعل.”
إن القدرة على تحرير ومعالجة الأفلام والفيديو ليست بالأمر الجديد بالطبع. كان صانعو الأفلام يفعلون ذلك منذ أكثر من قرن. في السنوات الأخيرة ، استخدم الباحثون والفنانين الرقميين العديد من تقنيات وبرامج الذكاء الاصطناعي لإنشاء وتحرير مقاطع الفيديو التي غالبًا ما تسمى مقاطع الفيديو المزيفة.
لكن أنظمة مثل تلك التي أنشأها Runway يمكنها ، في الوقت المناسب ، استبدال مهارات التحرير بضغطة زر.
جيل جديد من روبوتات المحادثة
عالم جديد شجاع. أشعلت مجموعة جديدة من روبوتات المحادثة المدعومة بالذكاء الاصطناعي تدافعًا لتحديد ما إذا كانت التكنولوجيا يمكن أن تقلب اقتصاديات الإنترنت ، وتحول القوى العاملة اليوم إلى باقات ، وتخلق عمالقة الصناعة القادمين. إليك الروبوتات التي يجب معرفتها:
تنتج تقنية Runway مقاطع فيديو من أي وصف قصير. للبدء ، ما عليك سوى كتابة وصف بقدر ما تكتب ملاحظة سريعة.
يعمل هذا بشكل أفضل إذا كان المشهد يحتوي على بعض الحركة – ولكن ليس الكثير من الحركة – شيء مثل “يوم ممطر في مدينة كبيرة” أو “كلب به هاتف محمول في الحديقة”. اضغط على Enter ، وسينشئ النظام مقطع فيديو في دقيقة أو دقيقتين.
يمكن لهذه التقنية إعادة إنتاج الصور الشائعة ، مثل قطة نائمة على بساط. أو يمكنه الجمع بين مفاهيم متباينة لإنشاء مقاطع فيديو مسلية بشكل غريب ، مثل بقرة في حفلة عيد ميلاد.
يبلغ طول مقاطع الفيديو أربع ثوانٍ فقط ، ويكون الفيديو متقطعًا وضبابيًا إذا نظرت عن كثب. أحيانًا تكون الصور غريبة ومشوهة ومقلقة. النظام لديه طريقة لدمج الحيوانات مثل الكلاب والقطط بأشياء غير حية مثل الكرات والهواتف الخلوية. ولكن بالنظر إلى التوجيه الصحيح ، فإنه ينتج مقاطع فيديو توضح إلى أين تتجه التكنولوجيا.
قال فيليب إيزولا ، الأستاذ في معهد ماساتشوستس للتكنولوجيا والمتخصص في الذكاء الاصطناعي: “في هذه المرحلة ، إذا رأيت مقطع فيديو عالي الدقة ، فمن المحتمل أن أثق به”. “لكن هذا سيتغير بسرعة كبيرة.”
مثل تقنيات الذكاء الاصطناعي التوليدية الأخرى ، يتعلم نظام Runaway من خلال تحليل البيانات الرقمية – في هذه الحالة ، الصور ومقاطع الفيديو والتعليقات التوضيحية التي تصف محتوى تلك الصور. من خلال تدريب هذا النوع من التكنولوجيا على كميات كبيرة بشكل متزايد من البيانات ، فإن الباحثين واثقون من قدرتهم على تحسين مهاراتهم وتوسيعها بسرعة. في القريب العاجل ، كما يعتقد الخبراء ، سينشئون أفلامًا مصغرة ذات مظهر احترافي ومكتملة بالموسيقى والحوار.
من الصعب تحديد ما يقوم النظام بإنشائه حاليًا. إنها ليست صورة. إنه ليس رسما كاريكاتوريا. إنها مجموعة من الكثير من وحدات البكسل ممزوجة معًا لإنشاء فيديو واقعي. تخطط الشركة لإدخال تقنيتها بأدوات أخرى تعتقد أنها ستسرع عمل الفنانين المحترفين.
في الشهر الماضي ، كانت خدمات وسائل التواصل الاجتماعي تعج بصور البابا فرانسيس مرتديًا معطفًا أبيض منفوخًا من Balenciaga – وهو لباس عصري بشكل مدهش لبابا يبلغ من العمر 86 عامًا. لكن الصور لم تكن حقيقية. خلق عامل بناء يبلغ من العمر 31 عامًا من شيكاغو الإحساس الفيروسي باستخدام أداة ذكاء اصطناعي معروفة تسمى Midjourney.
أمضى الدكتور إيزولا سنوات في بناء واختبار هذا النوع من التكنولوجيا ، أولاً كباحث في جامعة كاليفورنيا ، بيركلي ، وفي OpenAI ، ثم كأستاذ في معهد ماساتشوستس للتكنولوجيا. صور مزيفة تمامًا للبابا فرانسيس.
قال: “كان هناك وقت كان الناس ينشرون فيه صورًا مزيفة ، ولن يخدعوني ، لأنها كانت غريبة جدًا أو غير واقعية للغاية”. “الآن ، لا يمكننا التقاط أي من الصور التي نراها على الإنترنت في ظاهرها.”
تعد Midjourney واحدة من العديد من الخدمات التي يمكنها إنشاء صور ثابتة واقعية من موجه قصير. ومن بين التطبيقات الأخرى Stable Diffusion و DALL-E ، وهي تقنية OpenAI التي بدأت هذه الموجة من مولدات الصور عندما تم الكشف عنها قبل عام.
تعتمد Midjourney على شبكة عصبية تتعلم مهاراتها من خلال تحليل كميات هائلة من البيانات. يبحث عن الأنماط أثناء قيامه بتمشيط ملايين الصور الرقمية بالإضافة إلى التعليقات النصية التي تصف ما تصوره كل صورة.
عندما يصف شخص ما صورة للنظام ، فإنه ينشئ قائمة بالميزات التي قد تتضمنها الصورة. قد تكون إحدى الميزات هي المنحنى الموجود أعلى أذن الكلب. قد يكون آخر هو حافة الهاتف المحمول. بعد ذلك ، تقوم شبكة عصبية ثانية ، تسمى نموذج الانتشار ، بإنشاء الصورة وتوليد وحدات البكسل اللازمة للسمات. في النهاية يحول البيكسلات إلى صورة متماسكة.
تستخدم شركات مثل Runway ، التي يعمل بها حوالي 40 موظفًا وجمعت 95.5 مليون دولار ، هذه التقنية لإنشاء صور متحركة. من خلال تحليل آلاف مقاطع الفيديو ، يمكن لتقنيتهم أن تتعلم تجميع العديد من الصور الثابتة معًا بطريقة متماسكة مماثلة.
قال السيد فالينزويلا: “الفيديو هو مجرد سلسلة من الإطارات – الصور الثابتة – التي يتم دمجها بطريقة تعطي الوهم بالحركة”. “الحيلة تكمن في تدريب نموذج يفهم العلاقة والاتساق بين كل إطار.”
مثل الإصدارات المبكرة من الأدوات مثل DALL-E و Midjourney ، تجمع التقنية أحيانًا بين المفاهيم والصور بطرق غريبة. إذا طلبت دبًا يلعب كرة السلة ، فقد يعطي نوعًا من الحيوانات المحشوة المتحولة مع كرة سلة ليد. إذا طلبت كلبًا بهاتف محمول في الحديقة ، فقد يمنحك ذلك جروًا يحمل الهاتف المحمول بجسم بشري غريب.
لكن الخبراء يعتقدون أن بإمكانهم تصحيح العيوب أثناء تدريب أنظمتهم على المزيد والمزيد من البيانات. إنهم يعتقدون أن التكنولوجيا ستجعل إنشاء الفيديو في النهاية أمرًا سهلاً مثل كتابة جملة.
“في الأيام الخوالي ، لفعل أي شيء مثل هذا عن بعد ، كان يجب أن يكون لديك كاميرا. كان عليك الحصول على الدعائم. كان يجب أن يكون لديك موقع. كان عليك الحصول على إذن. قالت سوزان بونسر ، مؤلفة وناشرة في ولاية بنسلفانيا ، كانت تجرب التجسيد المبكر لتكنولوجيا الفيديو التوليفية ، “كان يجب أن يكون لديك المال”. “ليس عليك أن يكون لديك أي من ذلك الآن. يمكنك فقط الجلوس وتخيل ذلك “.