هیاهوی هوش مصنوعی مولد ویدیو Sora؛ کابوس صنعت فیلم‌سازی؟

سه‌شنبه 15 اسفند 1402 - 13:30

مطالعه 11 دقیقه

هوش مصنوعی Sora با تبدیل متن به ویدیوهای شگفت‌انگیز، در اینترنت غوغا به‌پا کرده است؛ آیا چند وقت دیگر هوش مصنوعی صنعت فیلم‌سازی را هم تسخیر می‌کند؟

تبلیغات

اردیبهشت امسال، استارتاپی نیویورکی به نام Runaway AI از تکنولوژی جدید و پیشرفته‌ای برای تبدیل متن به ویدیوهای چهار ثانیه‌ای رونمایی کرد. ویدیوهای تولیدشده توسط هوش مصنوعی Runaway در ابتدا چندان باکیفیت و شفاف نبودند، اما دستیابی بشر به چنین فناوری پیچیده‌ای، از پیشرفت سریع هوش مصنوعی مولد در ماه‌های آتی خبر می‌داد.

تا اینکه چند وقت پیش شرکت OpenAI، خالق ChatGPT، در بیانیه‌ای غیرمنتظره از مهم‌ترین مدل هوش مصنوعی مولد سال ۲۰۲۴ به‌نام Sora رونمایی کرد. «سورا» می‌تواند با استفاده از دستورات متنی یا یک تصویر ثابت، ویدیوهای حداکثر یک‌دقیقه‌ای را با صحنه‌هایی واقع‌گرایانه، کیفیت بالا و ابعاد و وضوح مختلف خلق کند.

طبق بیانیه مطبوعاتی OpenAI، «مدل مولد Sora با درک عمیقی که از زبان انسان دارد، قادر به خلق صحنه‌های پیچیده، کاراکترهای انسانی و پس‌زمینه‌ی با جزئیات بالا است. این مدل نه‌تنها درک عمیقی نسبت به دستورات متنی و ویدیوی مورد نظر کاربر دارد، بلکه نحوه‌ی تعامل اشیاء و المان‌های مختلف در دنیای واقعی را هم خیلی خوب می‌داند.»

«Sora» در واقع یک واژه‌ی ژاپنی به معنای «آسمان» است. تیم بروکس و بیل پیبلس، از اعضای تیم توسعه‌دهنده‌ی هوش مصنوعی جدید OpenAI می‌گویند «Sora تداعی‌کننده‌ی دنیای بی‌حدومرز خلاقیت است.»

اگرچه با کمی دقت در دموهای منتشرشده می‌توان فهمید که این ویدیوها توسط هوش مصنوعی ساخته شده‌اند، نتایج کلی بسیار جذاب و چشم‌نواز هستند و برخی کاربران، آن را «چیزی فراتر از این جهان» توصیف کرده‌اند.

کپی لینک

ویدیوهای خلق‌شده توسط Sora

در حال حاضر امکان ارسال فرامین شخصی به مدل Sora وجود ندارد، اما با مراجعه به وب‌سایت OpenAI می‌توانید تعداد زیادی از ویدیوهای تولیدشده توسط Sora را مشاهده کنید. این شرکت می‌گوید ویدیوها را بدون اعمال هیچ‌گونه تغییراتی در وب‌سایتش منتشر کرده است.

ویدیوی زیر، نمای بی‌نظیری از شهر توکیو در یک روز برفی و پراکندگی شکوفه‌های گیلاس و دانه‌های برف در هوا را نشان می‌دهد. به نظر می‌رسد دوربین [مجازی] روی یک پهپاد نصب شده و زوجی را در حال قدم‌زدن در پیاده‌رو دنبال می‌کند. در سمت چپ پیاده‌رو، خیابانی ماشین‌رو و در سمت راست، مغازه‌های کوچکی را می‌بینیم.

کپشن ویدیو: یک روز زیبای برفی در شهر مملو از جمعیت توکیو. دوربین از بین خیابان شلوغ شهر عبور می‌کند و مردمی که در حال لذت‌بردن از هوای برفی یا خرید از فروشگاه‌های کنار خیابان هستند را نشان می‌دهد. شکوفه‌های گیلاس و دانه‌های برف در هوا پراکنده هستند.

با نگاه چندباره به این ویدیو متوجه نقص‌های جزئی آن خواهید شد. برای مثال، به نظر می‌رسد انتهای پیاده‌رو بسته است و زوجی که دوربین آن‌ها را دنبال می‌کند، برای ادامه‌ی مسیرشان باید به آن طرف گاردریل عجیب موجود در پیاده‌رو بروند. یا وقتی به ماشین‌ها و شاخه‌های درخت گیلاس نگاه کنید، متوجه محوشدن ماشین‌ها و معلق‌بودن بعضی شاخه‌ها در هوا خواهید شد. با صرف‌نظر از این موارد، ویدیوی بالا واقعاً چشم‌نواز و حیرت‌انگیز است.

در ویدیویی دیگر، از هوش مصنوعی خواسته شده تا «انیمیشن کوتاهی از یک غول پشمالو که چشم‌های بزرگ و دهانی باز دارد و کنار شمعی قرمزرنگ زانو زده» را خلق کند. همان‌طور که می‌بینیم، Sora این بار هم ما را با خلق انیمیشن کوتاهی به سبک پیکسار غافل‌گیر کرده است.

کپشن ویدیو: انیمیشن کوتاهی شامل نمای بسته‌ی یک غول پشمالوی کوچک که پشت یک شمع قرمزِ در حال ذوب، زانو زده است. سبک ویدیو باید سه‌بعدی و واقع‌گرایانه بوده و تمرکز زیادی روی نورپردازی و بافت اشیا و اجسام معطوف باشد. از آن‌جا که هیولا با چشمان گشاد و دهان باز به شعله‌ی شمع نگاه می‌کند، حال‌وهوای ویدیو باید حالت کنجکاوانه داشته باشد. غول پشمالو معصوم و بازیگوش است و برای اولین بار در حال کشف جهان پیرامونش است. استفاده از رنگ‌های گرم و نورپردازی مناسب می‌تواند فضای ویدیو را دنج و چشم‌نواز کند.

نکته‌ی جالب در مورد این غول پشمالو، شباهت ظاهری آن به چند شخصیت کارتونی و عروسکی ازجمله فربی، گرملین و سالیوان است.

براساس ویدیوهای منتشرشده در یوتیوب، طراحی و پیاده‌سازی پشم‌ها و بافت کُرکی کاراکترهای انیمیشن کارخانه‌ی هیولاها بسیار دشوار بوده و انیماتورها باید پشم‌ها را با حرکات کاراکتر هماهنگ می‌کردند. انجام این کار برای پیکسار ماه‌ها زمان برد، اما مدل جدید هوش مصنوعی OpenAI در ویدیوی بالا خیلی سریع و راحت این کار را انجام داده است.

تیم بروکس، از اعضای تیم تحقیقاتی پروژه‌ی Sora می‌گوید: «مدل جدید ما توانایی یادگیری هندسه‌ی سه‌بعدی محیط را دارد و ما هیچ دخل و تصرفی در خلق ویدیوها نداریم. ویدیوهای تولیدشده توسط Sora حاصل تماشای حجم وسیعی از داده‌ها است.»

ویدیوی دیگری که با دستور «دنیای کاغذی از صخره‌های مرجانی پر از ماهی‌های رنگارنگ و موجودات دریایی» کمی با ویدیوهای قبلی فرق می‌کند. در این ویدیو، قاب‌ها و حرکات دوربین مدام عوض می‌شوند. پیبلس، عضو دیگر تیم تحقیقاتی پروژه‌ی Sora می‌گوید: «ما در این ویدیو شاهد شات‌ها و زوایای مختلف دوربین هستیم. این شات‌ها به طور مجزا تولید نشده‌اند بلکه مدل ما آن‌ها را در یک مرحله خلق کرده است. ما نحوه‌ی روایت داستان را به Sora نگفتیم و او به‌صورت اتوماتیک این شیوه‌ی روایت داستان را انتخاب کرده است.»

کپشن ویدیو: دنیای کاغذی از صخره‌های مرجانی پر از ماهی‌های رنگارنگ و موجودات دریایی.

در ویدیوی زیر، تصویری واقع‌گرایانه از دختری در حال قدم‌زدن در خیابان‌های بارانی توکیو را می‌بینیم. این ویدیو با دستور زیر تولید شده است:

کپشن ویدیو: زنی در حال قدم‌زدن آهسته و بااعتمادبه‌نفس در یک خیابان مرطوب و بازتاب‌دهنده‌ی نورهای رنگارنگ محیط است. در همین حال، تعدادی عابر پیاده اطراف وی قدم می‌زنند.

کپشن ویدیو: یک موجود فضایی با ظاهری طبیعی در شهر نیویورک، به سبک فیلم تریلر پارانویا، فرمت ۳۳‌میلی‌متری.

در ویدیوی آخر، نمونه‌ای از ماموت‌های منقرض‌شده در حال دویدن در زمینی برفی نزدیک کوهستان به نمایش درآمده‌اند. این ویدیو با دستور زیر تولید شده است:

کپشن ویدیو: چند ماموت عظیم‌الجثه‌ی پشمالو در یک چمن‌زار پوشیده از برف قدم می‌زنند. کرک‌های بلند آن‌ها در هوا پراکنده است و درختان با برف زیادی پوشیده شده‌اند. ویدیو در زمان عصرگاهی ضبط شده و برف قابل توجه‌ای روی دامنه و نوک کوه‌ها نشسته است. ابرهای لطیف و نور ملایم خورشید بازتاب گرم و زیبایی خلق کرده‌اند. دوربین نزدیک زمین قرار دارد و عظمت پستانداران غول‌پیکر را از زاویه‌ی پایین نمایش می‌دهد.

ویدیوهای تولیدشده توسط Sora از کیفیت بسیار بالایی برخوردارند، اما جذاب‌ترین ویژگی این مدل پیشرفته، یعنی امکان خلق ویدیو بر اساس تصاویر ثابت، هنوز در دسترس نیست و گفته می‌شود Sora به اندازه‌ی کافی آموزش ندیده که بتواند از عهده‌ی خلق این نوع ویدیوها برآید. این ویژگی هیجان‌انگیز بر پایه‌ی مدل دیفیوژن، فناوری به‌کاررفته در DALL-E و موتور مبتنی‌بر ترنسفورمرِ GPT-4 کار می‌کند.

Sora برای تولید ویدیو از روی عکس به اندازه‌ی کافی آموزش ندیده است

از این گذشته، هنوز تا ساخت یک فیلم کامل توسط هوش مصنوعی فاصله‌ی زیادی داریم. از طرف دیگر، با توجه به آن‌که پاسخ‌های مختلف Sora به یک دستور متنی یکسان، کاملاً با یک‌دیگر متفاوت هستند، نمی‌توان با چسباندن ۱۲۰ ویدیوی تولیدشده توسط Sora به یک‌دیگر یک فیلم کامل ساخت. به عبارت دیگر، در حال حاضر ایجاد پیوستگی و انسجام بین ویدیوهای مختلف این مدل پیشرفته امکان‌پذیر نیست.

فعلا با Sora نمی‌توان فیلم سینمایی ساخت

توجه داشته باشید که وقتی صحبت از رسانه‌های جمعی و شبکه‌های اجتماعی مانند اینستاگرام و تیک‌تاک به میان می‌آید، مدل هوش مصنوعی Sora و ابزارهای مشابه هیچ‌گونه محدودیتی در تولید ویدیوهای یک‌دقیقه‌ای ندارند. پیبلس می‌گوید: «برای ساخت یک فیلم حرفه‌ای نیازمند تجهیزات پیشرفته هستید و این مدل نمی‌تواند کمک بزرگی به شما ارائه دهد. Sora با ویژگی‌های منحصربه‌فردی که دارد، به افراد عادی و اینفلوئنسرها کمک می‌کند تا محتوایی باکیفیت و جذاب خلق کنند.»

در این بخش، ویدیوهای هیجان‌انگیز هوش مصنوعی Sora را دیدیم، اما در آخر، طراحان محصول و گرافیک همیشه باید نگران موقعیت شغلی خود باشند. آن‌ها همواره باید به این موضوع فکر کنند که آیا ابزارهای جدید هوش مصنوعی قرار است به آن‌ها در انجام کارهایشان کمک کنند یا آن‌که در حال تصاحب جایگاه شغلی‌شان هستند.

با توجه به آنکه مدل پیشرفته و قدرتمند Sora هنوز در فاز تحقیقات به سر می‌برد و تیم کوچکی شامل سیاست‌گذاران حوزه‌ی امنیت و حریم شخصی، محققان و هنرمندان برای ارزیابی و اطمینان از عملکرد امن آن به این مدل دسترسی دارند، تاریخ مشخصی برای عرضه‌ عمومی آن از سوی خالق ChatGPT و DALL-E اعلام نشده است.

کپی لینک

موتور مولد ویدیوی Sora چگونه کار می‌کند؟

در گزارش فنی OpenAI آمده است:

تمرکز مدل‌ها و تحقیقات قبلی بر دسته‌ی خاصی از محتوای ویدیویی، کلیپ‌های ویدیویی کوتاه یا ویدیوهایی در ابعاد و اندازه‌ی ازپیش‌تعیین‌شده معطوف است؛ حال آنکه Sora می‌تواند راجع‌به هر موضوعی ویدیو بسازد و خروجی نهایی را در مدت‌زمان، ابعاد و رزولوشن‌های مختلف ارائه دهد.

به‌طور خلاصه، مدل Sora با انجام مراحل زیر، دستورات متنی را به ویدیوهای باکیفیت ۶۰-ثانیه‌ای تبدیل می‌کند:

کپی لینک

مرحله‌ی اول: فشرده‌سازی ویدیو

Sora برای تسهیل پردازش ویدیوها، داده‌های ویدیویی را به یک فضای کوچک‌تر کاهش می‌دهد. این فضای فشرده‌شده دقیقاً همان جایی است که مدل جدید OpenAI به یادگیری و تولید ویدیو می‌پردازد.

کپی لینک

مرحله‌ی دوم: استخراج تکه‌های کوچک ویدیو موسوم به Patch

در این مرحله، تکه‌های کوچک (Patch) ویدیوها استخراج می‌شود. Sora با انجام این کار می‌تواند ویدیوها و تصاویر نهایی را در اشکال و ابعاد مختلف تولید کند.

کپی لینک

مرحله‌ی سوم: بهره‌گیری از قدرت بی‌حدومرز شبکه عصبی ترنسفورمر

اکنون Sora با استفاده از مدل‌های خاصی تحت عنوان ترنسفورمر، پچ‌های ویدیویی را پیش‌بینی کرده و کیفیت آن‌ها را افزایش می‌دهد. این مدل‌ها همچنین امکان یادگیری بیش‌تر و خلق ویدیوهای دقیق‌تر را فراهم می‌کنند.

کپی لینک

مرحله‌ی چهارم: مدت‌زمان، ابعاد و وضوح متغیر

مدل جدید OpenAI بر خلاف مدل‌های قدیمی، از داده‌های ویدیویی با ابعاد، مدت‌زمان و رزولوشن‌های گوناگون برای یادگیری استفاده می‌کند. این رویکرد باعث افزایش توانایی مدل در خلق ویدیوهای مختلف با ابعاد، مدت‌زمان و رزولوشن‌های گوناگون می‌شود.

کپی لینک

مرحله‌ی پنجم: درک زبان انسان

این مدل جهت بهبود کیفیت ویدیوهای تولیدشده، نحوه‌ی ایجاد توصیف متنی برای ویدیوها را در طول زمان یاد می‌گیرد. بنابراین اگر مدل با توصیفات دقیق و جزئی ویدیوها آشنا باشد و از الگوی آن‌ها برای ایجاد توصیفات جدید استفاده کند، درک بیش‌تر و عمیق‌تری از زبان انسان و درخواست کاربران خواهد داشت.

کپی لینک

محدودیت‌ها و نگرانی‌های جدی در مورد Sora

ویدیوهای منتشرشده در وب‌سایت OpenAI بسیار تماشایی و شگفت‌انگیز هستند و Sora می‌تواند ویدیوهای یک‌دقیقه‌ای را در ابعاد و رزولوشن‌های گوناگون تولید کند؛ اما هنوز در برخی نمونه‌ها می‌توانید ردپای هوش مصنوعی را به‌وضوح ببینید. از این گذشته، ویدیوهای تولیدشده توسط مدل جدید OpenAI از ظرافت و جزئیات بالایی برخوردار هستند، اما در بعضی سناریوهای پیچیده، رقبایی مانند Runaway عملکرد دقیق‌تری از خود نشان می‌دهند.

در بعضی سناریوها، ابزارهایی مانند Runaway عملکرد بهتری دارند

طبق بررسی‌های صورت‌گرفته توسط وب‌سایت تک‌کرانچ، در ویدیوهایی که سوژه در برابر یک شهر بزرگ ایستاده یا در منظره‌ای برفی قدم می‌زند، جزئیات زیادی در پس‌زمینه دیده نمی‌شود و حس‌وحال کلی ویدیو شباهت زیادی به بازی‌های ویدیویی دارد. در بعضی مواقع جهت حرکت وسایل نقلیه که پشت سوژه قرار دارند، معکوس می‌شود و ماشین‌ها ناگهان از جهتی به جهت دیگر می‌روند.

مقالات مرتبط

تیم OpenAI می‌گوید مدل انقلابی جدیدشان در کنار توانمندی‌های حیرت‌انگیز، هنوز در مواجهه با شرایط پیچیده مانند تشخیص جهت حرکت اشیاء و چیزهایی از این دست، ضعف‌هایی از خود نشان می‌دهد:

Sora بعضی اوقات نمی‌تواند فیزیک محیط‌های پیچیده و روابط میان اشیاء را با دقت بالا درک کند. برای مثال، ممکن‌است شخصی یک تکه از کوکی را بخورد اما کوکی هنوز کامل به نظر برسد و جای دندان‌های شخص روی آن ایجاد نشود. علاوه‌بر این، Sora شاید گاهی اوقات نتواند جهت‌های چپ و راست را درست تشخیص دهد و در خلق حرکت‌های دقیق دوربین و سوژه عملکرد خوبی نداشته باشد.

کپی لینک

انتشار اخبار نادرست و ویدیوهای گمراه‌کننده

چند ماه پیش خبری مبنی‌بر پاسخ اشتباه ChatGPT به سؤالات دارویی منتشر شد. حالا با نزدیک‌شدن به انتخابات ریاست جمهوری آمریکا، نگرانی‌ها بابت انتشار اخبار نادرست و ویدیوهای گمراه‌کننده توسط ابزارهای هوش مصنوعی افزایش یافته است.

پیرو این موضوع، OpenAI می‌گوید ویدیوهای تولیدشده توسط Sora قبل‌ از آنکه در اختیار کاربران قرار گیرد، چند مرحله‌ی تست و ارزیابی امنیتی و حریم خصوصی را پشت سر می‌گذارد:

ما در حال همکاری با کارشناسان فعال در حوزه‌ی اطلاعات نادرست، محتوای آزادهنده و خشونت‌آمیز و انحرافات اجتماعی هستیم. علاوه‌بر این، ما ابزارهایی برای تشخیص و برچسب‌گذاری ویدیوهای تولیدشده توسط Sora توسعه داده‌ایم.

خالق ChatGPT و DALL-E در حال حاضر محتوای تولیدشده توسط هوش مصنوعی را برچسب‌گذاری می‌کند& اما طبق اذعان این کمپانی، برچسب‌ها و واترمارک‌هایی که به محتوا افزوده می‌شوند، به‌راحتی قابل حذف هستند.

به طور کلی، ظهور چنین فناوری‌های واقع‌گرایانه‌‌ای تشخیص محتوای واقعی از محتوای دروغین را سخت می‌کند. اورن اتزیونی، استاد دانشگاه واشنگتن که در زمینه‌ی تشخیص و جلوگیری از انتشار محتوای گمراه‌کننده در کمپین‌های سیاسی فعالیت می‌کند، بعد از تماشای ویدیوهای مدل هوش مصنوعی Sora گفت: «این فناوری به‌راحتی می‌تواند در نتیجه‌ی انتخابات کشورها تأثیرگذار باشد و من دقیقاً از همین موضوع می‌ترسم.»

کپی لینک

کپی‌رایت و حریم شخصی

یک نکته‌ی شایان‌ توجه در مورد OpenAI آن است که این کمپانی جزئیات مربوط به تعداد ویدیوها و منابع استفاده‌شده برای آموزش مدل جدید هوش مصنوعی خود را فاش نکرده و صرفاً به ذکر این نکته که «در خلال آموزش Sora از ویدیوهای عمومی و تعدادی ویدیوی لایسنس‌دار استفاده شده» بسنده کرده است.

این در حالی است که نویسنده بازی تاج و تخت و نشریه‌ نیویورک تایمز با طرح شکایتی علیه مایکروسافت و اوپن‌اِی‌آی، این دو شرکت را به نقض قوانین کپی‌رایت متهم کردند. پس به احتمال زیاد، دلیل تأکید OpenAI بر استفاده از ویدیوهای لایسنس‌دار، جلوگیری از شکایت مجدد هنرمندان مبنی‌بر نقص قانون کپی‌رایت توسط این کمپانی است.

طبق بیانیه‌ی OpenAI، این شرکت برای بهبود دقت و کیفیت ویدیوهای تولیدشده توسط Sora، این مدل را داده‌هایی معادل ۱۰ هزار ساعت محتوای ویدیویی باکیفیت آموزش داده است. اگرچه OpenAI اطلاعات مختصری راجع‌به حجم محتوای ویدیویی استفاده‌شده برای آموزش مدل جدیدشان ارائه کرده‌، برخی گمانه‌زنی‌ها حاکی‌ از به‌کارگیری داده‌های مربوط به موتور پردازش تصویر Unreal Engine 5 برای آموزش Sora است.

از این‌ها گذشته، اندرو نیوول، مدیر ارشد تحقیقات سازمان iProov در مصاحبه با CBSNews از خطرات جدی Sora برای هنرمندان و اشخاص عادی جامعه می‌گوید:

افراد با استفاده از هوش مصنوعی مولد ویدیو Sora می‌توانند چهره‌ی هنرمندان و سایر افراد جامعه را بازسازی کرده و از آن برای اخاذی یا کلاه‌برداری استفاده کنند. لازمه‌ی مقابله‌ی درست با خطرات و نگرانی‌های هوش مصنوعی، توسعه‌ی ابزارهایی در راستای تشخیص و اطلاع‌رسانی راجع‌به محتوای غیر واقعی است.

در همین راستا، ریس هیدن، تحلیلگر ارشد شرکت ABI Research، بر این باور است که «توسعه و انتشار ابزارهای مبتنی‌بر هوش مصنوعی چندوجهی مانند Sora مشاغل صداپیشگان و هنرمندانی که با ساخت ویدیوهای کوتاه و انتشار آن در شبکه‌های اجتماعی درآمدزایی می‌کنند را به خطر می‌اندازد. با بهبود کیفیت این مدل‌ها، در آینده‌ای نه‌چندان دور، دیگر کسی برای ساخت تیزرهای تبلیغاتی سراغ بازیگران واقعی نمی‌رود و به احتمال زیاد، استفاده از کاراکترهای خلق‌شده توسط هوش مصنوعی به امری عادی تبدیل خواهد شد.»

کپی لینک

نبود شفافیت

یکی از چالش‌ها و نگرانی‌های همیشگی مدل‌های مبتنی‌بر هوش مصنوعی مولد، داده‌هایی است که برای آموزش آن‌ها به کار رفته است. اد نیوتن رکس، مدیرعامل مؤسسه‌ی هوش مصنوعی Fairly Trained در این رابطه می‌گوید:

شما هرگز نمی‌توانید ثابت کنید که این مدل‌ها در حال رقابت با داده‌های آموزشی و هنرمندان خالق آن آثار نیستند. آیا مشخص است که این مدل‌ها با استفاده از چه داده‌هایی آموزش دیده‌اند؟ آیا هنرمندانی که آثار آن‌ها برای آموزش مدل هوش مصنوعی استفاده شده، راضی به استفاده از اثرشان در نتیجه‌ی نهایی مدل هستند؟ به‌هرحال ممانعت OpenAI از انتشار جزئیات و اطلاعات کامل در این زمینه، دامنه‌ی نگرانی‌ها را گسترده‌تر می‌کند.

کپی لینک

قابل‌ پیش‌بینی‌ نبودن نحوه‌ی استفاده از Sora

یکی از ویژگی‌های Sora که احتمال انتشار آن در آینده‌ی نزدیک بسیار پایین است، امکان تولید ویدیو با استفاده از تصاویر ثابت یا دنباله‌ای از تصاویر است. بروکس می‌گوید: «این ویژگی هیجان‌انگیز Sora نحوه‌ی داستان‌سرایی را تا حد زیادی دگرگون می‌کند. شما می‌توانید تصویری که در ذهن‌تان دارید را در اختیار هوش مصنوعی قرار دهید و از آن بخواهید تصاویر مورد نظر شما را متحرک کند. OpenAI نسبت به پتانسیل‌های تولید دیپ‌فیک و خلق محتوای ناسالم به کمک Sora آگاهی کامل دارد و ما باید وسواس و دقت زیادی روی امنیت این مدل داشته باشیم.»

کپی لینک

جمع‌بندی: سورا، شگفت‌انگیز یا خطرناک؟

با وجود نگرانی‌ها و چالش‌ها، ابزارهایی مانند DALL-E، میدجرنی و سایر مدل‌های هوش مصنوعی مولد در طول یکی دو سال گذشته بسیار پیشرفته‌تر شده‌اند و این روزها تشخیص تصویر تولیدشده توسط هوش مصنوعی از عکس واقعی بسیار دشوار است. یکی از پیامدهای منفی این موضوع، گسترش اخبار نادرست و محتوای گمراه‌کننده در اینترنت است.

علاوه‌براین، با ظهور ابزارهای مبتنی‌بر هوش مصنوعی، طیف وسیعی از هنرمندان و متخصصان شغل خود را از دست دادند. به قولِ رید سوتن، هنرمند آمریکایی، «پارسال همه‌ی ما به میدجرنی می‌خندیدیم و حالا هنرمندان در حال واگذاری شغل خود به میدجرنی هستند.»

از سوی دیگر، فیلم‌سازان و توسعه‌دهندگان جامعه‌ی هوش مصنوعی، Sora را جهش بزرگی رو به جلو و گامی مهم برای هوش مصنوعی مولد می‌دانند که قادر به انجام کارهایی است که زمانی به عنوان احتمالات بعید تلقی می شد. اوپن‌ای‌آی می‌گوید Sora را در اختیار برخی هنرمندان تجسمی، طراحان و فیلمسازان قرار داده تا تمام راه‌هایی را که ممکن است از این ابزار سوءاستفاده شود، بررسی کنند.

البته سورا هنوز کاستی‌های آشکاری دارد. مثلاً اینکه هیچ دیالوگی در این ویدیوها وجود ندارد، چون هوش مصنوعی هنوز نمی‌تواند حرکت دهان فرد را به‌درستی پیاده‌سازی کند. بااینکه سورا می‌تواند کلیپ‌های یک‌دقیقه‌ای شگفت‌انگیزی بسازد، به این معنی نیست که می‌تواند از پس تولید یک فیلم بلند و منسجم برآید.

پال تریلو، فیلم‌ساز آمریکایی می‌گوید: «دیدگاه بسیار خوشبینانه‌ی من درباره‌ی Sora این است که افراد فعال در حوزه‌ی فیلم‌سازی همان حقوق فعلی خود را دریافت خواهند کرد، اما دیگر لازم نیست زندگی را فدای کارشان کنند.»

مقاله رو دوست داشتی؟

نظرت چیه؟

امیرحسین دباغی

هیاهوی هوش مصنوعی مولد ویدیو Sora؛ کابوس صنعت فیلم‌سازی؟

ویدیوهای خلق‌شده توسط Sora

موتور مولد ویدیوی Sora چگونه کار می‌کند؟

مرحله‌ی اول: فشرده‌سازی ویدیو

مرحله‌ی دوم: استخراج تکه‌های کوچک ویدیو موسوم به Patch

مرحله‌ی سوم: بهره‌گیری از قدرت بی‌حدومرز شبکه عصبی ترنسفورمر

مرحله‌ی چهارم: مدت‌زمان، ابعاد و وضوح متغیر

مرحله‌ی پنجم: درک زبان انسان

محدودیت‌ها و نگرانی‌های جدی در مورد Sora

انتشار اخبار نادرست و ویدیوهای گمراه‌کننده

کپی‌رایت و حریم شخصی

نبود شفافیت

قابل‌ پیش‌بینی‌ نبودن نحوه‌ی استفاده از Sora

جمع‌بندی: سورا، شگفت‌انگیز یا خطرناک؟

نظرات