طرح هوش مصنوعی از ربات نشسته در سالن سینما

پایان سینما؟ هوش مصنوعی گوگل با ۱٫۵ دلار فیلمی می‌سازد که با واقعیت مو نمی‌زند!

شنبه 17 خرداد 1404

مطالعه 13 دقیقه

آیا روزی می‌رسد که فقط با چند کلیک و ۱٫۵ دلار، هر کسی فیلم‌ساز شود؟ گوگل با مدل هوش مصنوعی Veo 3 می‌گوید: بله، همین حالا!

تبلیغات

تصور کنید در سالن سینما نشسته‌اید و غرق در داستانی نفس‌گیر شده‌اید، اما لحظه‌ای بعد متوجه می‌شوید که هیچ بازیگری جلوی دوربین نرفته است، هیچ صحنه‌ای واقعی نیست و حتی موسیقی فیلم نیز از صفر و یک‌های مدار یک هوش مصنوعی سرچشمه می‌گیرد. چه حسی پیدا می‌کنید اگر بگویم تا تجربه‌ی این سناریو در دنیای واقعی چیزی نمانده است؟

این روزها هوش مصنوعی با سرعت سرسام‌آوری در حال خلق ویدئوهایی است که مرز میان واقعیت و تخیل را محو می‌کنند. فناوری امروز، از ابزارهای پیشرفته‌ای مثل Veo 3 گوگل گرفته تا استارتاپ‌های نوآور، تصاویری می‌سازد که تشخیص آن‌ها از آثار انسانی تقریباً غیرممکن شده است.

کپی لینک

خلاصه پادکستی مقاله

ساخته‌شده با هوش مصنوعی

شگفتی بزرگ این چند وقت اخیر، یک سؤال نگران‌کننده به همراه دارد: آیا سینمای سنتی، با تمام شکوه و تاریخچه‌اش، در برابر این موج دیجیتال دوام می‌آورد؟ در این مقاله، نگاهی به توانایی‌های خیره‌کننده‌ی مولد ویدیو مبتنی‌بر هوش مصنوعی و تأثیر این تکنولوژی بر صنعت فیلم‌سازی و آینده‌ی مبهم سینما می‌اندازیم.

آیا هنر هفتم در برابر هوش مصنوعی تسلیم می‌شود یا این فقط آغاز یک انقلاب خلاقانه است؟

جادوی هوش مصنوعی در ساخت ویدیو؛ Veo 3 چیست؟

هوش مصنوعی Veo چگونه کار می‌کند؟

ویدیوهای ساخته‌شده با Veo 3

ساخت آهنگ با Veo 3

عملکرد Veo 3 دربرابر سایر مدل‌ها

تکینگی فرهنگی در راه است

کپی لینک

جادوی هوش مصنوعی در ساخت ویدیو؛ Veo 3 چیست؟

اواسط ماه می ۲۰۲۵ (اوایل خرداد ۱۴۰۴)، گوگل از مدل جدید تولید ویدئوی خود به‌نام Veo 3 رونمایی کرد. این مدل می‌تواند کلیپ‌های ۸ ثانیه‌ای با گفتگو و جلوه‌های همگام‌شده‌ی صوتی ایجاد کند. چنین قابلیتی برای نخستین بار در ابزارهای هوش مصنوعی این شرکت دیده می‌شود.

گوگل، بسته‌ کاملی از سرویس‌های فیلم‌نامه‌نویسی، تولید ویدئو، صداگذاری و تدوین، در اختیار مشترکانش قرار داده است

مدل جدید Veo ویدئوها را با وضوح ۷۲۰p و بر اساس توضیحات متنی (پرامپت) یا تصاویر ثابت تولید می‌کند. این مدل اکنون توانمندترین ابزار تولید ویدئو برای مخاطبان است. این فناوری، سنتز ویدئو را به نقطه‌ای می‌رساند که تشخیص تفاوت بین محتوای اصیل و محتوای تولیدشده توسط هوش مصنوعی، بسیار دشوار خواهد شد.

گوگل همزمان با رونمایی از مدل Veo 3، ابزار آنلاین فیلم‌سازی مبتنی بر هوش مصنوعی خود را به نام «فلو» (Flow) منتشر کرد. این ابزار، Veo 3 را با تولیدکننده‌ی تصویر Imagen 4 و مدل زبانی جمنای ترکیب می‌کند. فلو، به سازندگان محتوا این امکان را می‌دهد تا صحنه‌ها را به زبان طبیعی توصیف کنند و شخصیت‌ها، موقعیت‌ها و سبک‌های بصری را در یک رابط وب مدیریت نمایند.

هر دو ابزار، هم‌اکنون برای مشترکان سرویس AI Ultra در ایالات متحده با هزینه‌ی اشتراک ماهانه‌ی ۲۵۰ دلار در دسترس است و همراه با ۱۲,۵۰۰ واحد اعتبار ارائه می‌شود. هر ویدئوی ساخته‌شده با Veo 3 معادل ۱۵۰ واحد اعتبار هزینه دارد، که با اشتراک مذکور امکان تولید حدود ۸۳ ویدئو فراهم می‌شود.

البته برای کاربران علاقه‌مند، اعتبار اضافی به قیمت هر واحد ۱ سنت در بسته‌های ۲۵، ۵۰ یا ۲۰۰ دلاری قابل خریداری است. این یعنی هزینه‌ی تولید تقریباً هر ویدئو، حدود ۱٫۵ دلار تمام می‌شود. اما آیا این قیمت توجیه‌ اقتصادی دارد؟

کپی لینک

هوش مصنوعی Veo چگونه کار می‌کند؟

مانند سایر مدل‌های مدرن تولید ویدئو، Veo 3 بر پایه‌ی فناوری انتشار (Diffusion) قرار دارد؛ همان رویکردی که به تولیدکنندگان تصویر مانند استیبل دیفیوژن (Stable Diffusion) و فلوکس (Flux) قدرت می‌دهد. به بیان ساده، این فرآیند شبیه به این است که یک نقاش ابتدا بوم را با رنگ‌های تصادفی پر کند و سپس به تدریج جزئیات را اضافه کند تا تصویر نهایی شکل بگیرد.

هوش مصنوعی به زبان آدمیزاد؛ راهنمای جامع برای مبتدیان

مطالعه '41

11 فروردین 05

تکنولوژی Dall-E ؛ هیاهوی این‌ روزهای شبکه‌های اجتماعی [به همراه ویدئو]

مطالعه '15

26 خرداد 01

هسته‌ی اصلی Veo 3، سیستمی متشکل از مجموعه‌ای از مدل‌های هوش مصنوعی است. این مجموعه، شامل یک مدل زبانی بزرگ (LLM) برای تفسیر پرامپت‌های کاربر، یک مدل انتشاری برای خلق ویدئو، و یک مدل تولید صدا برای افزودن صوت به ویدئو می‌شود.

طی فرآیند آموزش اولیه‌ی مدل، در طی مراحلی به ویدئوهای واقعی نویز اضافه می‌شود تا درنهایت به حالت ایستای محض برسند؛ حالتی شبیه به تصویر برفکی تلویزیون. سپس به یک شبکه‌ی عصبی آموزش داده می‌شود تا این فرآیند را گام به گام معکوس کند.

در هنگام استفاده از این مدل، Veo 3 با یک پرامپت متنی شروع به ساخت ویديو در حالت نویز تصادفی (تصویر برفکی) می‌کند و سپس به صورت تکراری نویز را به یک ویدئو منسجم که با توصیف ارائه‌شده مطابقت داشته باشد، پالایش می‌کند.

بااین‌که توسعه‌دهندگان Veo، یا همان تیم دیپ‌مایند توضیح مشخصی در مورد ویديوهای اولیه برای آموزش Veo 3 نداده‌اند، نام یوتیوب به‌عنوان یک احتمال قوی مطرح است. گوگل، مالک یوتیوب است و دیپ‌مایند پیشتر در مصاحبه‌ای با تک‌کرانچ گفته بود که مدل‌هایی مانند Veo می‌توانند با بخشی از مطالب یوتیوب آموزش دیده باشند.

دیپ‌مایند در تلاش برای جلوگیری از سوءاستفاده اعلام کرده است که از فناوری واترمارکینگ اختصاصی خود به نام «سینت‌آیدی» (SynthID) استفاده می‌کند تا نشانگرهای نامرئی را در فریم‌های تولید شده Veo 3 جاسازی کند. این واترمارک‌ها، حتی در صورت فشرده‌سازی یا ویرایش ویدئوها نیز باقی می‌مانند تا محتوای تولیدشده توسط هوش مصنوعی را قابل شناسایی کنند.

گوگل همچنین برخی پرامپت‌ها و خروجی‌هایی را که موافقتنامه‌ی محتوای شرکت را نقض می‌کنند، سانسور می‌کند. این سانسور در قالب پیام‌های «خرابی در تولید» به کاربر نمایش داده می‌شوند که شامل طیف وسیعی از مطالب عاشقانه، برخی مصادیق خشونت، اشاره به برخی دارایی‌های دارای حق کپی‌رایت، نام برخی شرکت‌ها، افراد مشهور خاص و برخی رویدادهای تاریخی بودند.

کپی لینک

ویدیوهای ساخته‌شده با Veo 3

شاید بزرگترین تغییر در Veo 3، تولید صدای یکپارچه باشد. شرکت متا (Meta) نیز قابلیت مشابه تولید صدا را با ابزار «مووی‌جن» (Movie Gen) در اکتبر سال ۲۰۲۴ رونمایی کرد تا محققان هوش مصنوعی امکان بیشتری در توسعه و استفاده از هوش مصنوعی را برای افزودن موسیقی به ویدئوهای صامت، آزمایش کنند. البته گوگل دیپ‌مایند نیز در ژوئن ۲۰۲۴، از یک مدل تولیدکننده‌ی موسیقی متن هوش مصنوعی رونمایی کرد. اما ایجاد بسته کاملی از صدا، در سطحی که در Veo 3 به چشم می‌خورد، سابقه نداشته است.

هر یک از ویدئوهای ۸ ثانیه‌ای ۷۲۰p که در ادامه‌ی مقاله مشاهده می‌کنید، با استفاده از پلتفرم فلو گوگل تولید شده است و بین سه تا پنج دقیقه زمان می‌برد. البته نتایج بهتر، نیاز به انتخاب گزینشی دارد؛ یعنی اجرای مکرر پرامپت یکسان تا رسیدن به نتیجه‌ی مطلوب.

پرامپت: یک مرد بربر عضلانی که تبری در دست دارد، کنار یک تلویزیون قدیمی ایستاده است. او به تلویزیون نگاه می‌کند، سپس به دوربین نگاه کرده و صریحاً می‌گوید: «سال‌هاست دنبال این می‌گردی: یک بربر عضلانی با سلاح در کنار یک تلویزیون CRT، سینمایی، 8K، نورپردازی استودیویی. درکش کردی؟»

پخش از رسانه

این ویدئو، پیشرفت فنی شگفت‌انگیز هوش مصنوعی در تولید محتوای رسانه‌ای را تنها در سه سال گذشته به نمایش می‌گذارد. این فناوری از تولید تصاویر ثابت و تار، به نقطه‌ای رسیده است که مدل جدید گوگلمی‌تواند ویدئویی از یک انسان کاملاً واقع‌گرایانه با وضوح بالا و صدای طبیعی خود او تولید کند.

مهم‌تر از آن، هیچ دلیلی وجود ندارد که باور کنیم سرعت این پیشرفت فنی از این پس کاهش خواهد یافت. این نمونه به‌خوبی توانایی مدل Veo را در خلق شخصیت‌های منحصر به فرد همراه با دیالوگ‌های واضح و روان نشان می‌دهد.

پرامپت: فیلم ترسناک: یک زن وحشت‌زده با لباس ویکتوریایی در حال دویدن در جنگل، حرکت پیوسته‌ی دوربین (Dolly shot)، که توسط مردی با لباس بادام زمینی تعقیب می‌شود و فریاد می‌زند: «صبر کن! کیف پولتو فراموش کردی!»

پخش از رسانه

‌پرامپت: تریلر فیلم «بسکتبال در قطار تسخیرشده»: یک فیلم در سبک تیم برتون که در آن ستاره‌ی بسکتبال دهه‌ی ۱۹۹۰ در انتهای یک قطار مسافربری تسخیر شده با واگن‌هایی دارای زمین بسکتبال، گیر افتاده است و تنها راه نجات، رسیدن به لوکوموتیو، با شکست دادن ارواح مختلف در بازی بسکتبال در هر واگن است.

پخش از رسانه

پرامپت: برنامه‌ی شبکه‌ی PBS با حال‌وهوای دهه‌ی ۱۹۸۰ درباره‌ی مردی ریشو که در مورد کامپیوتر اپل ۲ می‌گوید: «می‌توانیم از طریق مجموعه‌ای از لوله‌ها به دنیا متصل شویم».

پخش از رسانه

پرامپت: یک خانم پزشک که به دوربین، مانند تماسی در زوم، نگاه می‌کند. او می‌گوید: «خدای من، اون آتاری ۸۰۰ پشت سرت رو نگاه کن! باورم نمیشه چقدر قشنگه!»

پخش از رسانه

با این فناوری، به‌راحتی می‌توان دنیایی مجازی از شخصیت‌های هوش مصنوعی را تصور کرد که برای تبلیغ محصول، ایده، یا سرگرمی تهیه شده‌اند. در ابتدا، این مدل، بی‌ضرر به‌نظر می‌رسد. مثلاً ویدئوی مربوط به کامپیوتر قدیمی، نمونه‌ای نسبتاً بی‌ضرر است. اما همین مدل با دور زدن سانسور، می‌تواند ویدئوهایی تولید کند که فردی جعلی درباره‌ی هر موضوعی صحبت کند. با توجه به تجربیات گذشته، ایجاد یک نسخه‌ی بدون سانسور از یک مدل ویدئویی هوش مصنوعی در آینده، دور از ذهن نخواهد بود.

پرامپت: تصویر تماس ویدئویی از یک چت زوم. یک روانشناس در مطب تاریک و دنج. درمانگر با صدایی دوستانه می‌گوید: «سلام تام، ممنون که تماس گرفتی. بگو امروز چه حسی داری؟ آیا افسردگی هنوز اذیتت می‌کند؟ بیا رویش کار کنیم.»

پخش از رسانه

پرامپت: فیلم قدیمی ناسا از دهه‌ی ۱۹۶۰ از لحظه‌ی قدم گذاشتن اولین انسان بر سطح ماه، که ناگهان در گِل فرو می‌رود و با لهجه‌ی روستایی فریاد می‌زند: «چه خبره اینجا؟»

پخش از رسانه

پرامپت: مصاحبه‌ی خبری شبکه‌ی تلویزیونی محلی با یک بربر عضلانی که درباره‌ی دلیل همیشه همراه داشتن یک تلویزیون قدیمی صحبت می‌کند.

پخش از رسانه

در تولید ویدئوهای خبری، مدل Veo 3 می‌تواند گوینده‌های متعددی را در نقش مجری خبر و مهمان به تصویر درآورد. اما اگر متن مجری را دقیقاً مشخص نکنید، صدایی مخدوش و نامفهوم تولید می‌شود. در چنین مواردی به نظر می‌رسد Veo 3 ممکن است بیشترین توانایی را برای فریب رسانه‌ای داشته باشد. مثلاً می‌توان با چند خط متن، ویدئویی ساخت که یک سیاستمدار جعلی سخنرانی کند و مخاطب را گمراه کند.

پرامپت: متن اصلی تصویر - فیلمی از یک گزارش خبری درباره‌ حمله‌ی روسیه به ایالات متحده

پخش از رسانه

کپی لینک

ساخت آهنگ با Veo 3

مولد صوتی هوش مصنوعی Veo 3 توانایی ساخت موسیقی را در ژانرهای مختلف دارد، هرچند در عمل، نتایج معمولاً ساده و ابتدایی هستند. بااین‌حال، قابلیت جدید برای تولیدکنندگان ویدئوی هوش مصنوعی، امتیازی بزرگ محسوب می‌شود. در اینجا چند نمونه در ژانرهای موسیقی مختلف آورده شده است.

پرامپت: برنامه‌ی شبکه‌ی PBS از یک بربر سرخوش با موهای آفروی بلوند که در حال نقاشی تصاویری از درختان است و همزمان با نقاشی، متن «درختان بزرگ شاد» را با همراهی موسیقی می‌خواند.

پخش از رسانه

پرامپت: یک کابوی دهه‌ی ۱۹۵۰ به سمت دوربین می‌آید و با سبک موسیقی کانتری آواز می‌خواند: «من الاغ بزرگ و پیرم رو دوست دارم.»

پخش از رسانه

پرامپت: یک گروه هوی متال دهه‌ی ۱۹۸۰ با موهای بلند به سمت دوربین می‌آیند و با سبک موسیقی راک آواز می‌خوانند: «کمکم کن با موهای خیلی خیلی خیلی حجیمم!»

پخش از رسانه

پرامپت: یک گروه موسیقی جاز دهه‌ی ۱۹۵۰ با یک خواننده‌ی اسکَت که در میان کلمات نامفهوم، درباره‌ی خیارشور آواز می‌خواند.

پخش از رسانه

پرامپت: یک ترانه‌ی رپ تریپ-هاپ درباره‌ی مجله‌ی آرس تکنیکا که توسط فردی در یک لباس بزرگ کوسه‌ی لاستیکی روی صحنه و در پس‌زمینه‌ی یک ماه کامل، خوانده می‌شود.

پخش از رسانه

کپی لینک

عملکرد Veo 3 دربرابر سایر مدل‌ها

پرامپت‌های زیر بر روی مدل‌های Gen-3 و Minimax نیز آزمایش شده‌اند. به طور کلی، به نظر می‌رسد Veo 3 از انسجام زمانی بسیار بیشتری در حفظ موضوع یا درونمایه‌ی ثابت در طول زمان، نسبت به سایر مدل‌های تولید ویدئو، برخوردار است. البته این فناوری بی‌عیب و نقص نیست.

پرامپت: یک فرد بسیار باهوش که مشغول خواندن مجله‌ی آنلاین روی کامپیوترش است و ناگهان صفحه‌ی نمایش منفجر می‌شود.

(نمای راست: ویدئوی تولید شده‌ی Veo 3 و در چپ: خروجی مدل چینی Minimax؛ صدایی که می‌شنوید، حاصل از مدل Veo 3 است زیرا Minimax صدایی تولید نمی‌کند.)

پخش از رسانه

پرامپت: کوسه‌ای که از صفحه‌ی نمایش کامپیوتر بیرون می‌پرد و به یک فرد حمله می‌کند.

(نمای راست: ویدئوی تولید شده‌ی Veo 3 و در چپ: خروجی Runway Gen3 Alpha؛ صدایی که می‌شنوید، حاصل از مدل Veo 3 است زیرا Gen3 صدایی تولید نمی‌کند.)

پخش از رسانه

پرامپت: نمایی هوایی از یک گله‌ی متشکل از یک میلیون گربه که در حال دویدن روی تپه هستند.

(نمای راست: ویدئوی تولید شده‌ی Veo 3 و در چپ، خروجی Runway Gen3 Alpha؛ صدایی که می‌شنوید، حاصل از مدل Veo 3 است زیرا Gen3 صدایی تولید نمی‌کند.)

پخش از رسانه

پرامپت: فیلمی از یک بازی ویدئویی پویا از سبک پلتفرم سه‌بعدی سوم شخص دهه‌ی ۱۹۹۰‌ با بازی یک پسر کوسه انسان‌نما.

(نمای راست: ویدئوی تولید شده‌ی Veo 3 و در چپ: خروجی Minimax صدایی که می‌شنوید، حاصل از مدل Veo 3 است زیرا Minimax صدایی تولید نمی‌کند.)

پخش از رسانه

پرامپت: نمایی هوایی از یک شهرک کوچک آمریکایی که پس از طوفان عظیم پنیر، غرق در پنیر مایع شده است؛ جایی که پنیر مایع بارید و همه‌جا روی ساختمان‌ها ریخت.

پخش از رسانه

باوجود مشاهده‌ی نقص‌های کوچک، Veo 3 قادر است تقریبا هرچیزی را، از صداهای ترافیک گرفته تا موسیقی و دیالوگ شخصیت‌ها، تولید کند. به‌عنوان مثال، هنگام خوردن اسپاگتی، همچنان صدای خردشدن شنیده می‌شود، یا در صحنه‌هایی با چندین نفر، گاهی دیالوگ از دهان شخصیتی اشتباه خارج می‌شود. اما در کل، Veo 3 نسبت به مدل‌های شرکت‌هایی مانند اوپن‌ای‌آی (OpenAI)، ران‌وی (Runway)، مینیمکس (Minimax)، پیکا (Pika)، متا (Meta)، کلینگ (Kling) و هونیوان‌ویدئو (Hunyuanvideo)، گامی رو به جلو در کیفیت و انسجام ایجاد ویدئو محسوب می‌شود.

به‌دلیل محدودیت‌های داده‌های آموزشی، گوگل Veo 3 در تولید ویدئو برای هر سناریو، بی‌نقص عمل نمی‌کند. درست مانند نمونه‌های هوش مصنوعی تولید متن در مدل‌های زبانی بزرگ، تولیدکنندگان ویدئوی هوش مصنوعی، اساساً تقلیدگر باقی می‌مانند. به این معنا که براساس الگوهای آماری پیش‌بینی می‌کنند، نه درک واقعی از فیزیک.

به عنوان مثال، اگر حرکت دهان حین صحبت کردن یا چین‌خوردگی خاص لباس هنگام لمس شدن را مشاهده می‌کنید، این معنی را می‌دهد که شبکه‌ی عصبی مسئول تولید ویدئو، نمونه‌های کافی از آن سناریو را در داده‌های آموزشی دیده است تا بتواند نسخه‌ی متقاعدکننده‌ای ارائه دهد و آن را در موقعیت‌های مشابه اعمال کند.

پخش از رسانه

البته هنوز زیرنویس‌های تولیدشده در ویدئوها، معمولاً تحریف‌شده و تقریباً منطبق با کلمات گفتاری هستند. این امر ناشی از تقلید مدل هوش مصنوعی از زیرنویس‌های موجود در ویدئوها در داده‌های آموزشی است. در کلیپ زیر، به محتوا و زمان نشان دادن زیرنویس‌ها دقت کنید.

پخش از رسانه

اغلب مواقع، هنگامی که یک موقعیت نوظهور (یا ترکیبی از مضامین) به‌خوبی در داده‌های آموزشی دیده نشده باشند، شاهد وقوع امور «غیرممکن» یا غیرمنطقی خواهید بود؛ مانند اندام‌های عجیب، لباس‌هایی که به‌طور جادویی ظاهر می‌شوند، یا شیئی که خُرد می‌شود، اما پس از آن در صحنه باقی می‌ماند!

پخش از رسانه

به‌طور خاص، در صحنه‌هایی که چندین نفر همزمان صحبت می‌کنند، مدل تولید ویدئو گاهی در تشخیص اینکه کدام شخصیت در حال صحبت است، دچار سردرگمی می‌شود؛ مانند آنچه در این مناظره میان طرفداران فناوری مشاهده می‌کنیم:

پرامپت: مناظره‌ی تلویزیونی دهه‌ی ۲۰۰۰ بین هواداران تراشه‌های PowerPC و پنتیوم

پخش از رسانه

پرامپت: تبلیغات پرهیاهوی دهه‌ی ۱۹۸۰ برای سرویس آنلاین «آرس تکنیکا» با موسیقی پس‌زمینه‌ی کلیشه‌ای

پخش از رسانه

پرامپت: فیلم رامبو در حال جنگ با سربازان شوروی روی کره‌ی ماه با حال و هوای دهه‌ی ۱۹۸۰

پخش از رسانه

گاهی درخواست‌ها به‌طور منسجم، معنا ندارند. در این مورد، رامبو به‌درستی روی ماه در حال شلیک اسلحه است، اما لباس فضایی به تن ندارد. البته شاید او بسیار سرسخت‌تر از چیزی باشد که سال‌ها به‌نظر می‌رسید!

پرامپت: ویدئوی سبک یوتیوب «آزمون پوشیدن» از شخصی که لباسی ذرتی را امتحان می‌کند.

پخش از رسانه

پرامپت: اینفوگرافیک متحرک در نشان دادن تعداد فلاپی‌دیسک‌های مورد نیاز برای نصب ویندوز ۱۱

پخش از رسانه

متن طولانی نیز نقطه‌ی ضعف در پرامپت‌نویسی محسوب می‌شود، اما اگر نقل قول متنی کوتاهی صراحتاً در پرامپت مشخص شده باشد، معمولاً Veo 3 آن‌ها را به‌درستی اجرا می‌کند.

ساخت محتوا در شمارش با انگشتان برای Veo 3 دشوار است، احتمالاً به این دلیل که به‌خوبی در داده‌های آموزش نمونه‌ی مشخصی ندارد. در عوض، دست‌ها معمولاً احتمالاً در چند حالت محدود مانند مشت، کف دست باز با پنج انگشت، علامت صلح با دو انگشت و عدد یک نشان داده می‌شوند.

پرامپت: مردی با لباس فضایی که پنج انگشت خود را بالا می‌گیرد و تا صفر شمارش می‌شمارد، سپس با چکمه‌های موشکی به فضا پرتاب می‌شود.

پخش از رسانه

با ظهور معماری‌های جدید و آموزش مدل‌های آینده با مجموعه‌ی داده‌های بسیار بزرگ‌تر و قدرت محاسباتی عظیم، این سیستم‌ها احتمالاً ارتباطات آماری عمیق‌تری بین مفاهیمی که در ویدئوها مشاهده می‌کنند، ایجاد خواهند کرد. نتیجه‌ی این آموزش، خود را به‌طور چشمگیری در کیفیت و همچنین توانایی تعمیم بیشتر به پرامپت‌های نوظهور، نشان خواهد داد.

کپی لینک

تکینگی فرهنگی در راه است

حتی با وجود خطاهای مدل‌های کنونی، نگرانی عمیقی از خطرات مولد‌های ویدیو در میان کاربران شکل گرفته است. بسیاری معتقدند که به دلیل پتانسیل فریبندگی این فناوری، دنیا در آستانه‌ی یک چالش بزرگ قرار دارد. البته دلیل خوبی هم برای این نگرانی وجود دارد، چراکه شبکه‌های اجتماعی در حال حاضر به شدت متکی به کلیپ‌هایی است که توسط کاربران به اشتراک گذاشته می‌شوند.

به‌لطف پیشرفت هوش مصنوعی، اکنون می‌توان بخش بزرگی از این کلیپ‌ها را به راحتی و به‌طور کامل جعل کرد. با استفاده از این تکنولوژی، می‌توان نسخه‌های دیجیتالی و جعلی از افراد ساخت که با استدلال‌های ایدئولوژیک، افکار عمومی را دستکاری کرده و به طور گسترده منتشر شوند.

ویدئوهای جعلی قبل از Veo 3 نیز از طریق روش‌های مختلف قابل تولید بودند که اغلب نیاز به دانش تخصصی، سخت‌افزارهای قوی و نرم‌افزارهای خاص داشت. اما اکنون هر کاربری، بی‌نیاز از مهارت‌های برنامه‌نویسی، نرم‌افزار گران‌قیمت و ساعت‌ها کار طاقت‌فرسا، به سادگی و با تایپ یک پرامپت و سه دقیقه انتظار، به محتوای ذهنی‌اش دست می‌یابد.

رسانه‌های تکنولوژی حداقل از سال ۲۰۱۹، درباره‌ی پتانسیل فریبنده‌ی محتوای هوش مصنوعی واقع‌گرایانه، هشدار داده‌اند. همچنین، درباره‌ی توانایی آینده‌ی افراد برای آلوده کردن سابقه‌ی تاریخی با اطلاعات نادرست تولیدشده توسط هوش مصنوعی نیز بارها بحث‌هایی مطرح شده است.

در اغلب تحلیل‌ها، از اصطلاح «تکینگی فرهنگی» برای نشان دادن زمانی استفاده می‌شود که حقیقت و داستان در رسانه، غیرقابل تشخیص می‌شود. البته تکینگی فرهنگی نه تنها به ماهیت فریبنده‌ی محتوای تولیدشده، بلکه به حجم عظیم رسانه‌هایی بستگی دارد که با هوش مصنوعی، تولید می‌شوند.

به‌زودی سوال درباره‌‌ی اعتبار منبع از واقعی‌بودن محتوا مهم‌تر می‌شود

بااین‌حال، نگرانی‌‌ها در مورد تکینگی فرهنگی می‌تواند تا حدی هم اغراق‌آمیز باشد، چراکه رسانه از دوران باستان همواره در برابر جعل آسیب‌پذیر بوده است؛ اعتماد به هر ارتباط دوری درنهایت به اعتماد به منبع آن بستگی دارد.

رومیان ۸۰ سال قبل از میلاد مسیح، قوانینی علیه جعل داشتند و مردم از زمان اختراع عکاسی، عکس‌ها را دستکاری کرده‌اند. آنچه امروز تغییر کرده است، امکان فریب نیست، بلکه در دسترسی و مقیاس آن خلاصه می‌شود. با توانایی مدل Veo 3 در تولید ویدئوهای متقاعدکننده با دیالوگ و جلوه‌های صوتی همگام، شاهد تولد فریب رسانه‌ای نیستیم، بلکه شاهد همگانی شدن آن هستیم. آنچه زمانی در هالیوود میلیون‌ها دلار برای جلوه‌های ویژه هزینه داشت، اکنون با پول خرد انجام می‌شود.

همزمان با قدرتمندتر و مقرون‌به‌صرفه‌تر شدن این ابزارها، بدبینی نسبت به رسانه‌ها افزایش خواهد یافت. اما سوال این نیست که آیا می‌توانیم به آنچه می‌بینیم و می‌شنویم، اعتماد کنیم؛ بلکه سوال این است که آیا می‌توانیم به کسی که آن را به ما نشان می‌دهد، اعتماد کنیم؟ در عصری که هر کسی می‌تواند تنها با ۱٫۵ دلار، یک ویدئوی واقع‌گرا از هر چیزی تولید کند، اعتبار منبع خبر به نقطه‌ی اتکای اصلی برای دریافت حقیقت تبدیل می‌شود.

مقاله رو دوست داشتی؟

نظرت چیه؟

هوشیار ذوالفقارنسب

پایان سینما؟ هوش مصنوعی گوگل با ۱٫۵ دلار فیلمی می‌سازد که با واقعیت مو نمی‌زند!

خلاصه پادکستی مقاله

جادوی هوش مصنوعی در ساخت ویدیو؛ Veo 3 چیست؟

هوش مصنوعی Veo چگونه کار می‌کند؟

ویدیوهای ساخته‌شده با Veo 3

ساخت آهنگ با Veo 3

عملکرد Veo 3 دربرابر سایر مدل‌ها

تکینگی فرهنگی در راه است

نظرات