پایان سینما؟ هوش مصنوعی گوگل با ۱٫۵ دلار فیلمی میسازد که با واقعیت مو نمیزند!
تصور کنید در سالن سینما نشستهاید و غرق در داستانی نفسگیر شدهاید، اما لحظهای بعد متوجه میشوید که هیچ بازیگری جلوی دوربین نرفته است، هیچ صحنهای واقعی نیست و حتی موسیقی فیلم نیز از صفر و یکهای مدار یک هوش مصنوعی سرچشمه میگیرد. چه حسی پیدا میکنید اگر بگویم تا تجربهی این سناریو در دنیای واقعی چیزی نمانده است؟
این روزها هوش مصنوعی با سرعت سرسامآوری در حال خلق ویدئوهایی است که مرز میان واقعیت و تخیل را محو میکنند. فناوری امروز، از ابزارهای پیشرفتهای مثل Veo 3 گوگل گرفته تا استارتاپهای نوآور، تصاویری میسازد که تشخیص آنها از آثار انسانی تقریباً غیرممکن شده است.
خلاصه پادکستی مقاله
ساختهشده با هوش مصنوعی
شگفتی بزرگ این چند وقت اخیر، یک سؤال نگرانکننده به همراه دارد: آیا سینمای سنتی، با تمام شکوه و تاریخچهاش، در برابر این موج دیجیتال دوام میآورد؟ در این مقاله، نگاهی به تواناییهای خیرهکنندهی مولد ویدیو مبتنیبر هوش مصنوعی و تأثیر این تکنولوژی بر صنعت فیلمسازی و آیندهی مبهم سینما میاندازیم.
آیا هنر هفتم در برابر هوش مصنوعی تسلیم میشود یا این فقط آغاز یک انقلاب خلاقانه است؟
جادوی هوش مصنوعی در ساخت ویدیو؛ Veo 3 چیست؟
اواسط ماه می ۲۰۲۵ (اوایل خرداد ۱۴۰۴)، گوگل از مدل جدید تولید ویدئوی خود بهنام Veo 3 رونمایی کرد. این مدل میتواند کلیپهای ۸ ثانیهای با گفتگو و جلوههای همگامشدهی صوتی ایجاد کند. چنین قابلیتی برای نخستین بار در ابزارهای هوش مصنوعی این شرکت دیده میشود.
گوگل، بسته کاملی از سرویسهای فیلمنامهنویسی، تولید ویدئو، صداگذاری و تدوین، در اختیار مشترکانش قرار داده است
مدل جدید Veo ویدئوها را با وضوح ۷۲۰p و بر اساس توضیحات متنی (پرامپت) یا تصاویر ثابت تولید میکند. این مدل اکنون توانمندترین ابزار تولید ویدئو برای مخاطبان است. این فناوری، سنتز ویدئو را به نقطهای میرساند که تشخیص تفاوت بین محتوای اصیل و محتوای تولیدشده توسط هوش مصنوعی، بسیار دشوار خواهد شد.
گوگل همزمان با رونمایی از مدل Veo 3، ابزار آنلاین فیلمسازی مبتنی بر هوش مصنوعی خود را به نام «فلو» (Flow) منتشر کرد. این ابزار، Veo 3 را با تولیدکنندهی تصویر Imagen 4 و مدل زبانی جمنای ترکیب میکند. فلو، به سازندگان محتوا این امکان را میدهد تا صحنهها را به زبان طبیعی توصیف کنند و شخصیتها، موقعیتها و سبکهای بصری را در یک رابط وب مدیریت نمایند.
هر دو ابزار، هماکنون برای مشترکان سرویس AI Ultra در ایالات متحده با هزینهی اشتراک ماهانهی ۲۵۰ دلار در دسترس است و همراه با ۱۲,۵۰۰ واحد اعتبار ارائه میشود. هر ویدئوی ساختهشده با Veo 3 معادل ۱۵۰ واحد اعتبار هزینه دارد، که با اشتراک مذکور امکان تولید حدود ۸۳ ویدئو فراهم میشود.
البته برای کاربران علاقهمند، اعتبار اضافی به قیمت هر واحد ۱ سنت در بستههای ۲۵، ۵۰ یا ۲۰۰ دلاری قابل خریداری است. این یعنی هزینهی تولید تقریباً هر ویدئو، حدود ۱٫۵ دلار تمام میشود. اما آیا این قیمت توجیه اقتصادی دارد؟
هوش مصنوعی Veo چگونه کار میکند؟
مانند سایر مدلهای مدرن تولید ویدئو، Veo 3 بر پایهی فناوری انتشار (Diffusion) قرار دارد؛ همان رویکردی که به تولیدکنندگان تصویر مانند استیبل دیفیوژن (Stable Diffusion) و فلوکس (Flux) قدرت میدهد. به بیان ساده، این فرآیند شبیه به این است که یک نقاش ابتدا بوم را با رنگهای تصادفی پر کند و سپس به تدریج جزئیات را اضافه کند تا تصویر نهایی شکل بگیرد.
هستهی اصلی Veo 3، سیستمی متشکل از مجموعهای از مدلهای هوش مصنوعی است. این مجموعه، شامل یک مدل زبانی بزرگ (LLM) برای تفسیر پرامپتهای کاربر، یک مدل انتشاری برای خلق ویدئو، و یک مدل تولید صدا برای افزودن صوت به ویدئو میشود.
طی فرآیند آموزش اولیهی مدل، در طی مراحلی به ویدئوهای واقعی نویز اضافه میشود تا درنهایت به حالت ایستای محض برسند؛ حالتی شبیه به تصویر برفکی تلویزیون. سپس به یک شبکهی عصبی آموزش داده میشود تا این فرآیند را گام به گام معکوس کند.
در هنگام استفاده از این مدل، Veo 3 با یک پرامپت متنی شروع به ساخت ویديو در حالت نویز تصادفی (تصویر برفکی) میکند و سپس به صورت تکراری نویز را به یک ویدئو منسجم که با توصیف ارائهشده مطابقت داشته باشد، پالایش میکند.
بااینکه توسعهدهندگان Veo، یا همان تیم دیپمایند توضیح مشخصی در مورد ویديوهای اولیه برای آموزش Veo 3 ندادهاند، نام یوتیوب بهعنوان یک احتمال قوی مطرح است. گوگل، مالک یوتیوب است و دیپمایند پیشتر در مصاحبهای با تککرانچ گفته بود که مدلهایی مانند Veo میتوانند با بخشی از مطالب یوتیوب آموزش دیده باشند.
دیپمایند در تلاش برای جلوگیری از سوءاستفاده اعلام کرده است که از فناوری واترمارکینگ اختصاصی خود به نام «سینتآیدی» (SynthID) استفاده میکند تا نشانگرهای نامرئی را در فریمهای تولید شده Veo 3 جاسازی کند. این واترمارکها، حتی در صورت فشردهسازی یا ویرایش ویدئوها نیز باقی میمانند تا محتوای تولیدشده توسط هوش مصنوعی را قابل شناسایی کنند.
گوگل همچنین برخی پرامپتها و خروجیهایی را که موافقتنامهی محتوای شرکت را نقض میکنند، سانسور میکند. این سانسور در قالب پیامهای «خرابی در تولید» به کاربر نمایش داده میشوند که شامل طیف وسیعی از مطالب عاشقانه، برخی مصادیق خشونت، اشاره به برخی داراییهای دارای حق کپیرایت، نام برخی شرکتها، افراد مشهور خاص و برخی رویدادهای تاریخی بودند.
ویدیوهای ساختهشده با Veo 3
شاید بزرگترین تغییر در Veo 3، تولید صدای یکپارچه باشد. شرکت متا (Meta) نیز قابلیت مشابه تولید صدا را با ابزار «موویجن» (Movie Gen) در اکتبر سال ۲۰۲۴ رونمایی کرد تا محققان هوش مصنوعی امکان بیشتری در توسعه و استفاده از هوش مصنوعی را برای افزودن موسیقی به ویدئوهای صامت، آزمایش کنند. البته گوگل دیپمایند نیز در ژوئن ۲۰۲۴، از یک مدل تولیدکنندهی موسیقی متن هوش مصنوعی رونمایی کرد. اما ایجاد بسته کاملی از صدا، در سطحی که در Veo 3 به چشم میخورد، سابقه نداشته است.
هر یک از ویدئوهای ۸ ثانیهای ۷۲۰p که در ادامهی مقاله مشاهده میکنید، با استفاده از پلتفرم فلو گوگل تولید شده است و بین سه تا پنج دقیقه زمان میبرد. البته نتایج بهتر، نیاز به انتخاب گزینشی دارد؛ یعنی اجرای مکرر پرامپت یکسان تا رسیدن به نتیجهی مطلوب.
پرامپت: یک مرد بربر عضلانی که تبری در دست دارد، کنار یک تلویزیون قدیمی ایستاده است. او به تلویزیون نگاه میکند، سپس به دوربین نگاه کرده و صریحاً میگوید: «سالهاست دنبال این میگردی: یک بربر عضلانی با سلاح در کنار یک تلویزیون CRT، سینمایی، 8K، نورپردازی استودیویی. درکش کردی؟»
پخش از رسانه
این ویدئو، پیشرفت فنی شگفتانگیز هوش مصنوعی در تولید محتوای رسانهای را تنها در سه سال گذشته به نمایش میگذارد. این فناوری از تولید تصاویر ثابت و تار، به نقطهای رسیده است که مدل جدید گوگلمیتواند ویدئویی از یک انسان کاملاً واقعگرایانه با وضوح بالا و صدای طبیعی خود او تولید کند.
مهمتر از آن، هیچ دلیلی وجود ندارد که باور کنیم سرعت این پیشرفت فنی از این پس کاهش خواهد یافت. این نمونه بهخوبی توانایی مدل Veo را در خلق شخصیتهای منحصر به فرد همراه با دیالوگهای واضح و روان نشان میدهد.
پرامپت: فیلم ترسناک: یک زن وحشتزده با لباس ویکتوریایی در حال دویدن در جنگل، حرکت پیوستهی دوربین (Dolly shot)، که توسط مردی با لباس بادام زمینی تعقیب میشود و فریاد میزند: «صبر کن! کیف پولتو فراموش کردی!»
پخش از رسانه
پرامپت: تریلر فیلم «بسکتبال در قطار تسخیرشده»: یک فیلم در سبک تیم برتون که در آن ستارهی بسکتبال دههی ۱۹۹۰ در انتهای یک قطار مسافربری تسخیر شده با واگنهایی دارای زمین بسکتبال، گیر افتاده است و تنها راه نجات، رسیدن به لوکوموتیو، با شکست دادن ارواح مختلف در بازی بسکتبال در هر واگن است.
پخش از رسانه
پرامپت: برنامهی شبکهی PBS با حالوهوای دههی ۱۹۸۰ دربارهی مردی ریشو که در مورد کامپیوتر اپل ۲ میگوید: «میتوانیم از طریق مجموعهای از لولهها به دنیا متصل شویم».
پخش از رسانه
پرامپت: یک خانم پزشک که به دوربین، مانند تماسی در زوم، نگاه میکند. او میگوید: «خدای من، اون آتاری ۸۰۰ پشت سرت رو نگاه کن! باورم نمیشه چقدر قشنگه!»
پخش از رسانه
با این فناوری، بهراحتی میتوان دنیایی مجازی از شخصیتهای هوش مصنوعی را تصور کرد که برای تبلیغ محصول، ایده، یا سرگرمی تهیه شدهاند. در ابتدا، این مدل، بیضرر بهنظر میرسد. مثلاً ویدئوی مربوط به کامپیوتر قدیمی، نمونهای نسبتاً بیضرر است. اما همین مدل با دور زدن سانسور، میتواند ویدئوهایی تولید کند که فردی جعلی دربارهی هر موضوعی صحبت کند. با توجه به تجربیات گذشته، ایجاد یک نسخهی بدون سانسور از یک مدل ویدئویی هوش مصنوعی در آینده، دور از ذهن نخواهد بود.
پرامپت: تصویر تماس ویدئویی از یک چت زوم. یک روانشناس در مطب تاریک و دنج. درمانگر با صدایی دوستانه میگوید: «سلام تام، ممنون که تماس گرفتی. بگو امروز چه حسی داری؟ آیا افسردگی هنوز اذیتت میکند؟ بیا رویش کار کنیم.»
پخش از رسانه
پرامپت: فیلم قدیمی ناسا از دههی ۱۹۶۰ از لحظهی قدم گذاشتن اولین انسان بر سطح ماه، که ناگهان در گِل فرو میرود و با لهجهی روستایی فریاد میزند: «چه خبره اینجا؟»
پخش از رسانه
پرامپت: مصاحبهی خبری شبکهی تلویزیونی محلی با یک بربر عضلانی که دربارهی دلیل همیشه همراه داشتن یک تلویزیون قدیمی صحبت میکند.
پخش از رسانه
در تولید ویدئوهای خبری، مدل Veo 3 میتواند گویندههای متعددی را در نقش مجری خبر و مهمان به تصویر درآورد. اما اگر متن مجری را دقیقاً مشخص نکنید، صدایی مخدوش و نامفهوم تولید میشود. در چنین مواردی به نظر میرسد Veo 3 ممکن است بیشترین توانایی را برای فریب رسانهای داشته باشد. مثلاً میتوان با چند خط متن، ویدئویی ساخت که یک سیاستمدار جعلی سخنرانی کند و مخاطب را گمراه کند.
پرامپت: متن اصلی تصویر - فیلمی از یک گزارش خبری درباره حملهی روسیه به ایالات متحده
پخش از رسانه
ساخت آهنگ با Veo 3
مولد صوتی هوش مصنوعی Veo 3 توانایی ساخت موسیقی را در ژانرهای مختلف دارد، هرچند در عمل، نتایج معمولاً ساده و ابتدایی هستند. بااینحال، قابلیت جدید برای تولیدکنندگان ویدئوی هوش مصنوعی، امتیازی بزرگ محسوب میشود. در اینجا چند نمونه در ژانرهای موسیقی مختلف آورده شده است.
پرامپت: برنامهی شبکهی PBS از یک بربر سرخوش با موهای آفروی بلوند که در حال نقاشی تصاویری از درختان است و همزمان با نقاشی، متن «درختان بزرگ شاد» را با همراهی موسیقی میخواند.
پخش از رسانه
پرامپت: یک کابوی دههی ۱۹۵۰ به سمت دوربین میآید و با سبک موسیقی کانتری آواز میخواند: «من الاغ بزرگ و پیرم رو دوست دارم.»
پخش از رسانه
پرامپت: یک گروه هوی متال دههی ۱۹۸۰ با موهای بلند به سمت دوربین میآیند و با سبک موسیقی راک آواز میخوانند: «کمکم کن با موهای خیلی خیلی خیلی حجیمم!»
پخش از رسانه
پرامپت: یک گروه موسیقی جاز دههی ۱۹۵۰ با یک خوانندهی اسکَت که در میان کلمات نامفهوم، دربارهی خیارشور آواز میخواند.
پخش از رسانه
پرامپت: یک ترانهی رپ تریپ-هاپ دربارهی مجلهی آرس تکنیکا که توسط فردی در یک لباس بزرگ کوسهی لاستیکی روی صحنه و در پسزمینهی یک ماه کامل، خوانده میشود.
پخش از رسانه
عملکرد Veo 3 دربرابر سایر مدلها
پرامپتهای زیر بر روی مدلهای Gen-3 و Minimax نیز آزمایش شدهاند. به طور کلی، به نظر میرسد Veo 3 از انسجام زمانی بسیار بیشتری در حفظ موضوع یا درونمایهی ثابت در طول زمان، نسبت به سایر مدلهای تولید ویدئو، برخوردار است. البته این فناوری بیعیب و نقص نیست.
پرامپت: یک فرد بسیار باهوش که مشغول خواندن مجلهی آنلاین روی کامپیوترش است و ناگهان صفحهی نمایش منفجر میشود.
(نمای راست: ویدئوی تولید شدهی Veo 3 و در چپ: خروجی مدل چینی Minimax؛ صدایی که میشنوید، حاصل از مدل Veo 3 است زیرا Minimax صدایی تولید نمیکند.)
پخش از رسانه
پرامپت: کوسهای که از صفحهی نمایش کامپیوتر بیرون میپرد و به یک فرد حمله میکند.
(نمای راست: ویدئوی تولید شدهی Veo 3 و در چپ: خروجی Runway Gen3 Alpha؛ صدایی که میشنوید، حاصل از مدل Veo 3 است زیرا Gen3 صدایی تولید نمیکند.)
پخش از رسانه
پرامپت: نمایی هوایی از یک گلهی متشکل از یک میلیون گربه که در حال دویدن روی تپه هستند.
(نمای راست: ویدئوی تولید شدهی Veo 3 و در چپ، خروجی Runway Gen3 Alpha؛ صدایی که میشنوید، حاصل از مدل Veo 3 است زیرا Gen3 صدایی تولید نمیکند.)
پخش از رسانه
پرامپت: فیلمی از یک بازی ویدئویی پویا از سبک پلتفرم سهبعدی سوم شخص دههی ۱۹۹۰ با بازی یک پسر کوسه انساننما.
(نمای راست: ویدئوی تولید شدهی Veo 3 و در چپ: خروجی Minimax صدایی که میشنوید، حاصل از مدل Veo 3 است زیرا Minimax صدایی تولید نمیکند.)
پخش از رسانه
پرامپت: نمایی هوایی از یک شهرک کوچک آمریکایی که پس از طوفان عظیم پنیر، غرق در پنیر مایع شده است؛ جایی که پنیر مایع بارید و همهجا روی ساختمانها ریخت.
(نمای راست: ویدئوی تولید شدهی Veo 3 و در چپ: خروجی Runway Gen3 Alpha؛ صدایی که میشنوید، حاصل از مدل Veo 3 است زیرا Gen3 صدایی تولید نمیکند.)
پخش از رسانه
باوجود مشاهدهی نقصهای کوچک، Veo 3 قادر است تقریبا هرچیزی را، از صداهای ترافیک گرفته تا موسیقی و دیالوگ شخصیتها، تولید کند. بهعنوان مثال، هنگام خوردن اسپاگتی، همچنان صدای خردشدن شنیده میشود، یا در صحنههایی با چندین نفر، گاهی دیالوگ از دهان شخصیتی اشتباه خارج میشود. اما در کل، Veo 3 نسبت به مدلهای شرکتهایی مانند اوپنایآی (OpenAI)، رانوی (Runway)، مینیمکس (Minimax)، پیکا (Pika)، متا (Meta)، کلینگ (Kling) و هونیوانویدئو (Hunyuanvideo)، گامی رو به جلو در کیفیت و انسجام ایجاد ویدئو محسوب میشود.
بهدلیل محدودیتهای دادههای آموزشی، گوگل Veo 3 در تولید ویدئو برای هر سناریو، بینقص عمل نمیکند. درست مانند نمونههای هوش مصنوعی تولید متن در مدلهای زبانی بزرگ، تولیدکنندگان ویدئوی هوش مصنوعی، اساساً تقلیدگر باقی میمانند. به این معنا که براساس الگوهای آماری پیشبینی میکنند، نه درک واقعی از فیزیک.
به عنوان مثال، اگر حرکت دهان حین صحبت کردن یا چینخوردگی خاص لباس هنگام لمس شدن را مشاهده میکنید، این معنی را میدهد که شبکهی عصبی مسئول تولید ویدئو، نمونههای کافی از آن سناریو را در دادههای آموزشی دیده است تا بتواند نسخهی متقاعدکنندهای ارائه دهد و آن را در موقعیتهای مشابه اعمال کند.
پخش از رسانه
البته هنوز زیرنویسهای تولیدشده در ویدئوها، معمولاً تحریفشده و تقریباً منطبق با کلمات گفتاری هستند. این امر ناشی از تقلید مدل هوش مصنوعی از زیرنویسهای موجود در ویدئوها در دادههای آموزشی است. در کلیپ زیر، به محتوا و زمان نشان دادن زیرنویسها دقت کنید.
پخش از رسانه
اغلب مواقع، هنگامی که یک موقعیت نوظهور (یا ترکیبی از مضامین) بهخوبی در دادههای آموزشی دیده نشده باشند، شاهد وقوع امور «غیرممکن» یا غیرمنطقی خواهید بود؛ مانند اندامهای عجیب، لباسهایی که بهطور جادویی ظاهر میشوند، یا شیئی که خُرد میشود، اما پس از آن در صحنه باقی میماند!
پخش از رسانه
بهطور خاص، در صحنههایی که چندین نفر همزمان صحبت میکنند، مدل تولید ویدئو گاهی در تشخیص اینکه کدام شخصیت در حال صحبت است، دچار سردرگمی میشود؛ مانند آنچه در این مناظره میان طرفداران فناوری مشاهده میکنیم:
پرامپت: مناظرهی تلویزیونی دههی ۲۰۰۰ بین هواداران تراشههای PowerPC و پنتیوم
پخش از رسانه
پرامپت: تبلیغات پرهیاهوی دههی ۱۹۸۰ برای سرویس آنلاین «آرس تکنیکا» با موسیقی پسزمینهی کلیشهای
پخش از رسانه
پرامپت: فیلم رامبو در حال جنگ با سربازان شوروی روی کرهی ماه با حال و هوای دههی ۱۹۸۰
پخش از رسانه
گاهی درخواستها بهطور منسجم، معنا ندارند. در این مورد، رامبو بهدرستی روی ماه در حال شلیک اسلحه است، اما لباس فضایی به تن ندارد. البته شاید او بسیار سرسختتر از چیزی باشد که سالها بهنظر میرسید!
پرامپت: ویدئوی سبک یوتیوب «آزمون پوشیدن» از شخصی که لباسی ذرتی را امتحان میکند.
پخش از رسانه
پرامپت: اینفوگرافیک متحرک در نشان دادن تعداد فلاپیدیسکهای مورد نیاز برای نصب ویندوز ۱۱
پخش از رسانه
متن طولانی نیز نقطهی ضعف در پرامپتنویسی محسوب میشود، اما اگر نقل قول متنی کوتاهی صراحتاً در پرامپت مشخص شده باشد، معمولاً Veo 3 آنها را بهدرستی اجرا میکند.
ساخت محتوا در شمارش با انگشتان برای Veo 3 دشوار است، احتمالاً به این دلیل که بهخوبی در دادههای آموزش نمونهی مشخصی ندارد. در عوض، دستها معمولاً احتمالاً در چند حالت محدود مانند مشت، کف دست باز با پنج انگشت، علامت صلح با دو انگشت و عدد یک نشان داده میشوند.
پرامپت: مردی با لباس فضایی که پنج انگشت خود را بالا میگیرد و تا صفر شمارش میشمارد، سپس با چکمههای موشکی به فضا پرتاب میشود.
پخش از رسانه
با ظهور معماریهای جدید و آموزش مدلهای آینده با مجموعهی دادههای بسیار بزرگتر و قدرت محاسباتی عظیم، این سیستمها احتمالاً ارتباطات آماری عمیقتری بین مفاهیمی که در ویدئوها مشاهده میکنند، ایجاد خواهند کرد. نتیجهی این آموزش، خود را بهطور چشمگیری در کیفیت و همچنین توانایی تعمیم بیشتر به پرامپتهای نوظهور، نشان خواهد داد.
تکینگی فرهنگی در راه است
حتی با وجود خطاهای مدلهای کنونی، نگرانی عمیقی از خطرات مولدهای ویدیو در میان کاربران شکل گرفته است. بسیاری معتقدند که به دلیل پتانسیل فریبندگی این فناوری، دنیا در آستانهی یک چالش بزرگ قرار دارد. البته دلیل خوبی هم برای این نگرانی وجود دارد، چراکه شبکههای اجتماعی در حال حاضر به شدت متکی به کلیپهایی است که توسط کاربران به اشتراک گذاشته میشوند.
بهلطف پیشرفت هوش مصنوعی، اکنون میتوان بخش بزرگی از این کلیپها را به راحتی و بهطور کامل جعل کرد. با استفاده از این تکنولوژی، میتوان نسخههای دیجیتالی و جعلی از افراد ساخت که با استدلالهای ایدئولوژیک، افکار عمومی را دستکاری کرده و به طور گسترده منتشر شوند.
ویدئوهای جعلی قبل از Veo 3 نیز از طریق روشهای مختلف قابل تولید بودند که اغلب نیاز به دانش تخصصی، سختافزارهای قوی و نرمافزارهای خاص داشت. اما اکنون هر کاربری، بینیاز از مهارتهای برنامهنویسی، نرمافزار گرانقیمت و ساعتها کار طاقتفرسا، به سادگی و با تایپ یک پرامپت و سه دقیقه انتظار، به محتوای ذهنیاش دست مییابد.
رسانههای تکنولوژی حداقل از سال ۲۰۱۹، دربارهی پتانسیل فریبندهی محتوای هوش مصنوعی واقعگرایانه، هشدار دادهاند. همچنین، دربارهی توانایی آیندهی افراد برای آلوده کردن سابقهی تاریخی با اطلاعات نادرست تولیدشده توسط هوش مصنوعی نیز بارها بحثهایی مطرح شده است.
در اغلب تحلیلها، از اصطلاح «تکینگی فرهنگی» برای نشان دادن زمانی استفاده میشود که حقیقت و داستان در رسانه، غیرقابل تشخیص میشود. البته تکینگی فرهنگی نه تنها به ماهیت فریبندهی محتوای تولیدشده، بلکه به حجم عظیم رسانههایی بستگی دارد که با هوش مصنوعی، تولید میشوند.
بهزودی سوال دربارهی اعتبار منبع از واقعیبودن محتوا مهمتر میشود
بااینحال، نگرانیها در مورد تکینگی فرهنگی میتواند تا حدی هم اغراقآمیز باشد، چراکه رسانه از دوران باستان همواره در برابر جعل آسیبپذیر بوده است؛ اعتماد به هر ارتباط دوری درنهایت به اعتماد به منبع آن بستگی دارد.
رومیان ۸۰ سال قبل از میلاد مسیح، قوانینی علیه جعل داشتند و مردم از زمان اختراع عکاسی، عکسها را دستکاری کردهاند. آنچه امروز تغییر کرده است، امکان فریب نیست، بلکه در دسترسی و مقیاس آن خلاصه میشود. با توانایی مدل Veo 3 در تولید ویدئوهای متقاعدکننده با دیالوگ و جلوههای صوتی همگام، شاهد تولد فریب رسانهای نیستیم، بلکه شاهد همگانی شدن آن هستیم. آنچه زمانی در هالیوود میلیونها دلار برای جلوههای ویژه هزینه داشت، اکنون با پول خرد انجام میشود.
همزمان با قدرتمندتر و مقرونبهصرفهتر شدن این ابزارها، بدبینی نسبت به رسانهها افزایش خواهد یافت. اما سوال این نیست که آیا میتوانیم به آنچه میبینیم و میشنویم، اعتماد کنیم؛ بلکه سوال این است که آیا میتوانیم به کسی که آن را به ما نشان میدهد، اعتماد کنیم؟ در عصری که هر کسی میتواند تنها با ۱٫۵ دلار، یک ویدئوی واقعگرا از هر چیزی تولید کند، اعتبار منبع خبر به نقطهی اتکای اصلی برای دریافت حقیقت تبدیل میشود.