پخش از رسانه

هوش مصنوعی «گراک» سوپرشارژ شد؛ تولید ویدیو سینمایی و صدادار با یک عکس

پنج‌شنبه 14 خرداد 1405

مطالعه 2 دقیقه

استارتاپ xAI متعلق به ایلان ماسک، هوش مصنوعی ویدیوساز جدیدش را با عملکردی حیرت‌انگیز معرفی کرد.

تبلیغات

استارتاپ xAI از نسخه‌ی آزمایشی مدل جدید تولید ویدیو Grok Imagine Video 1.5 رونمایی کرد؛ مدلی که می‌تواند تنها با دریافت یک تصویر ثابت، ویدیوهایی کوتاه همراه با صدا تولید کند و به‌طور مستقیم با رقبایی مانند گوگل و بایت‌دنس وارد رقابت شود.

گراک ایمجین ویدیو ۱٫۵ به کاربران اجازه می‌دهد با توصیف حرکت دوربین، فضاسازی و ریتم صحنه از طریق متن، یک تصویر را به ویدیو تبدیل کنند.

xAI می‌گوید مدل جدیدش هنگام تولید ویدیو، جزئیات، نورپردازی و سبک تصویر اصلی را حفظ می‌کند و حتی امکان ترکیب چند نما برای ساخت صحنه‌های طولانی‌تر با ظاهری یکپارچه را فراهم خواهد کرد.

یکی از مهم‌ترین ویژگی‌های نسخه‌ی ۱٫۵ تولید هم‌زمان صدا و تصویر است. این مدل می‌تواند دیالوگ، هماهنگی حرکت لب‌ها، افکت‌های صوتی و موسیقی پس‌زمینه را در همان فرایند تولید ویدیو ایجاد کند. در بسیاری از مدل‌های فعلی، صدا پس از تولید ویدیو به آن اضافه می‌شود؛ اما xAI معتقد است تولید هم‌زمان صدا و تصویر نتیجه‌ای طبیعی‌تر و سینمایی‌تر ارائه می‌دهد.

حداکثر مدت ویدیوهای تولیدشده از ۱۰ ثانیه در نسخه‌ی قبل به ۱۵ ثانیه در این نسخه افزایش یافته است. کاربران می‌توانند بسته به نیاز خود ویدیوهایی بین یک تا ۱۵ ثانیه تولید کنند.

xAI می‌گوید تولید یک ویدیو ۵ ثانیه‌ای با وضوح 720p حدود ۲۰ تا ۳۰ ثانیه زمان می‌برد. بر اساس بنچمارک‌های منتشرشده، این سرعت حدود دو تا سه برابر بیشتر از مدل سیدنس ۲ بایت‌دنس در کیفیت مشابه است.

مقاله‌های مرتبط

نسخه‌ی ۱٫۵ گراک ایمجین ویدیو در حال حاضر به‌صورت نسخه‌ی آزمایشی از طریق API شرکت xAI در دسترس قرار گرفته است. این مدل توانسته در رتبه‌بندی Image-to-Video وب‌سایت Artificial Analysis با امتیاز Elo معادل ۱۴۰۴ در جایگاه نخست قرار بگیرد و عملکردی بهتر از نسخه‌ی قبلی خود و مدل سیدنس ۲ ثبت کند.

مقاله رو دوست داشتی؟

نظرت چیه؟