هوش مصنوعی «گراک» سوپرشارژ شد؛ تولید ویدیو سینمایی و صدادار با یک عکس
استارتاپ xAI از نسخهی آزمایشی مدل جدید تولید ویدیو Grok Imagine Video 1.5 رونمایی کرد؛ مدلی که میتواند تنها با دریافت یک تصویر ثابت، ویدیوهایی کوتاه همراه با صدا تولید کند و بهطور مستقیم با رقبایی مانند گوگل و بایتدنس وارد رقابت شود.
گراک ایمجین ویدیو ۱٫۵ به کاربران اجازه میدهد با توصیف حرکت دوربین، فضاسازی و ریتم صحنه از طریق متن، یک تصویر را به ویدیو تبدیل کنند.
xAI میگوید مدل جدیدش هنگام تولید ویدیو، جزئیات، نورپردازی و سبک تصویر اصلی را حفظ میکند و حتی امکان ترکیب چند نما برای ساخت صحنههای طولانیتر با ظاهری یکپارچه را فراهم خواهد کرد.
یکی از مهمترین ویژگیهای نسخهی ۱٫۵ تولید همزمان صدا و تصویر است. این مدل میتواند دیالوگ، هماهنگی حرکت لبها، افکتهای صوتی و موسیقی پسزمینه را در همان فرایند تولید ویدیو ایجاد کند. در بسیاری از مدلهای فعلی، صدا پس از تولید ویدیو به آن اضافه میشود؛ اما xAI معتقد است تولید همزمان صدا و تصویر نتیجهای طبیعیتر و سینماییتر ارائه میدهد.
حداکثر مدت ویدیوهای تولیدشده از ۱۰ ثانیه در نسخهی قبل به ۱۵ ثانیه در این نسخه افزایش یافته است. کاربران میتوانند بسته به نیاز خود ویدیوهایی بین یک تا ۱۵ ثانیه تولید کنند.
xAI میگوید تولید یک ویدیو ۵ ثانیهای با وضوح 720p حدود ۲۰ تا ۳۰ ثانیه زمان میبرد. بر اساس بنچمارکهای منتشرشده، این سرعت حدود دو تا سه برابر بیشتر از مدل سیدنس ۲ بایتدنس در کیفیت مشابه است.
نسخهی ۱٫۵ گراک ایمجین ویدیو در حال حاضر بهصورت نسخهی آزمایشی از طریق API شرکت xAI در دسترس قرار گرفته است. این مدل توانسته در رتبهبندی Image-to-Video وبسایت Artificial Analysis با امتیاز Elo معادل ۱۴۰۴ در جایگاه نخست قرار بگیرد و عملکردی بهتر از نسخهی قبلی خود و مدل سیدنس ۲ ثبت کند.