هوش مصنوعی اعجاب‌انگیز گوگل برای ساخت «تقریبا همه‌چیز» رونمایی شد

سه‌شنبه 29 اردیبهشت 1405 - 22:11

مطالعه 2 دقیقه

گوگل هوش مصنوعی اعجاب‌انگیز Gemini Omni را برای ساخت «تقریبا همه‌چیز» رونمایی کرد.

تبلیغات

گوگل از خانواده‌ی مدل‌های هوش مصنوعی Gemini Omni رونمایی کرد؛ مدل‌هایی که با هدف «ساخت هرچیزی» توسعه یافته‌اند و از همین حالا می‌توانند ویدیوهایی بسیار واقعی تولید کنند.

گوگل طی سال‌های اخیر روی مفهوم «مدل جهان» کار کرده؛ سیستمی که بتواند دنیایی منسجم و مبتنی‌بر واقعیت ایجاد کند. گوگل پیش‌تر ایده‌ی موردبحث را با Genie آزمایش کرده بود؛ مدلی که تجربه‌هایی شبیه بازی‌های ویدیویی را بر اساس توضیحات کاربران تولید می‌کرد. گوگل همچنین مدل‌های Veo و نانو بنانا را برای ساخت و ویرایش ویدیو و تصویر در اختیار کاربران قرار داده بود.

کپی لینک

مدلی برای ساخت «هرچیزی»

جمنای آمنی مدلی چندوجهی به حساب می‌آید که درک عمیقی از متن، تصویر، ویدیو و صدا دارد و می‌تواند خروجی نهایی را به‌شکل یک ویدیوی واحد تولید کند. فعلاً قابلیت تولید صدا به نمونه‌های گفتاری محدود شده؛ اما گوگل می‌گوید آمنی برای «ساخت هرچیز از هر ورودی» طراحی شده است. کاربران پس از ساخت ویدیو می‌توانند نتیجه را در مراحل بعدی ویرایش و اصلاح کنند.

پخش از رسانه

دموهای اولیه‌ی جمنای آمنی عملکرد چشمگیری را نشان می‌دهند. یکی از نمونه‌ها، ویدیوی حرکت یک تیله روی سطوح مختلف را نمایش می‌دهد که در آن، فیزیک حرکت و حتی صدای برخوردها بسیار طبیعی به نظر می‌رسند.

برخلاف مدل Genie که فعلاً فقط دراختیار مشترکان AI Ultra قرار دارد، گوگل قصد دارد سری جمنای آمنی را برای کاربران بیشتری در دسترس قرار دهد. نخستین مدل خانواده با نام Gemini Omni Flash هم‌اکنون برای مشترکان AI Plus و پلن‌های بالاتر منتشر شده است.

قابلیت جدید از اوایل هفته‌ی آینده ازطریق YouTube Shorts و YouTube Create به‌صورت رایگان در دسترس قرار می‌گیرد تا کاربران بتوانند آثار خود را منتشر کنند. گوگل در کنار نسخه‌ی فعلی، به مدل پیشرفته‌تری با نام Omni Pro هم اشاره کرده که جزئیاتش بعداً اعلام خواهد شد.

سطح واقعی‌بودن ویدیوها باعث شده گوگل تدابیر امنیتی مختلفی درنظر بگیرد. کاربران می‌توانند آواتار اختصاصی خود را برای حضور در ویدیوها بسازند؛ قابلیتی که شباهت‌هایی به اپلیکیشن سورا شرکت OpenAI دارد. بااین‌حال، آمنی فعلاً امکان ویرایش صدا و گفتار ویدیوها را ارائه نمی‌دهد تا گوگل بتواند ویژگی موردبحث را «به‌شکل مسئولانه» در اختیار کاربران قرار دهد.

تمام ویدیوهای ساخته‌شده با جمنای آمنی با واترمارک SynthID علامت‌گذاری خواهند شد تا محتوای تولیدشده با هوش مصنوعی به‌راحتی قابل تشخیص باشد.

مقاله رو دوست داشتی؟

نظرت چیه؟

تحریریه زومیت

مدلی برای ساخت «هرچیزی»

نظرات