D1-lg

هوش مصنوعی جدید گوگل با توانایی ساخت متن، تصویر و صدا معرفی شد

چهارشنبه 21 آذر 1403 - 17:00
مطالعه 2 دقیقه
لوگو جمنای روی گوشی هوشمند
گوگل هوش مصنوعی Gemini 2.0 Flash را با قابلیت‌های پیشرفته‌تر تولید تصویر و صدا رونمایی کرد.
تبلیغات
D4-mcid4

گوگل هوش مصنوعی Gemini 2.0 Flash را رسماً معرفی کرد تا OpenAI رقیب قدرتمندی پیش‌ روی خود داشته باشد.

گوگل می‌گوید که Gemini 2.0 Flash افزون‌بر متن، می‌تواند به‌صورت بومی تصویر و صدا تولید و از اپلیکیشن‌ها و خدمات متفرقه استفاده کند. بدین‌ترتیب مدل جدید جمنای می‌تواند به جست‌وجوی گوگل دسترسی داشته باشد و کد اجرا کند و کارهایی انجام دهد که تا پیش‌‌از این، ممکن نبود.

به‌نوشته‌ی تک‌کرانچ، نسخه‌ی آزمایشی 2.0 Flash از امروز از‌طریق API Gemini و پلتفرم‌های توسعه‌دهنده‌ی هوش مصنوعی گوگل و AI Studio و Vertex AI در دسترس خواهد بود. با‌این‌حال، قابلیت‌های تولید صدا و تصویر تنها برای «شرکای اولیه» پیش‌از انتشار گسترده در ژانویه (دی و بهمن) در دسترس قرار می‌گیرد.

گوگل می‌گوید که در ماه‌های آینده، 2.0 Flash را برای طیف وسیعی از محصولات مانند Android Studio و Chrome DevTools و Firebase و Gemini Code Assist و سایر محصولات منتشر خواهد کرد.

نسل اول هوش مصنوعی جمنای Flash، یعنی 1.5 Flash، فقط می‌توانست متن تولید کند و برای کارهای پیچیده‌تر طراحی نشده بود. گوگل می‌گوید که مدل جدیدش «همه‌کاره‌تر» است؛ زیرا می‌تواند ابزارهایی مانند جست‌وجو را فراخوانی کند و با API‌‌های خارجی تعامل داشته باشد.

تولسی دوشی، رئیس محصول مدل جمنای در گوگل می‌گوید: «می‌دانیم که Flash به‌دلیل تعادل بین سرعت و عملکرد، در بین توسعه‌دهندگان بسیار محبوبیت دارد؛ اما اکنون قدرتمندتر شده است.»

گوگل ادعا می‌کند 2.0 Flash که طبق آزمایش‌های خود گوگل دو برابر سریع‌تر از مدل Gemini 1.5 Pro است، در زمینه‌هایی مانند کدنویسی و تجزیه‌و‌تحلیل تصویر بهبود چشمگیری یافته است. در واقع، به‌ادعای گوگل 2.0 Flash به‌دلیل مهارت‌های ریاضی برتر و «واقع‌گرایی» خود، جایگزین 1.5 Pro به‌عنوان مدل اصلی جمنای می‌شود.

تولید صدا یکی دیگر از ویژگی‌های اصلی 2.0 Flash است و دوشی آن را «قابل هدایت و سفارشی‌سازی» توصیف می‌کند. به‌عنوان مثال، این مدل می‌تواند متن را با استفاده از یکی از هشت صدای «بهینه‌شده» برای لهجه‌ها و زبان‌های مختلف روایت کند. دوشی می‌گوید: «می‌توانید از آن بخواهید که کُندتر یا سریع‌تر صحبت کند یا حتی می‌توانید از آن بخواهید که با لحنی شبیه یک دزد دریایی صحبت کند.»

گوگل نمونه‌‌های تصویر یا صدا از 2.0 Flash ارائه نکرده است و فعلاً راهی برای دانستن کیفیت آن در مقایسه با خروجی‌های مدل‌های دیگر وجود ندارد.

گوگل می‌گوید از فناوری SynthID برای واترمارک‌کردن تمام صدا و تصاویری که با 2.0 Flash تولید می‌شوند، استفاده می‌کند. در نرم‌افزارها و پلتفرم‌هایی که از SynthID پشتیبانی می‌کنند، خروجی‌های مدل علامت‌گذاری خواهند شد.

نسخه‌ی نهایی 2.0 Flash دی و بهمن امسال منتشر خواهد شد. در همین‌ حال، گوگل در حال انتشار API Multimodal Live API است تا به توسعه‌دهندگان در ساخت اپلیکیشن‌هایی با قابلیت پخش زنده‌ی صدا و ویدئو به‌صورت لحظه‌ای کمک کند.

گوگل می‌گوید که توسعه‌دهندگان می‌توانند با استفاده از API Multimodal Live، اپلیکیشن‌هایی چندوجهی به‌صورت لحظه‌ای با ورودی‌های صوتی و تصویری از دوربین‌ها یا صفحه‌نمایش ایجاد کنند. این API از ادغام ابزارها برای انجام کارها پشتیبانی می‌کند و می‌تواند «الگوهای گفت‌وگوی طبیعی» مانند وقفه‌ها را مدیریت کند؛ مشابه API Realtime OpenAI.

مقاله رو دوست داشتی؟
نظرت چیه؟
تبلیغات
D5-b3IranServer
داغ‌ترین مطالب روز
زنجبیل
با خواص و مضرات زنجبیل آشنا شوید

زنجبیل گیاهی با خاصیت دارویی است که از دیرباز جایگاه برجسته‌ای در طب سنتی داشته است. اما مصرف این گیاه دارویی همراه برخی از داروها مناسب نیست.

11
1 روز قبل
لپ تاپ ویندوز ۱۱ درحال نمایش منوی Actions
چگونه آنتی ویروس ویندوز 11 را غیرفعال کنیم؟

گاهی لازم است برای نصب یا استفاده از یک برنامه، آنتی ویروس ویندوز را غیرفعال کنید. دراین مطلب نحوه غیرفعال کردن آنتی ویروس ویندوز 11 را آموزش ...

56
1 روز قبل
پردرآمدترین شغل های دنیا
پردرآمدترین شغل های دنیا در سال ۲۰۲۵ را می‌شناسید؟

به‌نظر شما پردرآمدترین مشاغل جهان کدام‌ شغل‌ها هستند؟ برای یافتن پاسخ این سؤال در سال ۲۰۲۵ با ما همراه شوید.

117
1 روز قبل
بهترین گوشی های زیر ۲۰ میلیون تومان سامسونگ
بهترین گوشی های سامسونگ تا ۲۰ میلیون تومان [بهار ۱۴۰۴]

در بازه‌ی قیمتی زیر ۲۰ میلیون تومان کدام گوشی‌های سامسونگ ارزش خرید بالاتری دارند؟ در این راهنمای خرید برای انتخاب بهتر به‌ شما کمک خواهیم کرد.

62
حدود 8 ساعت قبل
گوشی ریلمی C71 در رنگ سبز و سفید
خوش‌قیمت و مناسب برای استفاده روزمره؛ این گوشی جدید باتری ۶۳۰۰ میلی‌آمپرساعتی دارد

جدیدترین گوشی ریلمی با توجه به قیمتش امکانات بسیار مناسبی دارد.

63
1 روز قبل
سبک ترین و خوش دست ترین گوشی های سامسونگ
سبک ترین گوشی های سامسونگ [بهار و تابستان ۱۴۰۴]

چه گوشی‌‌هایی با وزن مناسب بهترین عملکرد را دارند؟ در این مقاله با سبک‌ترین گوشی‌های سامسونگ در بازار ایران آشنا خواهید شد.

23
حدود 12 ساعت قبل
نمای جلوی گلکسی A15
پرفروش‌ترین گوشی ۲۰۲۵ سامسونگ نه پرچمدار است و نه حتی میان‌رده!

در لیست پرفروش‌ترین گوشی‌های فصل اخیر، موبایلی از سامسونگ به چشم می‌خورد که نه میان‌رده است و نه پرچمدار.

97
1 روز قبل
تبلیغات
DN-DNShatel

نظرات

با چشم باز خرید کنید
زومیت شما را برای انتخاب بهتر و خرید ارزان‌تر راهنمایی می‌کند
ورود به بخش محصولات