D1-lg

هوش مصنوعی جدید گوگل با توانایی ساخت متن، تصویر و صدا معرفی شد

چهارشنبه ۲۱ آذر ۱۴۰۳ - ۱۷:۰۰
مطالعه 2 دقیقه
لوگو جمنای روی گوشی هوشمند
گوگل هوش مصنوعی Gemini 2.0 Flash را با قابلیت‌های پیشرفته‌تر تولید تصویر و صدا رونمایی کرد.
تبلیغات
D4-mci

گوگل هوش مصنوعی Gemini 2.0 Flash را رسماً معرفی کرد تا OpenAI رقیب قدرتمندی پیش‌ روی خود داشته باشد.

گوگل می‌گوید که Gemini 2.0 Flash افزون‌بر متن، می‌تواند به‌صورت بومی تصویر و صدا تولید و از اپلیکیشن‌ها و خدمات متفرقه استفاده کند. بدین‌ترتیب مدل جدید جمنای می‌تواند به جست‌وجوی گوگل دسترسی داشته باشد و کد اجرا کند و کارهایی انجام دهد که تا پیش‌‌از این، ممکن نبود.

به‌نوشته‌ی تک‌کرانچ، نسخه‌ی آزمایشی 2.0 Flash از امروز از‌طریق API Gemini و پلتفرم‌های توسعه‌دهنده‌ی هوش مصنوعی گوگل و AI Studio و Vertex AI در دسترس خواهد بود. با‌این‌حال، قابلیت‌های تولید صدا و تصویر تنها برای «شرکای اولیه» پیش‌از انتشار گسترده در ژانویه (دی و بهمن) در دسترس قرار می‌گیرد.

گوگل می‌گوید که در ماه‌های آینده، 2.0 Flash را برای طیف وسیعی از محصولات مانند Android Studio و Chrome DevTools و Firebase و Gemini Code Assist و سایر محصولات منتشر خواهد کرد.

نسل اول هوش مصنوعی جمنای Flash، یعنی 1.5 Flash، فقط می‌توانست متن تولید کند و برای کارهای پیچیده‌تر طراحی نشده بود. گوگل می‌گوید که مدل جدیدش «همه‌کاره‌تر» است؛ زیرا می‌تواند ابزارهایی مانند جست‌وجو را فراخوانی کند و با API‌‌های خارجی تعامل داشته باشد.

تولسی دوشی، رئیس محصول مدل جمنای در گوگل می‌گوید: «می‌دانیم که Flash به‌دلیل تعادل بین سرعت و عملکرد، در بین توسعه‌دهندگان بسیار محبوبیت دارد؛ اما اکنون قدرتمندتر شده است.»

گوگل ادعا می‌کند 2.0 Flash که طبق آزمایش‌های خود گوگل دو برابر سریع‌تر از مدل Gemini 1.5 Pro است، در زمینه‌هایی مانند کدنویسی و تجزیه‌و‌تحلیل تصویر بهبود چشمگیری یافته است. در واقع، به‌ادعای گوگل 2.0 Flash به‌دلیل مهارت‌های ریاضی برتر و «واقع‌گرایی» خود، جایگزین 1.5 Pro به‌عنوان مدل اصلی جمنای می‌شود.

تولید صدا یکی دیگر از ویژگی‌های اصلی 2.0 Flash است و دوشی آن را «قابل هدایت و سفارشی‌سازی» توصیف می‌کند. به‌عنوان مثال، این مدل می‌تواند متن را با استفاده از یکی از هشت صدای «بهینه‌شده» برای لهجه‌ها و زبان‌های مختلف روایت کند. دوشی می‌گوید: «می‌توانید از آن بخواهید که کُندتر یا سریع‌تر صحبت کند یا حتی می‌توانید از آن بخواهید که با لحنی شبیه یک دزد دریایی صحبت کند.»

گوگل نمونه‌‌های تصویر یا صدا از 2.0 Flash ارائه نکرده است و فعلاً راهی برای دانستن کیفیت آن در مقایسه با خروجی‌های مدل‌های دیگر وجود ندارد.

گوگل می‌گوید از فناوری SynthID برای واترمارک‌کردن تمام صدا و تصاویری که با 2.0 Flash تولید می‌شوند، استفاده می‌کند. در نرم‌افزارها و پلتفرم‌هایی که از SynthID پشتیبانی می‌کنند، خروجی‌های مدل علامت‌گذاری خواهند شد.

نسخه‌ی نهایی 2.0 Flash دی و بهمن امسال منتشر خواهد شد. در همین‌ حال، گوگل در حال انتشار API Multimodal Live API است تا به توسعه‌دهندگان در ساخت اپلیکیشن‌هایی با قابلیت پخش زنده‌ی صدا و ویدئو به‌صورت لحظه‌ای کمک کند.

گوگل می‌گوید که توسعه‌دهندگان می‌توانند با استفاده از API Multimodal Live، اپلیکیشن‌هایی چندوجهی به‌صورت لحظه‌ای با ورودی‌های صوتی و تصویری از دوربین‌ها یا صفحه‌نمایش ایجاد کنند. این API از ادغام ابزارها برای انجام کارها پشتیبانی می‌کند و می‌تواند «الگوهای گفت‌وگوی طبیعی» مانند وقفه‌ها را مدیریت کند؛ مشابه API Realtime OpenAI.

مقاله رو دوست داشتی؟
نظرت چیه؟
تبلیغات
D5-b3IranServer
داغ‌ترین مطالب روز
تصویر اتم آزاد
فیزیک‌دان‌ها برای اولین بار تصویر اتم‌های آزاد را ثبت کردند

فیزیک‌دان‌ها برای اولین بار توانستند تصویری از حرکت اتم‌های آزاد ثبت کنند. این مشاهده می‌تواند به درک بهتر آن‌ها از برهم‌کنش اتم‌ها کمک کند.

13
2 روز پیش
ساخت اپل اکانت
آموزش ساخت اپل آیدی Apple ID رایگان (آپدیت جدید ۱۴۰۴)

ساخت اپل آیدی یکی از اقدامات اولیه پس از خرید آیفون است، در ادامه آموزش رایگان گام به گام ساخت اپل آیدی را مشاهده می‌کنید.

352
2 روز پیش
بهترین تبلت های بازار ایران [بهار ۱۴۰۴]

برای خرید تبلت مناسب، نیازی نیست حتماً پول زیادی پرداخت کنید. در راهنمای خرید پیش‌ رو، بهترین تبلت‌های بازار ایران را معرفی می‌کنیم.

285
2 روز پیش
پهپاد دی‌جی‌آی مویک ۴ پرو در حال پرواز
پیشرفته‌ترین پهپاد DJI رونمایی شد؛ محصولی که آمریکایی‌ها از خرید آن محروم‌اند

DJI پهپاد جدید مویک ۴ پرو را با قابلیت تصویربرداری پیشرفته‌تر و شارژدهی بالاتر رونمایی کرد.

19
2 روز پیش
بهترین هارد اکسترنال های موجود در بازار ایران - تصویر اصلی
بهترین هارد و SSD اکسترنال بازار [بهار ۱۴۰۴]

تنوع زیاد هارد اکسترنال در بازار، انتخاب مدل مناسب را دشوار می‌کند. در این مقاله با بهترین هاردهای اکسترنال موجود در بازار ایران آشنا می‌شویم.

75
2 روز پیش
آنتی ویروس ویندوز
چگونه آنتی ویروس ویندوز ۱۰ را غیر فعال کنیم؟

بعضی از کاربران ویندوز به‌دنیال روش های خاموش كردن آنتي ويروس ویندوز ۱۰ هستند، زیرا این سیستم امنیتی بومی گاهی برای آن‌ها دست‌وپاگیر می‌شود.

27
2 روز پیش
خلیج فارس
پاسخ حقوقی ایران به تحریف گوگل؛ کار به دادگاه کشیده می‌شود

سخنگوی مرکز ملی فضای مجازی از پیگیری حقوقی اقدام اخیر گوگل در تحریف نام خلیج فارس خبر داد.

238
2 روز پیش
تبلیغات
DN-DNShatel

نظرات

با چشم باز خرید کنید
زومیت شما را برای انتخاب بهتر و خرید ارزان‌تر راهنمایی می‌کند
ورود به بخش محصولات