مدل زبانی «کوچک» جدید مایکروسافت، تصاویر را درک می‌کند

سه‌شنبه 1 خرداد 1403 - 19:38

مطالعه 1 دقیقه

مدل هوش مصنوعی سبک و کوچک مایکروسافت با قابلیت درک و تقسیر تصاویر معرفی شد.

تبلیغات

مایکروسافت در کنفرانس بیلد ۲۰۲۴ نسخه‌ی جدیدی از مدل زبانی کوچک خود به نام Phi-3-vision را معرفی کرد که می‌تواند تصاویر را بررسی کند و به شما بگوید چه چیزهایی در آن‌ها وجود دارد.

Phi-3-vision مدل زبانی چندحالته است. این یعنی می‌تواند هم متن و هم تصاویر را درک کند. مایکروسافت می‌گوید Phi-3-vision که در‌حال‌حاضر به‌صورت آزمایشی دردسترس است، مدلی با ۴٫۲ میلیارد پارامتر محسوب می‌شود و می‌تواند استدلال بصری در هنگام مطرح‌کردن سؤال درباره‌ی نمودارها یا تصاویر را انجام دهد.

Phi-3-vision به‌مراتب کوچک‌تر از سایر مدل‌های هوش مصنوعی متمرکز بر تصویر مانند DALL-E یا Stable Diffusion است. برخلاف آن مدل‌ها، Phi-3-vision تصویر تولید نمی‌کند؛ اما می‌تواند آنچه در تصویر وجود دارد، بفهمد و آن را برای کاربر تجزیه‌و‌تحلیل کند.

مقاله‌ی مرتبط

مراسم مایکروسافت بیلد را با زومیت دنبال کنید؛ محفل رونمایی ویندوز ۱۲؟

با افزایش تقاضا برای استفاده از خدمات هوش مصنوعی مقرون‌به‌صرفه‌تر، توسعه‌دهندگان مدل‌های هوش مصنوعی کوچک و سبک‌ مانند Phi-3 را ارائه می‌دهند. مدل‌های کوچک می‌توانند برای اجرای قابلیت‌های هوش مصنوعی روی دستگاه‌هایی مانند گوشی و لپ‌تاپ بدون نیاز به اشغال فضای رم، استفاده شوند.

مقاله رو دوست داشتی؟

نظرت چیه؟

امیر عبدالملکی

نظرات