هوش مصنوعی تحسین‌برانگیز اپل، تصاویر دوبعدی را به‌ سه‌بعدی تبدیل می‌کند

پنج‌شنبه 27 آذر 1404 - 15:45
مطالعه 2 دقیقه
آیفون بنفش در تنظیمات Apple Intelligence & Siri در دست
اپل با مدل SHARP، عکس‌های دوبعدی را در کسری از ثانیه به یک صحنه‌ی سه‌بعدی دقیق تبدیل می‌کند؛ آن هم تنها با یک تصویر.
تبلیغات

اپل مدلی با نام SHARP معرفی کرده که می‌تواند تنها با یک تصویر دوبعدی، صحنه‌ای سه‌بعدی را در کمتر از یک ثانیه بازسازی کند.

اپل در پژوهشی با عنوان Sharp Monocular View Synthesis in Less Than a Second توضیح می‌دهد چگونه این مدل را آموزش داده تا ضمن حفظ مقیاس و فاصله‌ها در دنیای واقعی، نمایش سه‌بعدی دقیقی از صحنه بسازد.

پخش از رسانه

در عمل، شارپ یک بازنمایی سه‌بعدی از صحنه را پیش‌بینی می‌کند که امکان رندر آن از زاویه‌های نزدیک‌به تصویر اصلی وجود دارد. هسته‌ی این روش بر پایه‌ی Gaussian Splatting شکل گرفته؛ جایی که هر «گاوسی سه‌بعدی» مانند توده‌ای کوچک و محو از رنگ و نور در فضا عمل می‌کند و کنار هم قرارگرفتن میلیون‌ها نمونه از آن‌ها، یک صحنه‌ی سه‌بعدی باورپذیر را بازسازی می‌کند.

در حالی‌ که روش‌های متداول Gaussian splatting به ده‌ها یا حتی صدها تصویر از یک صحنه با زوایای مختلف نیاز دارند، مدل شارپ می‌تواند تنها با یک عکس و در یک عبور از شبکه‌ی عصبی، بازنمایی کامل سه‌بعدی را پیش‌بینی کند.

برای رسیدن به این نتیجه، اپل شارپ را با حجم بزرگی از داده‌های مصنوعی و دنیای واقعی آموزش داده تا الگوهای مشترک عمق و هندسه را در صحنه‌های مختلف یاد بگیرد. به‌این‌ترتیب، مدل هنگام دریافت یک تصویر جدید، ابتدا عمق را تخمین می‌زند، سپس با تکیه بر آموخته‌های قبلی آن را اصلاح می‌کند و در نهایت، موقعیت و ظاهر میلیون‌ها گاوسی سه‌بعدی را در یک مرحله پیش‌بینی می‌کند.

این رویکرد امکان بازسازی سریع یک صحنه‌ی سه‌بعدی معقول را بدون نیاز به چند تصویر یا بهینه‌سازی‌های زمان‌بر برای هر صحنه فراهم می‌کند.

با این حال، یک محدودیت وجود دارد: شارپ تمرکز خود را روی زاویه‌های نزدیک به دید اولیه می‌گذارد و بخش‌هایی از صحنه را که در تصویر اصلی دیده نمی‌شوند، به‌طور کامل تولید نمی‌کند. به همین دلیل، کاربر نمی‌تواند بیش از حد از زاویه‌ی ثبت‌شده‌ی اولیه فاصله بگیرد.

همین محدودیت باعث شده مدل هم سریع باقی بماند و هم خروجی‌ای پایدار و باورپذیر ارائه دهد؛ ترکیبی که تولید نتیجه در کمتر از یک ثانیه را ممکن کرده است. اپل برای نمایش عملکرد شارپ، آن را با Gen3C —یکی از قوی‌ترین روش‌های پیشین— مقایسه می‌کند.

اپل کد شارپ را در گیت‌هاب منتشر کرده و کاربران در حال آزمایش آن و به‌اشتراک‌گذاری نتایج هستند. برخی از نتایج فراتر از هدف اولیه‌ی اپل رفته و به‌صورت ویدیو ارائه شده‌اند؛ موضوعی که نشان می‌دهد این مدل یا دست‌کم رویکرد زیربنایی آن، می‌تواند در آینده به کاربردهای گسترده‌تری گسترش یابد.

تبلیغات
تبلیغات

نظرات