هوش مصنوعی تحسینبرانگیز اپل، تصاویر دوبعدی را به سهبعدی تبدیل میکند
اپل مدلی با نام SHARP معرفی کرده که میتواند تنها با یک تصویر دوبعدی، صحنهای سهبعدی را در کمتر از یک ثانیه بازسازی کند.
اپل در پژوهشی با عنوان Sharp Monocular View Synthesis in Less Than a Second توضیح میدهد چگونه این مدل را آموزش داده تا ضمن حفظ مقیاس و فاصلهها در دنیای واقعی، نمایش سهبعدی دقیقی از صحنه بسازد.
پخش از رسانه
در عمل، شارپ یک بازنمایی سهبعدی از صحنه را پیشبینی میکند که امکان رندر آن از زاویههای نزدیکبه تصویر اصلی وجود دارد. هستهی این روش بر پایهی Gaussian Splatting شکل گرفته؛ جایی که هر «گاوسی سهبعدی» مانند تودهای کوچک و محو از رنگ و نور در فضا عمل میکند و کنار هم قرارگرفتن میلیونها نمونه از آنها، یک صحنهی سهبعدی باورپذیر را بازسازی میکند.
در حالی که روشهای متداول Gaussian splatting به دهها یا حتی صدها تصویر از یک صحنه با زوایای مختلف نیاز دارند، مدل شارپ میتواند تنها با یک عکس و در یک عبور از شبکهی عصبی، بازنمایی کامل سهبعدی را پیشبینی کند.
برای رسیدن به این نتیجه، اپل شارپ را با حجم بزرگی از دادههای مصنوعی و دنیای واقعی آموزش داده تا الگوهای مشترک عمق و هندسه را در صحنههای مختلف یاد بگیرد. بهاینترتیب، مدل هنگام دریافت یک تصویر جدید، ابتدا عمق را تخمین میزند، سپس با تکیه بر آموختههای قبلی آن را اصلاح میکند و در نهایت، موقعیت و ظاهر میلیونها گاوسی سهبعدی را در یک مرحله پیشبینی میکند.
این رویکرد امکان بازسازی سریع یک صحنهی سهبعدی معقول را بدون نیاز به چند تصویر یا بهینهسازیهای زمانبر برای هر صحنه فراهم میکند.
با این حال، یک محدودیت وجود دارد: شارپ تمرکز خود را روی زاویههای نزدیک به دید اولیه میگذارد و بخشهایی از صحنه را که در تصویر اصلی دیده نمیشوند، بهطور کامل تولید نمیکند. به همین دلیل، کاربر نمیتواند بیش از حد از زاویهی ثبتشدهی اولیه فاصله بگیرد.
همین محدودیت باعث شده مدل هم سریع باقی بماند و هم خروجیای پایدار و باورپذیر ارائه دهد؛ ترکیبی که تولید نتیجه در کمتر از یک ثانیه را ممکن کرده است. اپل برای نمایش عملکرد شارپ، آن را با Gen3C —یکی از قویترین روشهای پیشین— مقایسه میکند.
اپل کد شارپ را در گیتهاب منتشر کرده و کاربران در حال آزمایش آن و بهاشتراکگذاری نتایج هستند. برخی از نتایج فراتر از هدف اولیهی اپل رفته و بهصورت ویدیو ارائه شدهاند؛ موضوعی که نشان میدهد این مدل یا دستکم رویکرد زیربنایی آن، میتواند در آینده به کاربردهای گستردهتری گسترش یابد.