هوش مصنوعی جدید اپل می‌تواند تصاویر را ببیند، بسازد و ویرایش کند

جمعه 28 آذر 1404 - 20:45
مطالعه 3 دقیقه
مدل UniGen 1.5 اپل
مدل هوش مصنوعی جدید اپل مرز میان دیدن، ساختن و ویرایش تصویر را کمرنگ می‌کند و گام مهمی در مسیر هوش مصنوعی چندوجهی محسوب می‌شود.
تبلیغات

تیمی از پژوهشگران اپل با تکیه بر مدل هوش مصنوعی قبلی خود به نام UniGen از UniGen 1.5 رونمایی کرده‌اند؛ سیستمی که می‌تواند در قالب یک مدل واحد، تصاویر را درک کند، بسازد و ویرایش کند.

ادامه مسیر UniGen

پژوهشگران اپل قبلاً مقاله‌ای منتشر کردند که در آن یک مدل زبانی بزرگ چندوجهی معرفی شد. مدل مذکور می‌توانست بدون نیاز به مدل‌های جداگانه، توانایی درک و تولید تصویر را در سیستم یکپارچه ارائه دهد.

اکنون اپل در مقاله‌ی جدیدی با عنوان UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning، نسخه‌ی تکامل‌یافته‌ی این مدل را معرفی کرده است.

UniGen 1.5 چگونه کار می‌کند؟

مدل UniGen 1.5 علاوه‌بر درک و تولید تصویر، قابلیت ویرایش تصویر را نیز به همان چارچوب یکپارچه اضافه می‌کند. این رویکرد برخلاف بسیاری از سیستم‌های فعلی است که هرکدام از این وظایف را به مدل‌های جداگانه می‌سپارند.

یکپارچه‌سازی قابلیت‌ها کار ساده‌ای نیست، زیرا درک تصویر و تولید آن به رویکردهای متفاوتی نیاز دارند. بااین حال، پژوهشگران اپل معتقدند مدلی که تصویر را بهتر «می‌فهمد»، می‌تواند در تولید و ویرایش آن نیز عملکرد دقیق‌تری داشته باشد.

چالش ویرایش تصویر و راه‌حل اپل

به گفته‌ی محققان اپل، یکی از بزرگ‌ترین مشکلات مدل‌های ویرایش تصویر، ناتوانی در درک کامل دستورهای پیچیده و جزئی است؛ به‌ویژه زمانی که تغییرات بسیار ظریف یا کاملاً هدفمند باشند.

برای حل این مشکل، UniGen 1.5 از مرحله‌ای جدید پس از آموزش نظارت‌شده (Post-SFT) به نام Edit Instruction Alignment استفاده می‌کند. در این مرحله، مدل ابتدا تصویر اولیه و دستور ویرایش را دریافت و سپس تلاش می‌کند توصیف متنی دقیقی از تصویر نهایی تولید کند؛ توصیفی که محتوای معنایی تصویر ویرایش‌شده را مشخص می‌کند.

این گام میانی کمک می‌کند مدل پیش از ساخت تصویر نهایی، درک عمیق‌تری از نتیجه‌ی مورد انتظار داشته باشد و ویرایش را دقیق‌تر انجام دهد.

یادگیری تقویتی با پاداش یکسان

پژوهشگران با یک نوآوری مهم در UniGen 1.5 از یادگیری تقویتی استفاده کرده‌اند؛ سیستم پاداش یکسان برای تولید و ویرایش تصویر. این موضوع پیش‌تر چالش‌برانگیز بود، زیرا ویرایش تصویر می‌تواند از تغییرات جزئی تا دگرگونی کامل تصویر را شامل شود.

نتایج آزمایش‌ها نشان می‌دهد UniGen 1.5 در بنچمارک‌های معتبر صنعت که میزان پایبندی به دستور، کیفیت بصری و توانایی ویرایش‌های پیچیده را می‌سنجند، عملکردی هم‌سطح یا بهتر از بسیاری از مدل‌های پیشرفته‌ی متن‌باز و اختصاصی داشته است. این مدل در آزمون‌های GenEval و DPG-Bench امتیازهای ۰٫۸۹ و ۸۶٫۸۳ را ثبت کرد و در بخش ویرایش تصویر نیز امتیاز کلی ۴٫۳۱ را به‌دست آورد؛ عددی که آن را بالاتر از مدل‌هایی مانند OminiGen2 و در سطح مدل‌های اختصاصی قرار می‌دهد.

محدودیت‌ها

با وجود پیشرفت‌های UniGen 1.5، این مدل همچنان در تولید دقیق متن داخل تصاویر و حفظ ثبات هویت در برخی سناریوها با مشکل مواجه است. برای مثال، گاهی شکل یا بافت چهره‌ی یک حیوان یا رنگ پرهای پرنده در ویرایش‌های متوالی تغییر می‌کند. پژوهشگران تأکید می‌کنند که رفع این محدودیت‌ها به بهبودهای بیشتری در نسخه‌های آینده نیاز دارد.

تبلیغات
تبلیغات

نظرات