هوش مصنوعی جدید اپل میتواند تصاویر را ببیند، بسازد و ویرایش کند
تیمی از پژوهشگران اپل با تکیه بر مدل هوش مصنوعی قبلی خود به نام UniGen از UniGen 1.5 رونمایی کردهاند؛ سیستمی که میتواند در قالب یک مدل واحد، تصاویر را درک کند، بسازد و ویرایش کند.
ادامه مسیر UniGen
پژوهشگران اپل قبلاً مقالهای منتشر کردند که در آن یک مدل زبانی بزرگ چندوجهی معرفی شد. مدل مذکور میتوانست بدون نیاز به مدلهای جداگانه، توانایی درک و تولید تصویر را در سیستم یکپارچه ارائه دهد.
اکنون اپل در مقالهی جدیدی با عنوان UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning، نسخهی تکاملیافتهی این مدل را معرفی کرده است.
UniGen 1.5 چگونه کار میکند؟
مدل UniGen 1.5 علاوهبر درک و تولید تصویر، قابلیت ویرایش تصویر را نیز به همان چارچوب یکپارچه اضافه میکند. این رویکرد برخلاف بسیاری از سیستمهای فعلی است که هرکدام از این وظایف را به مدلهای جداگانه میسپارند.
یکپارچهسازی قابلیتها کار سادهای نیست، زیرا درک تصویر و تولید آن به رویکردهای متفاوتی نیاز دارند. بااین حال، پژوهشگران اپل معتقدند مدلی که تصویر را بهتر «میفهمد»، میتواند در تولید و ویرایش آن نیز عملکرد دقیقتری داشته باشد.
چالش ویرایش تصویر و راهحل اپل
به گفتهی محققان اپل، یکی از بزرگترین مشکلات مدلهای ویرایش تصویر، ناتوانی در درک کامل دستورهای پیچیده و جزئی است؛ بهویژه زمانی که تغییرات بسیار ظریف یا کاملاً هدفمند باشند.
برای حل این مشکل، UniGen 1.5 از مرحلهای جدید پس از آموزش نظارتشده (Post-SFT) به نام Edit Instruction Alignment استفاده میکند. در این مرحله، مدل ابتدا تصویر اولیه و دستور ویرایش را دریافت و سپس تلاش میکند توصیف متنی دقیقی از تصویر نهایی تولید کند؛ توصیفی که محتوای معنایی تصویر ویرایششده را مشخص میکند.
این گام میانی کمک میکند مدل پیش از ساخت تصویر نهایی، درک عمیقتری از نتیجهی مورد انتظار داشته باشد و ویرایش را دقیقتر انجام دهد.
یادگیری تقویتی با پاداش یکسان
پژوهشگران با یک نوآوری مهم در UniGen 1.5 از یادگیری تقویتی استفاده کردهاند؛ سیستم پاداش یکسان برای تولید و ویرایش تصویر. این موضوع پیشتر چالشبرانگیز بود، زیرا ویرایش تصویر میتواند از تغییرات جزئی تا دگرگونی کامل تصویر را شامل شود.
نتایج آزمایشها نشان میدهد UniGen 1.5 در بنچمارکهای معتبر صنعت که میزان پایبندی به دستور، کیفیت بصری و توانایی ویرایشهای پیچیده را میسنجند، عملکردی همسطح یا بهتر از بسیاری از مدلهای پیشرفتهی متنباز و اختصاصی داشته است. این مدل در آزمونهای GenEval و DPG-Bench امتیازهای ۰٫۸۹ و ۸۶٫۸۳ را ثبت کرد و در بخش ویرایش تصویر نیز امتیاز کلی ۴٫۳۱ را بهدست آورد؛ عددی که آن را بالاتر از مدلهایی مانند OminiGen2 و در سطح مدلهای اختصاصی قرار میدهد.
محدودیتها
با وجود پیشرفتهای UniGen 1.5، این مدل همچنان در تولید دقیق متن داخل تصاویر و حفظ ثبات هویت در برخی سناریوها با مشکل مواجه است. برای مثال، گاهی شکل یا بافت چهرهی یک حیوان یا رنگ پرهای پرنده در ویرایشهای متوالی تغییر میکند. پژوهشگران تأکید میکنند که رفع این محدودیتها به بهبودهای بیشتری در نسخههای آینده نیاز دارد.