خلق تصاویر بینقص، اما نژادپرستانه؛ دلیل عدم دسترسی عموم به هوش مصنوعی گوگل مشخص شد
یکی از قابلیتهای جذابی که گوگل توسعه داده، سیستم هوش مصنوعیای است که میتواند براساس متن ورودی تصاویر مختلفی خلق کند. شرکت مذکور میگوید Imagen توسعهیافته در بخش تحقیقات گوگل، «درجهی بیسابقهای از فوتورئالیسم و سطح عمیقی از درک زبان» را ارائه میدهد.
این اولینبار نیست که مدلهای هوش مصنوعیای را مشاهده میکنیم که میتوانند تصاویر مختلف را خلق کنند. DALL-E یکی از این هوشهای مصنوعی است که میتواند متن را به تصویر تبدیل کند؛ اما توانایی آن در ساخت تصاویر واقعیتر باعث میشود نسخهی گوگل از باقی رقبا متفاوت باشد.
محققان برای اینکه بتوانند Imagen را دربرابر سایر مدلهای تبدیل متن به تصویر (ازجمله مدلهای DALL-E 2 و VQ-GAN+CLIP) بررسی کنند، بنچمارکی به نام DrawBench ایجاد کردهاند. برای مقایسه آنها، فهرستی شامل ۲۰۰ پیام متنی ایجاد و دراختیار مدلهای مذکور قرار داده شد. همچنین، از بررسیکنندگان انسانی خواسته شد تصاویر ایجادشده را ارزیابی کنند. پس از پایان آزمایش و انتشار نتیجه گوگل گفت:
گروه انسانی در مقایسه نتایج بهدستآمده از مدلهای مختلف ازنظر کیفیت نمونه و دقت تبدیل متن به تصویر، Imagen را به مدلهای دیگر ترجیح میدهند.
البته باید به این نکته اشاره کرد که نمونههای موجود در وبسایت Imagen دستچین شده هستند. درواقع، آنها احتمالاً بهترین تصاویری محسوب میشوند که هوش مصنوعی سرویس گوگل ایجاد کرده است. ازاینرو، نمیتوان تنها با نگاه به آنها دربارهی Imagen و توانایی آن قضاوت کرد؛ زیرا مطمئناً همهی تصاویر خروجی آن زیبا نیستند.
مانند بعضی از دیگر مدلها، Imagen نیز دردسترس عموم قرار ندارد؛ زیرا ازنظر گوگل هنوز کامل نیست. عموماً برای تمرین مدلهای هوش مصنوعی تبدیل متن به تصویر از مجموعه دادههای بزرگ و دستچیننشدهای استفاده میشود که دیگر در وب نیستند. همین امر میتواند مشکلاتی را بههمراه داشته باشد. محققان دربارهی این موضوع توضیح میدهند:
درحالیکه این رویکرد در سالهای اخیر پیشرفتهای الگوریتمی سریع را امکانپذیر کرده است، مجموعهدادههایی با این ماهیت اغلب منعکسکننده کلیشههای اجتماعی و دیدگاههای ظالمانه و مطالب تحقیرآمیز برای گروهی از مردم هستند.بخشی از تصاویر آموزشی بهدلیل داشتن محتوای نامطلوب فیلتر شد؛ اما ما از مجموعهداده LAION-400M نیز استفاده کردیم که حاوی طیف گستردهای از محتوای نامناسب ازجمله تصاویر مستهجن و توهینهای نژادپرستانه و کلیشههای مضر اجتماعی است.
درنتیجه، محققان این پروژه گفتند Imagen «سوگیریهای اجتماعی» را به ارث برده است؛ ازاینرو، ممکن است «کلیشههای مضر اجتماعی» را بهتصویر بکشد. این گروه میگوید یافتههای اولیه نشان میدهد مدل توسعهیافتهی آنها سوگیریهای اجتماعی منفی، ازجمله به ایجاد تصاویری از افراد با رنگ پوست روشنتر و قراردادن آنها در نقشهای جنسیتی کلیشهای تمایل دارد. علاوهبراین، آنها به امکان سوءاستفاده برخی از Imagen اشاره کردند.
گروه توسعهدهندهی Imagen نوید میدهد که این مدل هوش مصنوعی در آینده دردسترس عموم قرار خواهد گرفت؛ اما ابتدا باید مسائلی ازایندست حل شوند. یکی از موضوعاتی که آنها بررسی میکنند، ایجاد فریمورک خاصی است که بتواند تصاویر خروجی را بررسی کند.
شما همینحالا نیز میتوانید از Imagen در وبسایت رسمی آن بهصورت محدود استفاده کنید. چند جملهی ازپیشتعریفشده وجود دارد که میتوان با ترکیب آنها مدل هوش مصنوعی گوگل را به خلق تصاویری جالب واداشت. حتی میتوانید انتخاب کنید نتیجهی خروجی عکس یا نقاشی رنگ روغن باشد. دیگر گزینههای تغییردادنی شامل نوع حیوان نشاندادهشده، لباس، کار و محیط آنها میشود.