این تصویر به‌ظاهر معمولی، نکته‌ای عجیب در دل خود دارد

شنبه ۱۵ بهمن ۱۴۰۱ - ۱۷:۰۰
مطالعه 5 دقیقه
عکس گرفتن دو دختر جوان با دوربین عکاسی
تصویر این مقاله که با هوش مصنوعی خلق شده است به‌شدت واقع‌گرایانه به نظر می‌رسد، اما وقتی با دقت به دست‌ نگاه کنید، همه‌چیز عجیب می‌شود.
تبلیغات

مایلز زیمرمن، برنامه‌نویس ۳۱ ساله‌ی اهل سان فرانسیسکو، اوایل ماه گذشته‌ی میلادی مشغول کار با ابزاری هوش مصنوعی به نام Midjourney بود که همچون چند ابزار مشابه دیگر، تصاویر را از روی متن خلق می‌کند. زیمرمن پس از کار با Midjourney متوجه نکته‌ای عجیب شد.

یکی از متن‌های زیمرمن که با کمک ChatGPT تولید شده بود، جزئیات بسیار زیادی داشت: «عکسی ساده از چند جوان بیست‌و‌چند ساله‌ی شاد در سال ۲۰۱۸ که برای بیرون رفتن در شب لباس پوشیده‌اند و در یک مهمانی آپارتمانی در شهر از رقصیدن لذت می‌برند. عکس توسط نان گلدین با دوربین Fujifilm Instax Mini 9 ثبت شده است.»

در عرض تنها چند ثانیه، Midjourney تصاویری بر اساس جزئیات اعلام‌شده خلق کرد که چند جوان را در مهمانی نشان می‌داد. زیمرمن در ابتدا از جزئیات عکس، چهره‌ها، پوست، مو و لباس‌ شخصیت‌ها حیرت‌زده شد. حالات چهره‌ی این شخصیت‌ها دقیقاً مطابق توصیفات مایلز زیمرمن بود.

مایلز زیمرمن به بازفیدنیوز می‌گوید هر چه عکس را با دقت بیشتری نگاه می‌کرد، متوجه نکات عجیب‌تری می‌شد.

در یکی از این تصاویر (عکس اصلی مقاله)، زنی خوشحال را می‌بینیم که دوربینی در مقابل خودش گرفته است و قصد دارد با دوستش سلفی بگیرد. در ابتدا همه‌چیز طبیعی به نظر می‌رسد، اما وقتی به دست‌های زن نگاه کنید متوجه حالتی غیرطبیعی می‌شوید. یکی دیگر از شخصیت‌ها پنج انگشت داشت، اما انگشت‌هایش به‌طرز غیرطبیعی دراز بودند. همچنین تقریباً در تمامی تصاویر خلق‌شده، شخصیت‌ها تعداد بیش از حد زیادی دندان داشتند.

زیمرمن تصاویر را در توییتر منتشر کرد و همانطور که می‌شد انتظار داشت، این تصاویر به سرعت وایرال شدند. او می‌گوید: «هرچه به تماشا کردن ادامه دادم، نخندیدن به آن دست‌ها و دندان‌ها سخت‌تر می‌شد.»

در ماه‌های اخیر، سرویس‌هایی مثل Midjourney و Stable Diffusion و DALL-E 2 به محبوبیت قابل‌توجهی دست پیدا کرده‌اند. این سرویس‌ها که مبتنی‌بر فناوری هیجان‌انگیزی تحت عنوان هوش مصنوعی مولد هستند، از روی متن‌های ساده هر عکسی را تولید می‌کنند. انتشار این ابزارها افزون‌بر تزریق هیجان به شبکه‌های اجتماعی، انتقاداتی نیز به دنبال داشته است.

سرویس‌های این‌چنینی با استفاده از حجم عظیمی از داده‌ها تعلیم داده می‌شوند تا ارتباط بین میلیاردها عکس موجود در اینترنت و متن‌های توصیف‌کننده‌ی آن‌ها را تشخیص دهند. به موجب دسترسی به داده‌های پرشمار، این سرویس‌ها «درک می‌کنند» که کلمه‌ی «سگ» توصیف‌گر چه نوع حیوانی است. از این عکس‌ها و متن‌های توصیف‌کننده‌ی آن‌ها به‌عنوان «دیتاست» یاد می‌شود.

آثار هنری خلق‌شده از طریق هوش‌های مصنوعی که بر پایه‌ی دیتاست‌های این چنینی تعلیم داده شده‌اند هم‌اکنون کاربرد فراوانی دارند. در برخی نمونه‌ها از این تصاویر برای شرکت در مسابقات استفاده شد. همزمان تولیدکنندگان محتوا از تصاویر موردبحث در مقالات و اخبار استفاده می‌کنند.

با وجود پیشرفت‌ سریع، ابزارهای عکس‌ساز مبتنی‌بر هوش مصنوعی همچنان نمی‌توانند دست انسان را به شیوه‌ای طبیعی خلق کنند. وقتی عبارت «دست انسان» را وارد پیشرفته‌ترین ابزارهای عکس‌ساز حال حاضر دنیا یعنی Stable Diffusion و DALL-E 2 و Midjourney کنید، با چنین نتایجی مواجه می‌شوید:

عملکرد ناقص هوش‌های مصنوعی در ساخت دست انسان، باعث تولید میم‌های جدیدی در شبکه‌های اجتماعی شده است. برای مثال این نمونه در توییتر به دفعات فراوان دیده شد.

دلیل اینکه ابزارهای هوش مصنوعی تا این حد در ساخت دست انسان با مشکل مواجه می‌شوند چیست؟ این سؤال را تعداد زیادی از کاربران در شبکه‌های اجتماعی مطرح کرده‌اند.

سخنگوی شرکت Stability AI (خالق Stable Diffusion) می‌گوید: «در تصاویر مربوط به انسان در دیتاست‌های هوش مصنوعی، دست‌ها با جزئیات کمتری نسبت‌ به صورت رؤیت می‌شوند. در تصاویر منبع، دست‌ها همیشه بسیار کوچک‌تر به نظر می‌رسند.»

آملیا وینگر-بیرسکین، هنرمند و استادیار هوش مصنوعی در دانشگاه فلوریدا که از پژوهشگران شاخته‌شده‌ی سیستم‌های هوش مصنوعی مولد محسوب می‌شود، می‌گوید: «من کشته‌مرده‌ی این سؤالم! ابزارهای هوش مصنوعی مولد که بر اساس میلیاردها عکس استخراج‌شده از اینترنت تعلیم داده می‌شوند، معنای «دست» را نمی‌فهمند، بلکه نحوه‌ی نمایش دست‌ها را در تصاویر شناسایی می‌کنند. تصاویر معمولا دست‌ها را به هنگام نگه‌داشتن فنجان قهوه یا هر چیز دیگری به‌تصویر می‌کشند یا گاهی اوقات دو نفر دست‌های یکدیگر را گرفته‌اند.»

در عکس، نقاشی و اسکرین‌شات‌هایی که ابزارهای هوش مصنوعی بر پایه‌ی آن‌ها تعلیم داده می‌شوند، ممکن است سوژه‌ی اصلی تصویر میکروفون در دستش نگه داشته باشد. ممکن است دست‌ها به نوعی در عکس ثبت شده باشند که هر پنج انگشت را نتوان دید. همچنین ممکن است سوژه‌ی اصلی تصویر دستش را مشت کرده باشد، در این حالت هیچ انگشتی دیده نمی‌شود.

وینگر-بیرسکین در حالی که انگشتانش را از هم باز کرده بود به خبرنگار بازفیدنیوز گفت: «کم پیش می‌آید که در تصاویر، دست‌ها این‌چنین دیده شوند. اگر در تمامی تصاویر چنین صحنه‌ای از دست انسان ثبت می‌شد، هوش مصنوعی می‌توانست در تصاویری که خلق می‌کند، دست‌ها را به‌طور دقیق بسازد.» به گفته‌ی این پژوهشگر، هوش مصنوعی فقط در شرایطی می‌تواند دست‌ها را به درستی خلق کند که درک مناسبی از سازوکار بدن انسان و نحوه‌ی اتصال انگشتان پیدا کند.

دست در دنیای هنر جایگاهی اساسی دارد. تصاویر خلق‌شده از دست روی دیوار غارها اولین نمونه از آثار هنری خلق‌شده به دست انسان خردمند محسوب می‌شوند. هنرمندان می‌گویند طراحی دقیق دست در نقاشی‌ها، کار بسیار مشکلی است. در نقاشی‌های مربوط به یونان باستان و اروپای قرون وسطی، دست انسان با جزئیات چندان زیادی دیده نمی‌شود.

نمایش دقیق دست انسان در دوران هنر رنسانس اتفاق افتاد، یعنی زمانی که هنرمندانی مثل لئوناردو داوینچی شروع‌ به مطالعه درباره‌ی دست کردند. وینگر-بیرسکین می‌گوید: «داوینچی علاقه‌ی زیادی به دست داشت و مطالعات بسیار زیادی روی این عضو از بدن انسان انجام داد.»

استادیار دانشگاه فلوریدا می‌گوید در آینده‌ای نه‌چندان دور، ابزارهای هوش مصنوعی مولد پیشرفت قابل‌توجهی تجربه می‌کنند تا جزئیات دست، پا و دندان را با دقت بسیار بالا به‌نمایش بگذارند: «این اتفاق باید رخ دهد. هوش مصنوعی در صورتی به ابزاری مفید برای انسان تبدیل می‌شود که انسان‌بودن را درک کند.»

تبلیغات
داغ‌ترین مطالب روز

نظرات

تبلیغات