طرح مفهومی دست رباتیک با هاله‌ نورهای رنگی

پژوهشگران راز خلاقیت هوش مصنوعی را کشف کردند

یک‌شنبه 13 مهر 1404 - 20:15مطالعه 8 دقیقه
دانشمندان با کالبدشکافی ذهن دیجیتال هوش مصنوعی، به ترکیبات پنهانی دست یافتند که به آن‌ها قدرت ایده‌پردازی و نوآوری می‌دهد.
تبلیغات

زمانی فکر می‌کردیم آینده‌مان پر از خودروهای خودرانی باشد که بی‌نیاز از راننده ما را به مقصد می‌رسانند و ربات‌هایی که در خانه کارها را انجام می‌دهند. اما در عوض، شاهد ظهور سیستم‌های هوش مصنوعی بوده‌ایم که ما را در شطرنج شکست می‌دهند، حجم عظیمی از متون را تحلیل می‌کنند و حتی غزل می‌سرایند.

شاید یکی از عجایب عصر مدرن همین باشد که وظایف فیزیکی که برای انسان‌ها ساده‌اند، برای ربات‌ها بسیار دشوار از آب درآمده‌اند، درحالی‌که الگوریتم‌ها به شکل فزاینده‌ای توانسته‌اند هوش ما را تقلید کنند.

اما نکته‌ی دیگری که ذهن پژوهشگران را به خود مشغول می‌کند، استعداد عجیب این الگوریتم‌ها در نوعی خلاقیت منحصربه‌فرد است.

مدل‌های دیفیوژن (Diffusion models)، که فناوری محوری ابزارهایی مانند DALLE ،Imagen و Stable Diffusion را محسوب می‌شوند، برای بازتولید دقیق تصاویری طراحی شده‌اند که با آن‌ها آموزش‌دیده‌اند. اما در عمل، به نظر می‌رسد که بداهه‌پردازی می‌کنند و با ترکیب عناصر مختلف، چیزی نو می‌آفرینند؛ نه فقط شکل‌های رنگی بی‌معنی، بلکه تصاویری منسجم با معنای مشخص.

چکیده متنی و خلاصه صوتی

خلاقیت شگفت‌انگیز در مولدهای تصویر هوش مصنوعی، یک مهارت آموخته‌شده نیست، بلکه نتیجه‌ای ناگزیر از محدودیت‌های فنی در طراحی خود آنهاست. پژوهشی جدید نشان می‌دهد که این سیستم‌ها در فرآیند بازسازی تصویر از نویز دیجیتال، برای افزایش کارایی تنها بر روی وصله‌های کوچک و محلی از پیکسل‌ها تمرکز می‌کنند، بدون آنکه تصویری کلی از نتیجه نهایی داشته باشند.

همین رویکرد «از پایین به بالا»، هوش مصنوعی را وادار به بداهه‌پردازی و ترکیب عناصر به شیوه‌هایی کاملاً نو می‌کند و باعث می‌شود آنچه ما به عنوان جرقه‌ی خلاقیت می‌بینیم، در واقع محصول جانبی و قابل پیش‌بینی معماری ناقص اما هوشمندانه‌ی این مدل‌ها باشد.

به گفته‌ی جولیو بیرولی، فیزیک‌دان و پژوهشگر هوش مصنوعی در «اکول نرمال سوپریور» پاریس، این همان «پارادوکس» مدل‌های دیفیوژن است. او می‌گوید: «اگر این مدل‌ها بی‌نقص کار می‌کردند، باید صرفاً تصاویر را به‌خاطر می‌سپردند. اما این‌طور نیست؛ آن‌ها واقعاً قادر به تولید نمونه‌های جدید هستند.»

مدل‌های دیفیوژن برای تولید تصویر از فرایندی به نام «نویززدایی» (denoising) استفاده می‌کنند. آن‌ها ابتدا یک تصویر را به نویز دیجیتال (مجموعه‌ای نامنسجم از پیکسل‌ها) تبدیل کرده و سپس آن را بازسازی می‌نمایند.

این فرایند شبیه آن است که یک تابلوی نقاشی را بارها و بارها در دستگاه کاغذخردکن بیندازید تا تنها تلی از غبار رنگی باقی بماند. سپس تلاش کنید آن تکه‌ها را دوباره به هم بچسبانید و تصویری بسازید.

سال‌ها بود که پژوهشگران از خود می‌پرسیدند: اگر این مدل‌ها فقط در حال «کنارهم چیدن» هستند، پس عنصر نوآوری چگونه وارد تصویر می‌شود؟ انگار که تابلوی خردشده‌ی خود را به شکل یک اثر هنری کاملاً جدید ببینید.

طبق مطالعات جدید، خلاقیت هوش مصنوعی در واقع یک فرآیند جبری است

اکنون دو فیزیکدان ادعایی تکان‌دهنده مطرح کرده‌اند: آنچه خلاقیت مدل‌های انتشار را رقم می‌زند، نه کمال فنی آن‌ها، بلکه نقص‌های ذاتی در فرایند حذف نویز است. آن‌ها در مقاله‌ای که قرار است در کنفرانس بین‌المللی یادگیری ماشین ۲۰۲۵ ارائه شود، مدلی ریاضی از این مدل‌های دیفیوژن آموزش‌دیده ساخته‌اند و تا نشان دهند که این خلاقیتِ به‌اصطلاح، در واقع یک فرآیند جبری (deterministic) است؛ یعنی پیامدی مستقیم و ناگزیر از معماری خودِ این سیستم‌ها.

این پژوهش با روشن‌کردن آنچه پیش‌تر یک «جعبه‌ی سیاه» به نظر می‌رسید، می‌تواند پیامدهای بزرگی برای تحقیقات آینده‌ی هوش مصنوعی داشته باشد و شاید حتی نگاه ما را به ماهیت خلاقیت انسانی تغییر دهد.

لوکا آمبروژیونی، دانشمند علوم کامپیوتر در دانشگاه رادبود هلند می‌گوید: «نقطه‌ی قوت واقعی این مقاله آن است که پیش‌بینی‌های بسیار دقیقی از پدیده‌ای بسیار غیربدیهی ارائه می‌دهد.»

سازمان‌دهی از پایین‌به‌بالا

میسون کمب دانشجوی کارشناسی ارشد فیزیک کاربردی در دانشگاه استنفورد
میسون کمب، کارشناس ارشد فیزیک کاربردی و محقق هوش مصنوعی
سوریا گانگولی فیزیکدان و محقق عصب‌شناسی در استنفورد
سوریا گانگولی فیزیکدان و محقق عصب‌شناسی در استنفورد

میسون کمب، دانشجوی کارشناسی‌ارشد فیزیک کاربردی در دانشگاه استنفورد و نویسنده‌ی اصلی این مقاله، مدت‌ها مجذوب «مورفوژنز» یا ریخت‌زایی بود: فرایندی که طی آن سیستم‌های زنده خودشان را سامان‌دهی می‌کنند.

یکی از راه‌های درک رشد جنین در انسان و دیگر جانوران، مفهومی است به نام الگوی تورینگ؛ نظریه‌ای برگرفته از کارهای ریاضی‌دان بزرگ قرن بیستم، آلن تورینگ. این الگو توضیح می‌دهد چگونه دسته‌ای از سلول‌ها می‌توانند خودشان را به‌صورت اندام‌ها و اعضای مشخص سازماندهی کنند.

نکته‌ی جالب اینکه این هماهنگی کاملاً در سطح محلی رخ می‌دهد؛ یعنی هیچ مدیری بالای سر آن تریلیون‌ها سلول وجود ندارد که مطمئن شود همگی از یک نقشه‌ی نهایی بدن پیروی می‌کنند.

به‌عبارت‌دیگر، سلول‌های منفرد هیچ طرح کاملی از بدن در اختیار ندارند تا کار خود را بر اساس آن انجام دهند. آن‌ها صرفاً در پاسخ به سیگنال‌های دریافتی از همسایگان خود عمل می‌کنند و اصلاحات لازم را انجام می‌دهند. این سیستمِ «پایین به بالا» معمولاً بی‌اشکال پیش می‌رود، اما گاهی خطا می‌کند و نتیجه می‌شود دستی با انگشتان اضافه.

وقتی اولین تصاویر تولیدشده با هوش مصنوعی در اینترنت ظاهر شدند، بسیاری از آن‌ها شبیه نقاشی‌های سورئالیستی بودند و انسان‌هایی با انگشتان اضافه را به تصویر می‌کشیدند. این تصاویر بلافاصله کمب را به یاد مورفوژنز انداخت. او می‌گوید:

«ماجرا دقیقاً بوی خطایی را می‌داد که از یک سیستم [پایین به بالا] انتظار داری.»

پژوهشگران هوش مصنوعی در آن زمان می‌دانستند که مدل‌های دیفیوژن هنگام تولید تصویر، برای سرعت و کارایی، چند «میان‌بُر فنی» می‌زنند.

اولین میان‌بر «محلی‌گرایی» (locality) نام دارد: این مدل‌ها در هر لحظه فقط به یک گروه یا «وصله» (patch) از پیکسل‌ها توجه می‌کنند. دومین میان‌بر، پایبندی به یک قانون سخت‌گیرانه است: برای مثال، اگر تصویر ورودی را حتی چند پیکسل جابه‌جا کنید، سیستم به‌طور خودکار همان تغییر را در تصویر خروجی نیز اعمال می‌کند

این ویژگی که «هم‌ارزی انتقالی» (translational equivariance) نامیده می‌شود، راهکار مدل برای حفظ ساختار منسجم است و بدون آن، خلق تصاویر واقع‌گرایانه بسیار دشوارتر می‌شود.

مدل‌های دیفیوژن هنگام تولید تصویر، برای سرعت و کارایی، چند «میان‌بر فنی» می‌زنند

تا حدی به دلیل همین ویژگی‌ها، مدل‌های دیفیوژن هیچ توجهی به این ندارند که یک وصله‌ی خاص در کجای تصویر نهایی قرار خواهد گرفت. آن‌ها فقط روی تولید تک‌تک وصله‌ها تمرکز می‌کنند و سپس با استفاده از یک مدل ریاضی به نام «تابع امتیاز» (score function) که می‌توان آن را نوعی الگوی تورینگ دیجیتال در نظر گرفت به طور خودکار آن‌ها را در جای خود قرار می‌دهند.

پژوهشگران مدت‌ها بود که محلی‌گرایی و هم‌ارزی انتقالی را صرفاً محدودیت‌های فرآیند نویززدایی می‌دانستند؛ ایرادات فنی‌ای که مانع از آن می‌شد که مدل‌های دیفیوژن کپی‌های بی‌نقصی از تصاویر بسازند. هیچ‌کس فکر نمی‌کرد همین محدودیت‌ها ارتباطی با خلاقیت داشته باشند؛ چرا که خلاقیت پدیده‌ای «سطح بالاتر» تصور می‌شد.

اما شگفتی دیگری در راه بود.

محصولی از محدودیت‌ها

کمب کار تحقیقاتی خود را در سال ۲۰۲۲ در آزمایشگاه سوریا گانگولی آغاز کرد؛ فیزیکدانی در استنفورد که در حوزه‌های عصب‌شناسی و مهندسی برق نیز فعالیت دارد. در همان سال، شرکت OpenAI از ChatGPT رونمایی کرد و توجه همگان را به حوزه‌ای که امروز به نام «هوش مصنوعی مولد» می‌شناسیم، جلب کرد. درحالی‌که توسعه‌دهندگان فناوری روی ساخت مدل‌های قدرتمندتر کار می‌کردند، بسیاری از دانشگاهیان روی درک عملکرد درونی این سیستم‌ها متمرکز ماندند.

در همین راستا، کمب سرانجام به این فرضیه رسید که محلی‌گرایی و هم‌ارزی به خلاقیت منجر می‌شوند. این فرضیه، چشم‌انداز آزمایشی هیجان‌انگیز را پیش روی او گذاشت: اگر سیستمی طراحی می‌کرد که فقط روی این دو ویژگی بهینه‌سازی شود، آیا رفتاری شبیه یک مدل دیفیوژن از خود نشان می‌داد؟ این پرسش، هسته‌ی اصلی مقاله‌ی تازه‌ی او شد که به همراه گانگولی نوشت.

ماشین ELS با استفاده از مجموعه‌ای از معادلات توانست رفتاری شبیه مدل‌های هوش مصنوعی پیچیده را بازتولید کند

کَمب و گانگولی سیستم خود را ماشین امتیاز محلی هم‌ارز (ELS) نامیدند. این ماشین یک مدل دیفیوژن آموزش‌دیده نیست، بلکه مجموعه‌ای از معادلات است که می‌تواند صرفاً بر اساس مکانیک محلی‌بودن و هم‌ارزی، ترکیب نهایی تصاویرِ بازنویززدایی‌شده را پیش‌بینی کند.

آن‌ها سپس مجموعه‌ای از تصاویر را که به نویز دیجیتال تبدیل شده بودند، از دو مسیر عبور دادند: یک‌بار از دل «ماشین ELS» و بار دیگر از درون چند مدل انتشار دیفیوژن قدرتمند مانند ResNet و UNet.

به گفته‌ی گانگولی نتایج «شوکه‌کننده» بود: در تمام آزمایش‌ها، ماشین ELS توانست خروجی مدل‌های انتشار آموزش‌دیده را تقریباً به‌طور یکسان بازتولید کند، آن هم با دقتی متوسط نزدیک به ۹۰ درصد؛ نتیجه‌ای که به‌زعم او در یادگیری ماشین بی‌سابقه است.

این یافته‌ها فرضیه‌ی کَمب را تأیید می‌کردند. او توضیح می‌دهد: «به‌محض این‌که شرط محلی‌گرایی را اعمال کنید، خلاقیت به طور خودکار ظاهر می‌شود؛ کاملاً طبیعی و برخاسته از دینامیک سیستم.»

او دریافت همان مکانیزم‌هایی که پنجره‌ی توجه مدل‌های دیفیوژن را در طول فرآیند نویززدایی محدود می‌کردند و آن‌ها را وادار می‌ساختند روی وصله‌های منفرد تمرکز کنند، بدون آنکه بدانند در نهایت کجای تصویر قرار می‌گیرند؛ دقیقاً همان‌هایی هستند که خلاقیتشان را ممکن می‌سازند.

دستیابی به دقت ۹۰ درصد در شبیه‌سازی خروجی مدل‌های پیشرفته، نشان می‌دهد که خلاقیت می‌تواند محصول قانون باشد نه تصادف

حتی پدیده‌ی «انگشت‌های اضافه» که بارها در تصاویر تولیدشده توسط این مدل‌ها دیده می‌شود، چیزی نبود جز محصول جانبی همین وسواس شدید برای ساخت پچ‌های محلی، بدون درنظرگرفتن یک تصویر کلی.

کارشناسانی که برای این گزارش با آن‌ها گفت‌وگو شد، در مجموع موافق بودند که مقاله‌ی کَمب و گانگولی بخشی از سازوکار خلاقیت در مدل‌های انتشار را آشکار می‌کند، اما هنوز رازهای بسیاری باقی است. برای مثال، مدل‌های زبانی بزرگ و دیگر سیستم‌های هوش مصنوعی نیز نشانه‌هایی از خلاقیت از خود نشان می‌دهند، درحالی‌که اصول «محلی‌بودن» و «هم‌ارزی» را به‌کار نمی‌گیرند.

جولیو بی‌رولی در این باره می‌گوید: «فکر می‌کنم این بخش بسیار مهمی از داستان است؛ اما همه‌ی ماجرا نیست.»

خلقِ خلاقیت

برای اولین‌بار، پژوهشگران نشان داده‌اند که چگونه می‌توان خلاقیت مدل‌های دیفیوژن را به‌عنوان محصول جانبی خودِ فرآیند نویززدایی در نظر گرفت؛ محصولی که حتی می‌توان آن را به‌صورت ریاضی فرمول‌بندی کرد و با دقتی بی‌سابقه پیش‌بینی نمود.

این کشف تقریباً مانند آن است که عصب‌شناسان گروهی از هنرمندان را در دستگاه MRI قرار دهند و مکانیزم عصبی مشترکی را پشت خلاقیت آن‌ها بیابند که بتوان آن را در قالب مجموعه‌ای از معادلات نوشت.

این مقایسه با عصب‌شناسی شاید فراتر از یک استعاره‌ی صِرف باشد: کار کمب و گانگولی می‌تواند روزنه‌ای هم به‌سوی جعبه‌ی سیاه ذهن انسان بگشاید.

بنجامین هوور، پژوهشگر یادگیری ماشین در مؤسسه‌ی فناوری جورجیا و IBM که روی مدل‌های دیفیوژن مطالعه می‌کند، می‌گوید: «شاید خلاقیت انسان و هوش مصنوعی آن‌قدرها هم متفاوت نباشند. ما انسان‌ها نیز چیزها را بر اساس تجربیات، رؤیاها، دیده‌ها، شنیده‌ها یا خواسته‌هایمان کنار هم می‌گذاریم. هوش مصنوعی هم دقیقاً بلوک‌های سازنده‌ای را که دیده و آنچه از او خواسته شده، کنار هم می‌چیند.»

براساس این دیدگاه هم خلاقیت انسانی و هم خلاقیت مصنوعی، ریشه در درک ناقص ما از جهان دارد: همه‌ی ما در تلاشیم تا شکاف‌های دانش خود را پر کنیم و گاهی در این میان، چیزی نو و ارزشمند خلق می‌کنیم. شاید این همان چیزی باشد که آن را «خلاقیت» می‌نامیم.

تبلیغات
تبلیغات

نظرات