پژوهشگران راز خلاقیت هوش مصنوعی را کشف کردند
یکشنبه 13 مهر 1404 - 20:15مطالعه 8 دقیقهزمانی فکر میکردیم آیندهمان پر از خودروهای خودرانی باشد که بینیاز از راننده ما را به مقصد میرسانند و رباتهایی که در خانه کارها را انجام میدهند. اما در عوض، شاهد ظهور سیستمهای هوش مصنوعی بودهایم که ما را در شطرنج شکست میدهند، حجم عظیمی از متون را تحلیل میکنند و حتی غزل میسرایند.
شاید یکی از عجایب عصر مدرن همین باشد که وظایف فیزیکی که برای انسانها سادهاند، برای رباتها بسیار دشوار از آب درآمدهاند، درحالیکه الگوریتمها به شکل فزایندهای توانستهاند هوش ما را تقلید کنند.
اما نکتهی دیگری که ذهن پژوهشگران را به خود مشغول میکند، استعداد عجیب این الگوریتمها در نوعی خلاقیت منحصربهفرد است.
مدلهای دیفیوژن (Diffusion models)، که فناوری محوری ابزارهایی مانند DALLE ،Imagen و Stable Diffusion را محسوب میشوند، برای بازتولید دقیق تصاویری طراحی شدهاند که با آنها آموزشدیدهاند. اما در عمل، به نظر میرسد که بداههپردازی میکنند و با ترکیب عناصر مختلف، چیزی نو میآفرینند؛ نه فقط شکلهای رنگی بیمعنی، بلکه تصاویری منسجم با معنای مشخص.
چکیده متنی و خلاصه صوتی
خلاقیت شگفتانگیز در مولدهای تصویر هوش مصنوعی، یک مهارت آموختهشده نیست، بلکه نتیجهای ناگزیر از محدودیتهای فنی در طراحی خود آنهاست. پژوهشی جدید نشان میدهد که این سیستمها در فرآیند بازسازی تصویر از نویز دیجیتال، برای افزایش کارایی تنها بر روی وصلههای کوچک و محلی از پیکسلها تمرکز میکنند، بدون آنکه تصویری کلی از نتیجه نهایی داشته باشند.
همین رویکرد «از پایین به بالا»، هوش مصنوعی را وادار به بداههپردازی و ترکیب عناصر به شیوههایی کاملاً نو میکند و باعث میشود آنچه ما به عنوان جرقهی خلاقیت میبینیم، در واقع محصول جانبی و قابل پیشبینی معماری ناقص اما هوشمندانهی این مدلها باشد.
به گفتهی جولیو بیرولی، فیزیکدان و پژوهشگر هوش مصنوعی در «اکول نرمال سوپریور» پاریس، این همان «پارادوکس» مدلهای دیفیوژن است. او میگوید: «اگر این مدلها بینقص کار میکردند، باید صرفاً تصاویر را بهخاطر میسپردند. اما اینطور نیست؛ آنها واقعاً قادر به تولید نمونههای جدید هستند.»
مدلهای دیفیوژن برای تولید تصویر از فرایندی به نام «نویززدایی» (denoising) استفاده میکنند. آنها ابتدا یک تصویر را به نویز دیجیتال (مجموعهای نامنسجم از پیکسلها) تبدیل کرده و سپس آن را بازسازی مینمایند.
این فرایند شبیه آن است که یک تابلوی نقاشی را بارها و بارها در دستگاه کاغذخردکن بیندازید تا تنها تلی از غبار رنگی باقی بماند. سپس تلاش کنید آن تکهها را دوباره به هم بچسبانید و تصویری بسازید.
سالها بود که پژوهشگران از خود میپرسیدند: اگر این مدلها فقط در حال «کنارهم چیدن» هستند، پس عنصر نوآوری چگونه وارد تصویر میشود؟ انگار که تابلوی خردشدهی خود را به شکل یک اثر هنری کاملاً جدید ببینید.
طبق مطالعات جدید، خلاقیت هوش مصنوعی در واقع یک فرآیند جبری است
اکنون دو فیزیکدان ادعایی تکاندهنده مطرح کردهاند: آنچه خلاقیت مدلهای انتشار را رقم میزند، نه کمال فنی آنها، بلکه نقصهای ذاتی در فرایند حذف نویز است. آنها در مقالهای که قرار است در کنفرانس بینالمللی یادگیری ماشین ۲۰۲۵ ارائه شود، مدلی ریاضی از این مدلهای دیفیوژن آموزشدیده ساختهاند و تا نشان دهند که این خلاقیتِ بهاصطلاح، در واقع یک فرآیند جبری (deterministic) است؛ یعنی پیامدی مستقیم و ناگزیر از معماری خودِ این سیستمها.
این پژوهش با روشنکردن آنچه پیشتر یک «جعبهی سیاه» به نظر میرسید، میتواند پیامدهای بزرگی برای تحقیقات آیندهی هوش مصنوعی داشته باشد و شاید حتی نگاه ما را به ماهیت خلاقیت انسانی تغییر دهد.
لوکا آمبروژیونی، دانشمند علوم کامپیوتر در دانشگاه رادبود هلند میگوید: «نقطهی قوت واقعی این مقاله آن است که پیشبینیهای بسیار دقیقی از پدیدهای بسیار غیربدیهی ارائه میدهد.»
سازماندهی از پایینبهبالا
میسون کمب، دانشجوی کارشناسیارشد فیزیک کاربردی در دانشگاه استنفورد و نویسندهی اصلی این مقاله، مدتها مجذوب «مورفوژنز» یا ریختزایی بود: فرایندی که طی آن سیستمهای زنده خودشان را ساماندهی میکنند.
یکی از راههای درک رشد جنین در انسان و دیگر جانوران، مفهومی است به نام الگوی تورینگ؛ نظریهای برگرفته از کارهای ریاضیدان بزرگ قرن بیستم، آلن تورینگ. این الگو توضیح میدهد چگونه دستهای از سلولها میتوانند خودشان را بهصورت اندامها و اعضای مشخص سازماندهی کنند.
نکتهی جالب اینکه این هماهنگی کاملاً در سطح محلی رخ میدهد؛ یعنی هیچ مدیری بالای سر آن تریلیونها سلول وجود ندارد که مطمئن شود همگی از یک نقشهی نهایی بدن پیروی میکنند.
بهعبارتدیگر، سلولهای منفرد هیچ طرح کاملی از بدن در اختیار ندارند تا کار خود را بر اساس آن انجام دهند. آنها صرفاً در پاسخ به سیگنالهای دریافتی از همسایگان خود عمل میکنند و اصلاحات لازم را انجام میدهند. این سیستمِ «پایین به بالا» معمولاً بیاشکال پیش میرود، اما گاهی خطا میکند و نتیجه میشود دستی با انگشتان اضافه.
وقتی اولین تصاویر تولیدشده با هوش مصنوعی در اینترنت ظاهر شدند، بسیاری از آنها شبیه نقاشیهای سورئالیستی بودند و انسانهایی با انگشتان اضافه را به تصویر میکشیدند. این تصاویر بلافاصله کمب را به یاد مورفوژنز انداخت. او میگوید:
«ماجرا دقیقاً بوی خطایی را میداد که از یک سیستم [پایین به بالا] انتظار داری.»
پژوهشگران هوش مصنوعی در آن زمان میدانستند که مدلهای دیفیوژن هنگام تولید تصویر، برای سرعت و کارایی، چند «میانبُر فنی» میزنند.
اولین میانبر «محلیگرایی» (locality) نام دارد: این مدلها در هر لحظه فقط به یک گروه یا «وصله» (patch) از پیکسلها توجه میکنند. دومین میانبر، پایبندی به یک قانون سختگیرانه است: برای مثال، اگر تصویر ورودی را حتی چند پیکسل جابهجا کنید، سیستم بهطور خودکار همان تغییر را در تصویر خروجی نیز اعمال میکند
این ویژگی که «همارزی انتقالی» (translational equivariance) نامیده میشود، راهکار مدل برای حفظ ساختار منسجم است و بدون آن، خلق تصاویر واقعگرایانه بسیار دشوارتر میشود.
مدلهای دیفیوژن هنگام تولید تصویر، برای سرعت و کارایی، چند «میانبر فنی» میزنند
تا حدی به دلیل همین ویژگیها، مدلهای دیفیوژن هیچ توجهی به این ندارند که یک وصلهی خاص در کجای تصویر نهایی قرار خواهد گرفت. آنها فقط روی تولید تکتک وصلهها تمرکز میکنند و سپس با استفاده از یک مدل ریاضی به نام «تابع امتیاز» (score function) که میتوان آن را نوعی الگوی تورینگ دیجیتال در نظر گرفت به طور خودکار آنها را در جای خود قرار میدهند.
پژوهشگران مدتها بود که محلیگرایی و همارزی انتقالی را صرفاً محدودیتهای فرآیند نویززدایی میدانستند؛ ایرادات فنیای که مانع از آن میشد که مدلهای دیفیوژن کپیهای بینقصی از تصاویر بسازند. هیچکس فکر نمیکرد همین محدودیتها ارتباطی با خلاقیت داشته باشند؛ چرا که خلاقیت پدیدهای «سطح بالاتر» تصور میشد.
اما شگفتی دیگری در راه بود.
محصولی از محدودیتها
کمب کار تحقیقاتی خود را در سال ۲۰۲۲ در آزمایشگاه سوریا گانگولی آغاز کرد؛ فیزیکدانی در استنفورد که در حوزههای عصبشناسی و مهندسی برق نیز فعالیت دارد. در همان سال، شرکت OpenAI از ChatGPT رونمایی کرد و توجه همگان را به حوزهای که امروز به نام «هوش مصنوعی مولد» میشناسیم، جلب کرد. درحالیکه توسعهدهندگان فناوری روی ساخت مدلهای قدرتمندتر کار میکردند، بسیاری از دانشگاهیان روی درک عملکرد درونی این سیستمها متمرکز ماندند.
در همین راستا، کمب سرانجام به این فرضیه رسید که محلیگرایی و همارزی به خلاقیت منجر میشوند. این فرضیه، چشمانداز آزمایشی هیجانانگیز را پیش روی او گذاشت: اگر سیستمی طراحی میکرد که فقط روی این دو ویژگی بهینهسازی شود، آیا رفتاری شبیه یک مدل دیفیوژن از خود نشان میداد؟ این پرسش، هستهی اصلی مقالهی تازهی او شد که به همراه گانگولی نوشت.
ماشین ELS با استفاده از مجموعهای از معادلات توانست رفتاری شبیه مدلهای هوش مصنوعی پیچیده را بازتولید کند
کَمب و گانگولی سیستم خود را ماشین امتیاز محلی همارز (ELS) نامیدند. این ماشین یک مدل دیفیوژن آموزشدیده نیست، بلکه مجموعهای از معادلات است که میتواند صرفاً بر اساس مکانیک محلیبودن و همارزی، ترکیب نهایی تصاویرِ بازنویززداییشده را پیشبینی کند.
آنها سپس مجموعهای از تصاویر را که به نویز دیجیتال تبدیل شده بودند، از دو مسیر عبور دادند: یکبار از دل «ماشین ELS» و بار دیگر از درون چند مدل انتشار دیفیوژن قدرتمند مانند ResNet و UNet.
به گفتهی گانگولی نتایج «شوکهکننده» بود: در تمام آزمایشها، ماشین ELS توانست خروجی مدلهای انتشار آموزشدیده را تقریباً بهطور یکسان بازتولید کند، آن هم با دقتی متوسط نزدیک به ۹۰ درصد؛ نتیجهای که بهزعم او در یادگیری ماشین بیسابقه است.
این یافتهها فرضیهی کَمب را تأیید میکردند. او توضیح میدهد: «بهمحض اینکه شرط محلیگرایی را اعمال کنید، خلاقیت به طور خودکار ظاهر میشود؛ کاملاً طبیعی و برخاسته از دینامیک سیستم.»
او دریافت همان مکانیزمهایی که پنجرهی توجه مدلهای دیفیوژن را در طول فرآیند نویززدایی محدود میکردند و آنها را وادار میساختند روی وصلههای منفرد تمرکز کنند، بدون آنکه بدانند در نهایت کجای تصویر قرار میگیرند؛ دقیقاً همانهایی هستند که خلاقیتشان را ممکن میسازند.
دستیابی به دقت ۹۰ درصد در شبیهسازی خروجی مدلهای پیشرفته، نشان میدهد که خلاقیت میتواند محصول قانون باشد نه تصادف
حتی پدیدهی «انگشتهای اضافه» که بارها در تصاویر تولیدشده توسط این مدلها دیده میشود، چیزی نبود جز محصول جانبی همین وسواس شدید برای ساخت پچهای محلی، بدون درنظرگرفتن یک تصویر کلی.
کارشناسانی که برای این گزارش با آنها گفتوگو شد، در مجموع موافق بودند که مقالهی کَمب و گانگولی بخشی از سازوکار خلاقیت در مدلهای انتشار را آشکار میکند، اما هنوز رازهای بسیاری باقی است. برای مثال، مدلهای زبانی بزرگ و دیگر سیستمهای هوش مصنوعی نیز نشانههایی از خلاقیت از خود نشان میدهند، درحالیکه اصول «محلیبودن» و «همارزی» را بهکار نمیگیرند.
جولیو بیرولی در این باره میگوید: «فکر میکنم این بخش بسیار مهمی از داستان است؛ اما همهی ماجرا نیست.»
خلقِ خلاقیت
برای اولینبار، پژوهشگران نشان دادهاند که چگونه میتوان خلاقیت مدلهای دیفیوژن را بهعنوان محصول جانبی خودِ فرآیند نویززدایی در نظر گرفت؛ محصولی که حتی میتوان آن را بهصورت ریاضی فرمولبندی کرد و با دقتی بیسابقه پیشبینی نمود.
این کشف تقریباً مانند آن است که عصبشناسان گروهی از هنرمندان را در دستگاه MRI قرار دهند و مکانیزم عصبی مشترکی را پشت خلاقیت آنها بیابند که بتوان آن را در قالب مجموعهای از معادلات نوشت.
این مقایسه با عصبشناسی شاید فراتر از یک استعارهی صِرف باشد: کار کمب و گانگولی میتواند روزنهای هم بهسوی جعبهی سیاه ذهن انسان بگشاید.
بنجامین هوور، پژوهشگر یادگیری ماشین در مؤسسهی فناوری جورجیا و IBM که روی مدلهای دیفیوژن مطالعه میکند، میگوید: «شاید خلاقیت انسان و هوش مصنوعی آنقدرها هم متفاوت نباشند. ما انسانها نیز چیزها را بر اساس تجربیات، رؤیاها، دیدهها، شنیدهها یا خواستههایمان کنار هم میگذاریم. هوش مصنوعی هم دقیقاً بلوکهای سازندهای را که دیده و آنچه از او خواسته شده، کنار هم میچیند.»
براساس این دیدگاه هم خلاقیت انسانی و هم خلاقیت مصنوعی، ریشه در درک ناقص ما از جهان دارد: همهی ما در تلاشیم تا شکافهای دانش خود را پر کنیم و گاهی در این میان، چیزی نو و ارزشمند خلق میکنیم. شاید این همان چیزی باشد که آن را «خلاقیت» مینامیم.