هوش مصنوعی «زنده» میشود؛ یادگیری از تجربههای محیطی، بدون دخالت انسانی
آیا روزی ماشینها میتوانند مانند انسانها از تجربههایشان یاد بگیرند؟ جامعهی پژوهشگران هوش مصنوعی اخیراً تلاش کرده است فناوریهای مولد (Generative) را فراتر از آزمونهای سادهای که مدلها بهراحتی از آنها عبور میکنند، توسعه دهد.
مدلها امروز آنقدر تواناییهای مختلف کسب کردهاند که آزمون تورینگ بهنوعی کارایی خود را از دست داده است. مدلهای جدید حالا میتوانند با تقلید از الگوهای زبانی انسان، از این آزمون عبور کنند، اما موفقیت آنها لزوماً نشاندهندهی درک واقعی یا هوشمندی عمیق نیست. این موضوع بحث داغی را میان پژوهشگران ایجاد کرده است: آیا مدلهای جدید صرفاً برای عبور از بنچمارکها طراحی شدهاند یا واقعاً هوشمندی لازم برای تولید نتایج فوقالعاده را دارند؟
بهگفتهی پژوهشگران دیپمایند گوگل، آزمونها مشکل اصلی نیستند، بلکه محدودیت امروز در روشهای توسعهی مدلهای هوش مصنوعی است. دادههای آموزشی این مدلها بسیار محدود و ایستا هستند و معمولاً از مجموعههای ثابت متنی مانند ویکیپدیا یا کتابها تشکیل شدهاند که نمیتوانند با تغییرات و پویاییهای دنیای واقعی هماهنگ شوند. همین محدودیت باعث میشود مدلها نتوانند در مواجهه با موقعیتهای جدید، دانش خود را بهروزرسانی کنند.
پژوهشگران دیپمایند در مقالهای که ۱۱ آوریل ۲۰۲۵ منتشر شد و بخشی از کتاب در دست انتشار «طراحی یک هوش» از انتشارات MIT است، پیشنهاد کردهاند که هوش مصنوعی باید بتواند از طریق تعامل مستقیم با جهان واقعی، مانند دریافت بازخورد از محیط یا کاربران، تجربه کسب کند و اهداف خود را براساس سیگنالهای محیطی تعیین کند. دیوید سیلوِر (David Silver) و ریچارد ساتِن (Richard Sutton)، پژوهشگران ارشد دیپمایند، در این مقاله با عنوان «به عصر تجربه خوش آمدید» مینویسند:
تواناییهای خارقالعاده زمانی پدیدار میشوند که پتانسیل کامل یادگیری تجربی مورد استفاده قرار گیرد.
این دو پژوهشگر از چهرههای شاخص حوزهی یادگیری ماشین هستند. سیلور بهعنوان رهبر تیم توسعهدهندهی آلفازِرو (AlphaZero) شناخته میشود؛ مدلی که در بازیهای شطرنج و گو هوش انسانی را شکست داد. ساتن نیز یکی از خالقان یادگیری تقویتی (Reinforcement Learning) است؛ روشی که پایهی ساخت آلفازِرو بود و جایزهی تورینگ را برای او به ارمغان آورد.
یادگیری تقویتی در رباتیک برای آموزش رباتها به انجام وظایف پیچیده، مانند جابهجایی اشیا، استفاده میشود
یادگیری تقویتی با مفاهیمی مانند یادگیری تفاوت زمانی، که به ماشینها امکان پیشبینی پاداشهای آینده را میداد، از دههی ۱۹۸۰ توسعه یافت. روشهای کاوش، مانند الگوریتمهای مبتنی بر کنجکاوی، به ماشینها کمک کردند تا استراتژیهای خلاقانهای کشف کنند. در این روش، مدل با آزمون و خطا و دریافت بازخورد (پاداش یا جریمه) از محیط، رفتار خود را بهبود میبخشد.
بهدلیل وابستگی زیاد به آزمون و خطا، یادگیری تقویتی نیاز به طراحی سیستمهای پاداش پیچیدهای دارد که تنظیم آنها در دنیای واقعی میتواند دشوار باشد، زیرا محیطهای واقعی غیرقابل پیشبینی هستند و پیشبینی تمام پیامدهای یک اقدام دشوار است.
برای مثال، در یک سیستم خودران، تعیین پاداش مناسب برای هر اقدام (مانند ترمز کردن یا تغییر مسیر) نیاز به تحلیل دقیق و پیشبینی عواقب بلندمدت دارد، که در محیطهای پویا و غیرقابل پیشبینی چالشبرانگیز است.
رویکردی که سیلور و ساتن از آن دفاع میکنند، براساس یادگیری تقویتی و درسهای آلفازِرو بنا شده و «جریانها» (Streams) نام دارد. هدف آن رفع کاستیهای مدلهای زبانی بزرگ (مانند GPT) است که صرفاً برای پاسخگویی به سؤالات تکجملهای طراحی شدهاند. این دو پژوهشگر اشاره میکنند که پس از موفقیت آلفازِرو و مدل پیشین آن، آلفاگو، نسل جدید هوشهای مصنوعی مولد مانند GPT ظهور کردند و یادگیری تقویتی به نوعی کنار گذاشته شد. این تغییر هم مزایا و هم معایبی داشت.
هوش مصنوعی مولد پیشرفت مهمی بود، زیرا کاربرد یادگیری تقویتی در آلفازِرو محدود به بازیهایی با اطلاعات کامل مانند شطرنج بود که تمام قواعد آن از پیش مشخص است. در مقابل، مدلهای مولد میتوانند ورودیهای خودجوش انسانها را بدون نیاز به قواعد از پیش تعیینشده پردازش کنند.
بااینحال، بهگفتهی دو پژوهشگر ارشد دیپمایند، کنار گذاشتن یادگیری تقویتی بهمعنای از دست دادن توانایی عامل هوشمند در کشف مستقل دانش بود. آنها تأکید میکنند که مدلهای زبانی بزرگ به پیشداوری انسانها متکیاند.
هوش مصنوعی بیشازحد به دستورات کاربر (پرامپت) متکی است
به بیان دیگر، هوش مصنوعی بهجای اینکه خود به تحلیل مسائل بپردازد و راهحلهای نوآورانه ارائه دهد، بیشازحد به دستورات کاربر (پرامپت) وابستگی دارد. این رویکرد محدودکننده است، زیرا قضاوت انسان سقفی غیرقابل نفوذ بر عملکرد عامل هوشمند تحمیل میکند: عامل هوشمند نمیتواند راهبردهای بهتری را از آنچه از سوی ارزیاب انسانی نادیده گرفته شدهاند، کشف کند.
پژوهشگران دیپمایند معتقدند با ترکیب یادگیری تقویتی و تواناییهای تعاملی هوش مصنوعی مولد، میتوان به جریانهایی (Streams) دست یافت که در آنها مدلهای هوش مصنوعی بهصورت پیوسته و براساس بازخورد محیطی، دانش خود را بهروزرسانی میکنند. این معماریِ مبتنیبر تجربه، مسیر جدیدی برای خلق سیستمهایی است که نهتنها پاسخگو به سؤالات و ورودیهای کاربر باشند، بلکه فعالانه به کشف و بهبود مستمر نیز بپردازند.
گذار به عصر جریانهای تجربهمحور
اگرچه قضاوت انسانی خود یک مانع محسوب میشود، ماهیت کوتاه و فشردهی تعاملات مبتنی بر پرسش و پاسخ، اجازهی پیشرفت مدلهای هوش مصنوعی را فراتر از این چارچوب محدود نمیدهد. سیلور و ساتن مینویسند:
در عصر دادههای انسانی، تمرکز هوش مصنوعی مبتنیبر زبان، عمدتاً بر تعاملات کوتاهمدت است. مثلاً کاربر سؤالی میپرسد و عامل هوش مصنوعی (شاید پس از چند مرحله تفکر یا استفاده از ابزار) پاسخ میدهد. هدف عامل صرفاً دستیابی به نتیجهای درون همان تعامل است، مانند پاسخ مستقیم به پرسش کاربر.
در سیستمهای مولد، حافظه یا ارتباطی قوی بین بخشهای مختلف تعامل وجود ندارد. سیلور و ساتن تأکید میکنند که معمولاً، اطلاعات کمی منتقل میشود یا هیچ اطلاعاتی از یک تعامل به تعامل بعدی انتقال نمییابد و این موضوع، امکان سازگاری تدریجی را از بین میبرد. در پیشنهاد آنها برای توسعه در عصر تجربه، عاملها اینبار در جریانهای تجربه حضور خواهند داشت، نه در تعاملات کوتاه و مجزا.
جریانهای تجربه در هوش مصنوعی مانند یادگیری انسان در طول زندگی است
در توضیح جریانهای تجربه میتوان گفت که یک عامل هوش مصنوعی در یک پلتفرم آنلاین مانند شبکههای اجتماعی میتواند با تحلیل واکنشهای کاربران به پستها و پیشنهادهای خود، بهتدریج یاد بگیرد که چه نوع محتوایی جذابتر است. این عامل با دریافت بازخوردهای مستمر (مانند لایکها و نظرات)، رفتار خود را بهبود میبخشد و بهمرور زمان توصیههای دقیقتری ارائه میدهد.
دو پژوهشگر دیپمایند با تشبیه جریانهای تجربه به فرایند یادگیری انسانها در طول عمر و عمل کردن براساس اهداف بلندمدت (بهجای تمرکز صرف بر وظیفهی فعلی)، استدلال میکنند که عاملهای قدرتمند باید جریان تجربهی خود را داشته باشند که مانند انسانها در بازههای زمانی طولانی پیشرفت کند.
پایههای فناوری امروز و آغاز جریانهای تجربه
سیلور و ساتن معتقدند که فناوری امروز برای شروع ساخت این جریانها کافی به نظر میرسد. در واقع، نخستین گامها در پروژههایی مانند عاملهای هوش مصنوعی مرورگر وب (از جمله دیپ ریسرچ در جمینای) قابل مشاهده است. با کمک عاملهای آزمایشی مذکور و با استفاده از همان رابطهایی که انسانها برای کار با کامپیوتر به کار میبرند، تعامل با کامپیوترها به شیوههای جامعتر، ممکن میشود.
با فراتر رفتن عاملهای هوش مصنوعی از مرور وب، آنها به روشی برای تعامل و یادگیری از دنیای واقعی نیاز دارند. پژوهشگران دیپمایند پیشنهاد میکنند که عاملهای هوش مصنوعی با استفاده از یادگیری تقویتی، مشابه سیستم آلفازرو، در جریانهای تجربه آموزش ببینند.
در روش پیشنهادشده، مدل تحت آموزش یک مدل کلی (مشابه صفحهی شطرنج)، مجموعهای از قوانین را دریافت میکند. با کاوش و انجام اقدامات از سوی عامل، بازخوردهایی به شکل «پاداش» به عامل داده میشود. این پاداشها به مدل آموزش میدهند که در شرایط مختلف، کدام اقدامات ارزش بیشتری دارند.
البته برخی پژوهشگران معتقدند که یادگیری تقویتی در محیطهای پیچیده و غیرقابل پیشبینیای مانند دنیای واقعی ناکارآمد خواهد بود. آنها استدلال میکنند که طراحی سیستمهای پاداش برای چنین محیطهایی بسیار دشوار است و میتواند به رفتارهای ناخواسته یا غیرقابل کنترل منجر شود.
دنیای پیرامون؛ منبعی بیپایان از سیگنالهای پاداش
سیلور و ساتن اشاره میکنند که اگر به عاملها اجازه داده شود جهان واقعی را جستوجو کنند، سیگنالهای متنوعی (مانند نرخ ضربان قلب یا معیارهای زیستمحیطی) برای پاداش وجود دارد:
هنگامی که عاملها از طریق فضای گستردهی اقدامات و مشاهدات به جهان متصل شوند، سیگنالهای واقعی زیادی برای پایهریزی پاداش وجود خواهند داشت. جهان مملؤ از معیارهایی مانند هزینه، نرخ خطا، گرسنگی، بهرهوری، شاخصهای سلامت، معیارهای اقلیمی، سود، فروش، نتایج آزمونها، موفقیت، بازدیدها، بازدهی، سهام، لایکها، درآمد، لذت/درد، شاخصهای اقتصادی، دقت، قدرت، فاصله، سرعت، کارایی یا مصرف انرژی است. همچنین سیگنالهای بیشمار دیگری از رویدادهای خاص یا ویژگیهای استخراجشده از دنبالههای خام مشاهدات و اقدامات بهوجود میآیند.
برای شروع آموزش عاملها، توسعهدهندگان ممکن است از مدل کلی بهعنوان شبیهسازی استفاده کنند. این مدل به عامل اجازه میدهد پیشبینیهایی انجام دهد، آنها را در جهان واقعی آزمایش کند و سپس با استفاده از سیگنالهای پاداش، مدل را واقعیتر کند. پژوهشگران توضیح میدهند که با ادامهی تعامل عامل با جهان واقعی در طول کسب تجربه، مدل پویای آن بهطور مداوم بهروزرسانی میشود تا خطاهای پیشبینی را اصلاح کند.
در چارچوب ارائهشده در مقالهی دیپمایند، سیگنالها و سیستمهای پاداش بهعنوان ابزاری برای هدایت عاملها عمل میکنند.
دیپمایند: انسانها همچنان در تعیین اهداف کلان برای هوش مصنوعی نقش محوری خواهند داشت
بهعنوان مثال، کاربر ممکن است هدفی کلیای مانند «بهبود تناسب اندام» را مشخص کند، و تابع پاداش بر اساس دادههایی مانند ضربان قلب، مدت خواب و تعداد گامهای کاربر محاسبه شود؛ یا در هدفی مانند «یادگیری زبان اسپانیایی»، پاداش میتواند بر اساس نتایج آزمونهای کاربر تعیین شود. در این مدل، بازخورد انسانی به هدف نهایی تبدیل میشود که تمامی تلاشهای عامل هوش مصنوعی در راستای آن انجام میپذیرد.
عاملهای هوشمند با توانایی بلندمدت
پژوهشگران مقالهی دیپمایند مینویسند که عاملهای هوش مصنوعی با قابلیت برنامهریزی بلندمدت، بهویژه در نقش دستیارهای هوشمند، عملکرد بهتری خواهند داشت. چنین عاملهایی میتوانند دادههای مرتبط با خواب، رژیم غذایی یا پیشرفت تحصیلی کاربر را طی ماهها یا سالها رصد کنند و توصیههایی فراتر از روندهای کوتاهمدت ارائه دهند.
بهعنوان مثال، یک عامل علمی میتواند اهداف بلندپروازانهای مانند «کشف یک مادهی جدید» یا «کاهش دیاکسیدکربن» را دنبال کند. این عاملها قادرند مشاهدات دنیای واقعی را در بازههای طولانی تحلیل کنند، شبیهسازیهای پیچیده را اجرا کنند و آزمایشها یا مداخلات عملی پیشنهاد دهند.
به گفتهی پژوهشگران، ظهور مدلهای متفکر یا استدلالگر مانند «جمینای» گوگل، «R1» از شرکت دیپسیک و «o1» از اوپنایآی، میتوانند با ورود نسل جدیدی از عاملهای تجربهمحور (Experience Agents) کنار گذاشته شوند. مشکل اصلی مدلهای استدلالگر، تقلید از فرایندهای زبانی انسان است که به خروجیهای طولانی و تکیهکلامهای انسانی منجر میشود.
افزونبراین، تفکر انسان محدود به پیشفرضهای ذهنی دورههای خاص است. به عنوان مثال، اگر عاملی با دادههای فکری انسانی متعلق به ۵۰۰۰ سال پیش آموزش میدید، ممکن بود مسائل فیزیکی را با رویکرد «جانبخشی به اشیاء» تحلیل کند. هزار سال پیش، استدلالها رنگ و بوی «الهیات» میگرفت، ۳۰۰ سال پیش در چارچوب «مکانیک نیوتنی» عمل میکرد و ۵۰ سال پیش به «مکانیک کوانتومی» روی میآورد.
قابلیتهای بیسابقه و ریسکهای پنهان
پژوهشگران تأکید میکنند که چنین عاملهایی قابلیتهایی بیسابقه را فعال خواهند کرد و آیندهای را رقم میزنند که با هر آنچه تاکنون دیدهایم، تفاوت بنیادی دارد. بااینحال، هشدار میدهند که ریسکهای متعددی از جمله خطر جایگزینی نیروی کار انسانی و کاهش فرصتهای مداخلهی انسان در اقدامات عاملها نیز وجود دارد.
استفاده از عاملهای هوش مصنوعی در دنیای واقعی میتواند ریسکهایی جدی به همراه داشته باشد. بهعنوان مثال، اگر یک عامل هوش مصنوعی در حوزهی پزشکی تصمیم نادرستی بگیرد، میتواند جان بیماران را به خطر بیندازد. همچنین، این سیستمها میتوانند بهطور ناخواسته الگوهای تبعیضآمیز را تقویت کنند یا در صورت عدم نظارت کافی، به ابزارهایی برای سوءاستفاده تبدیل شوند. یا اگر یک عامل هوش مصنوعی در شبکههای اجتماعی به تحلیل دادههای کاربران بپردازد، ممکن است بدون اجازه، اطلاعات شخصی آنها را جمعآوری و حریم خصوصی را نقض کند.
عاملهای خودمختار ممکن است کنترل انسان بر فرایندها را تضعیف کنند
در مقابل، جنبههای مثبتی نیز قابل تصور است. عاملهای سازگارشونده (برخلاف مدلهای ثابت امروزی) میتوانند رفتار خود را هنگام ایجاد نگرانی یا نارضایتی در انسان تشخیص دهند و برای جلوگیری از عواقب منفی، آن را اصلاح کنند.
سیلور و ساتن باور دارند که جریان دادههای تجربی، چنان حجمی از اطلاعات دربارهی دنیای پیرامون تولید خواهد کرد که دادههای متنی فعلی (مانند ویکیپدیا و ردیت) را به حاشیه میراند. این عاملها حتی ممکن است به سمت هوش عمومی مصنوعی (AGI) یا ابرهوش حرکت کنند و مدلی بسازند که از انسان در همهی زمینهها پیشی بگیرد.
پژوهشگران دیپمایند درنهایت به این نتیجه رسیدند که دادههای تجربی از نظر مقیاس و کیفیت، دادههای تولیدشده از سوی انسان را تحتالشعاع قرار خواهند داد. همین تغییر چارچوب، همراه با پیشرفتهای الگوریتمی در یادگیری تقویتی، قابلیتهایی فراتر از تواناییهای انسان در حوزههای مختلف را آزاد خواهد کرد.
جریانهای تجربه میتوانند دروازهای به سوی هوش مصنوعی پیشرفتهتر باشند، اما موفقیت این فناوری به تعادل بین نوآوری و مسئولیتپذیری طراحان آنها بستگی دارد. طبق پیشبینی پژوهشگران دیپمایند، حجم و کیفیت دادههای جمعآوریشده از این تجربیات، درنهایت از دادههای تولیدشده توسط انسانها پیشی میگیرد و به ظهور قابلیتهایی بسیار فراتر از تواناییهای انسانی منجر میشود.