D1-kifpool
مدیریت چت بات های هوش مصنوعی

هوش مصنوعی «زنده» می‌شود؛‌ یادگیری از تجربه‌های محیطی، بدون دخالت انسانی

دوشنبه 8 اردیبهشت 1404
مطالعه 9 دقیقه
رویکرد جدیدی به نام «جریان‌های تجربه» (Streams) به هوش مصنوعی اجازه می‌دهد به‌طور مستقل و بدون دخالت انسانی از تجربه‌های محیطی، یاد بگیرد.
تبلیغات
D4-mcid4

آیا روزی ماشین‌ها می‌توانند مانند انسان‌ها از تجربه‌هایشان یاد بگیرند؟ جامعه‌ی پژوهشگران هوش مصنوعی اخیراً تلاش کرده است فناوری‌های مولد (Generative) را فراتر از آزمون‌های ساده‌ای که مدل‌ها به‌راحتی از آن‌ها عبور می‌کنند، توسعه دهد.

مدل‌ها امروز آنقدر توانایی‌های مختلف کسب کرده‌اند که آزمون تورینگ به‌نوعی کارایی خود را از دست داده است. مدل‌های جدید حالا می‌توانند با تقلید از الگوهای زبانی انسان، از این آزمون عبور کنند، اما موفقیت آن‌ها لزوماً نشان‌دهنده‌ی درک واقعی یا هوشمندی عمیق نیست. این موضوع بحث‌ داغی را میان پژوهشگران ایجاد کرده است: آیا مدل‌های جدید صرفاً برای عبور از بنچمارک‌ها طراحی شده‌اند یا واقعاً هوشمندی لازم برای تولید نتایج فوق‌العاده را دارند؟

به‌گفته‌ی پژوهشگران دیپ‌مایند گوگل، آزمون‌ها مشکل اصلی نیستند، بلکه محدودیت امروز در روش‌های توسعه‌ی مدل‌های هوش مصنوعی است. داده‌های آموزشی این مدل‌ها بسیار محدود و ایستا هستند و معمولاً از مجموعه‌های ثابت متنی مانند ویکی‌پدیا یا کتاب‌ها تشکیل شده‌اند که نمی‌توانند با تغییرات و پویایی‌های دنیای واقعی هماهنگ شوند. همین محدودیت باعث می‌شود مدل‌ها نتوانند در مواجهه با موقعیت‌های جدید، دانش خود را به‌روزرسانی کنند.

پژوهشگران دیپ‌مایند در مقاله‌ای که ۱۱ آوریل ۲۰۲۵ منتشر شد و بخشی از کتاب در دست انتشار «طراحی یک هوش» از انتشارات MIT است، پیشنهاد کرده‌اند که هوش مصنوعی باید بتواند از طریق تعامل مستقیم با جهان واقعی، مانند دریافت بازخورد از محیط یا کاربران، تجربه کسب کند و اهداف خود را براساس سیگنال‌های محیطی تعیین کند. دیوید سیلوِر (David Silver) و ریچارد ساتِن (Richard Sutton)، پژوهشگران ارشد دیپ‌مایند، در این مقاله با عنوان «به عصر تجربه خوش آمدید» می‌نویسند:

توانایی‌های خارق‌العاده زمانی پدیدار می‌شوند که پتانسیل کامل یادگیری تجربی مورد استفاده قرار گیرد.
- دیوید سیلور و ریچارد ساتن، پژوهشگران ارشد دیپ‌مایند

این دو پژوهشگر از چهره‌های شاخص حوزه‌ی یادگیری ماشین هستند. سیلور به‌عنوان رهبر تیم توسعه‌دهنده‌ی آلفازِرو (AlphaZero) شناخته می‌شود؛ مدلی که در بازی‌های شطرنج و گو هوش انسانی را شکست داد. ساتن نیز یکی از خالقان یادگیری تقویتی (Reinforcement Learning) است؛ روشی که پایه‌ی ساخت آلفازِرو بود و جایزه‌ی تورینگ را برای او به ارمغان آورد.

یادگیری تقویتی در رباتیک برای آموزش ربات‌ها به انجام وظایف پیچیده، مانند جابه‌جایی اشیا، استفاده می‌شود

یادگیری تقویتی با مفاهیمی مانند یادگیری تفاوت زمانی، که به ماشین‌ها امکان پیش‌بینی پاداش‌های آینده را می‌داد، از دهه‌ی ۱۹۸۰ توسعه یافت. روش‌های کاوش، مانند الگوریتم‌های مبتنی بر کنجکاوی، به ماشین‌ها کمک کردند تا استراتژی‌های خلاقانه‌ای کشف کنند. در این روش، مدل با آزمون و خطا و دریافت بازخورد (پاداش یا جریمه) از محیط، رفتار خود را بهبود می‌بخشد.

به‌دلیل وابستگی زیاد به آزمون و خطا، یادگیری تقویتی نیاز به طراحی سیستم‌های پاداش پیچیده‌ای دارد که تنظیم آن‌ها در دنیای واقعی می‌تواند دشوار باشد، زیرا محیط‌های واقعی غیرقابل پیش‌بینی هستند و پیش‌بینی تمام پیامدهای یک اقدام دشوار است.

برای مثال، در یک سیستم خودران، تعیین پاداش مناسب برای هر اقدام (مانند ترمز کردن یا تغییر مسیر) نیاز به تحلیل دقیق و پیش‌بینی عواقب بلندمدت دارد، که در محیط‌های پویا و غیرقابل پیش‌بینی چالش‌برانگیز است.

رویکردی که سیلور و ساتن از آن دفاع می‌کنند، براساس یادگیری تقویتی و درس‌های آلفازِرو بنا شده و «جریان‌ها» (Streams) نام دارد. هدف آن رفع کاستی‌های مدل‌های زبانی بزرگ (مانند GPT) است که صرفاً برای پاسخگویی به سؤالات تک‌جمله‌ای طراحی شده‌اند. این دو پژوهشگر اشاره می‌کنند که پس از موفقیت آلفازِرو و مدل پیشین آن، آلفاگو، نسل جدید هوش‌های مصنوعی مولد مانند GPT ظهور کردند و یادگیری تقویتی به نوعی کنار گذاشته شد. این تغییر هم مزایا و هم معایبی داشت.

هوش مصنوعی مولد پیشرفت مهمی بود، زیرا کاربرد یادگیری تقویتی در آلفازِرو محدود به بازی‌هایی با اطلاعات کامل مانند شطرنج بود که تمام قواعد آن از پیش مشخص است. در مقابل، مدل‌های مولد می‌توانند ورودی‌های خودجوش انسان‌ها را بدون نیاز به قواعد از پیش تعیین‌شده پردازش کنند.

بااین‌حال، به‌گفته‌ی دو پژوهشگر ارشد دیپ‌مایند، کنار گذاشتن یادگیری تقویتی به‌معنای از دست دادن توانایی عامل هوشمند در کشف مستقل دانش بود. آن‌ها تأکید می‌کنند که مدل‌های زبانی بزرگ به پیش‌داوری انسان‌ها متکی‌اند.

هوش مصنوعی بیش‌ازحد به دستورات کاربر (پرامپت) متکی است

به بیان دیگر، هوش مصنوعی به‌جای اینکه خود به تحلیل مسائل بپردازد و راه‌حل‌های نوآورانه ارائه دهد، بیش‌ازحد به دستورات کاربر (پرامپت) وابستگی دارد. این رویکرد محدودکننده است، زیرا قضاوت انسان سقفی غیرقابل نفوذ بر عملکرد عامل هوشمند تحمیل می‌کند: عامل هوشمند نمی‌تواند راهبردهای بهتری را از آنچه از سوی ارزیاب انسانی نادیده گرفته شده‌اند، کشف کند.

پژوهشگران دیپ‌مایند معتقدند با ترکیب یادگیری تقویتی و توانایی‌های تعاملی هوش مصنوعی مولد، می‌توان به جریان‌هایی (Streams) دست یافت که در آن‌ها مدل‌های هوش مصنوعی به‌صورت پیوسته و براساس بازخورد محیطی، دانش خود را به‌روزرسانی می‌کنند. این معماریِ مبتنی‌بر تجربه، مسیر جدیدی برای خلق سیستم‌هایی است که نه‌تنها پاسخگو به سؤالات و ورودی‌های کاربر باشند، بلکه فعالانه به کشف و بهبود مستمر نیز بپردازند.

وقتی هوش مصنوعی به دیوار ریاضی می‌خورد؛ نمره زیر ۵ درصد در المپیاد آمریکا!
پژوهشی تکان‌دهنده نشان می‌دهد که حتی پیشرفته‌ترین هوش مصنوعی هنوز در اثبات‌های منطقی و خلاقیت ریاضی ناتوان است.
مهدیه یوسفی
مطالعه '14
وقتی هوش مصنوعی به دیوار ریاضی می‌خورد؛ نمره زیر ۵ درصد در المپیاد آمریکا!
کپی لینک

گذار به عصر جریان‌های تجربه‌محور

اگرچه قضاوت انسانی خود یک مانع محسوب می‌شود، ماهیت کوتاه و فشرده‌ی تعاملات مبتنی بر پرسش و پاسخ، اجازه‌ی پیشرفت مدل‌های هوش مصنوعی را فراتر از این چارچوب محدود نمی‌دهد. سیلور و ساتن می‌نویسند:

در عصر داده‌های انسانی، تمرکز هوش مصنوعی مبتنی‌بر زبان، عمدتاً بر تعاملات کوتاه‌مدت است. مثلاً کاربر سؤالی می‌پرسد و عامل هوش مصنوعی (شاید پس از چند مرحله تفکر یا استفاده از ابزار) پاسخ می‌دهد. هدف عامل صرفاً دستیابی به نتیجه‌ای درون همان تعامل است، مانند پاسخ مستقیم به پرسش کاربر.
- سیلور و ساتن، پژوهشگران ارشد دیپ‌مایند

در سیستم‌های مولد، حافظه یا ارتباطی قوی بین بخش‌های مختلف تعامل وجود ندارد. سیلور و ساتن تأکید می‌کنند که معمولاً، اطلاعات کمی منتقل می‌شود یا هیچ اطلاعاتی از یک تعامل به تعامل بعدی انتقال نمی‌یابد و این موضوع، امکان سازگاری تدریجی را از بین می‌برد. در پیشنهاد آن‌ها برای توسعه در عصر تجربه، عامل‌ها این‌بار در جریان‌های تجربه حضور خواهند داشت، نه در تعاملات کوتاه و مجزا.

جریان‌های تجربه در هوش مصنوعی مانند یادگیری انسان در طول زندگی است

در توضیح جریان‌های تجربه می‌توان گفت که یک عامل هوش مصنوعی در یک پلتفرم آنلاین مانند شبکه‌های اجتماعی می‌تواند با تحلیل واکنش‌های کاربران به پست‌ها و پیشنهادهای خود، به‌تدریج یاد بگیرد که چه نوع محتوایی جذاب‌تر است. این عامل با دریافت بازخوردهای مستمر (مانند لایک‌ها و نظرات)، رفتار خود را بهبود می‌بخشد و به‌مرور زمان توصیه‌های دقیق‌تری ارائه می‌دهد.

دو پژوهشگر دیپ‌مایند با تشبیه جریان‌های تجربه به فرایند یادگیری انسان‌ها در طول عمر و عمل کردن براساس اهداف بلندمدت (به‌جای تمرکز صرف بر وظیفه‌ی فعلی)، استدلال می‌کنند که عامل‌های قدرتمند باید جریان تجربه‌ی خود را داشته باشند که مانند انسان‌ها در بازه‌های زمانی طولانی پیشرفت کند.

کپی لینک

پایه‌های فناوری امروز و آغاز جریان‌های تجربه

سیلور و ساتن معتقدند که فناوری امروز برای شروع ساخت این جریان‌ها کافی به نظر می‌رسد. در واقع، نخستین گام‌ها در پروژه‌هایی مانند عامل‌های هوش مصنوعی مرورگر وب (از جمله دیپ ریسرچ در جمینای) قابل مشاهده است. با کمک عامل‌های آزمایشی مذکور و با استفاده از همان رابط‌هایی که انسان‌ها برای کار با کامپیوتر به کار می‌برند، تعامل با کامپیوترها به شیوه‌های جامع‌تر، ممکن می‌شود.

با فراتر رفتن عامل‌های هوش مصنوعی از مرور وب، آن‌ها به روشی برای تعامل و یادگیری از دنیای واقعی نیاز دارند. پژوهشگران دیپ‌مایند پیشنهاد می‌کنند که عامل‌های هوش مصنوعی با استفاده از یادگیری تقویتی، مشابه سیستم آلفازرو، در جریان‌های تجربه آموزش ببینند.

در روش پیشنهادشده، مدل تحت آموزش یک مدل کلی (مشابه صفحه‌ی شطرنج)، مجموعه‌ای از قوانین را دریافت می‌کند. با کاوش و انجام اقدامات از سوی عامل، بازخوردهایی به شکل «پاداش» به عامل داده می‌شود. این پاداش‌ها به مدل آموزش می‌دهند که در شرایط مختلف، کدام اقدامات ارزش بیشتری دارند.

البته برخی پژوهشگران معتقدند که یادگیری تقویتی در محیط‌های پیچیده و غیرقابل پیش‌بینی‌ای مانند دنیای واقعی ناکارآمد خواهد بود. آن‌ها استدلال می‌کنند که طراحی سیستم‌های پاداش برای چنین محیط‌هایی بسیار دشوار است و می‌تواند به رفتارهای ناخواسته یا غیرقابل کنترل منجر شود.

کپی لینک

دنیای پیرامون؛ منبعی بی‌پایان از سیگنال‌های پاداش

سیلور و ساتن اشاره می‌کنند که اگر به عامل‌ها اجازه داده شود جهان واقعی را جست‌وجو کنند، سیگنال‌های متنوعی (مانند نرخ ضربان قلب یا معیارهای زیست‌محیطی) برای پاداش وجود دارد:

هنگامی که عامل‌ها از طریق فضای گسترده‌ی اقدامات و مشاهدات به جهان متصل شوند، سیگنال‌های واقعی زیادی برای پایه‌ریزی پاداش وجود خواهند داشت. جهان مملؤ از معیارهایی مانند هزینه، نرخ خطا، گرسنگی، بهره‌وری، شاخص‌های سلامت، معیارهای اقلیمی، سود، فروش، نتایج آزمون‌ها، موفقیت، بازدیدها، بازدهی، سهام، لایک‌ها، درآمد، لذت/درد، شاخص‌های اقتصادی، دقت، قدرت، فاصله، سرعت، کارایی یا مصرف انرژی است. همچنین سیگنال‌های بی‌شمار دیگری از رویدادهای خاص یا ویژگی‌های استخراج‌شده از دنباله‌های خام مشاهدات و اقدامات به‌وجود می‌آیند.
- دیوید سیلور و ریچارد ساتن، پژوهشگران ارشد دیپ‌مایند

برای شروع آموزش عامل‌ها، توسعه‌دهندگان ممکن است از مدل کلی به‌عنوان شبیه‌سازی استفاده کنند. این مدل به عامل اجازه می‌دهد پیش‌بینی‌هایی انجام دهد، آن‌ها را در جهان واقعی آزمایش کند و سپس با استفاده از سیگنال‌های پاداش، مدل را واقعی‌تر کند. پژوهشگران توضیح می‌دهند که با ادامه‌ی تعامل عامل با جهان واقعی در طول کسب تجربه، مدل پویای آن به‌طور مداوم به‌روزرسانی می‌شود تا خطاهای پیش‌بینی را اصلاح کند.

در چارچوب ارائه‌شده در مقاله‌ی دیپ‌مایند، سیگنال‌ها و سیستم‌های پاداش به‌عنوان ابزاری برای هدایت عامل‌ها عمل می‌کنند.

دیپ‌مایند: انسان‌ها همچنان در تعیین اهداف کلان برای هوش مصنوعی نقش محوری خواهند داشت

به‌عنوان مثال، کاربر ممکن است هدفی کلی‌ای مانند «بهبود تناسب اندام» را مشخص کند، و تابع پاداش بر اساس داده‌هایی مانند ضربان قلب، مدت خواب و تعداد گام‌های کاربر محاسبه شود؛ یا در هدفی مانند «یادگیری زبان اسپانیایی»، پاداش می‌تواند بر اساس نتایج آزمون‌های کاربر تعیین شود. در این مدل، بازخورد انسانی به هدف نهایی تبدیل می‌شود که تمامی تلاش‌های عامل هوش مصنوعی در راستای آن انجام می‌پذیرد.

کپی لینک

عامل‌های هوشمند با توانایی بلندمدت

پژوهشگران مقاله‌ی دیپ‌مایند می‌نویسند که عامل‌های هوش مصنوعی با قابلیت برنامه‌ریزی بلندمدت، به‌ویژه در نقش دستیارهای هوشمند، عملکرد بهتری خواهند داشت. چنین عامل‌هایی می‌توانند داده‌های مرتبط با خواب، رژیم غذایی یا پیشرفت تحصیلی کاربر را طی ماه‌ها یا سال‌ها رصد کنند و توصیه‌هایی فراتر از روندهای کوتاه‌مدت ارائه دهند.

به‌عنوان مثال، یک عامل علمی می‌تواند اهداف بلندپروازانه‌ای مانند «کشف یک ماده‌ی جدید» یا «کاهش دی‌اکسیدکربن» را دنبال کند. این عامل‌ها قادرند مشاهدات دنیای واقعی را در بازه‌های طولانی تحلیل کنند، شبیه‌سازی‌های پیچیده را اجرا کنند و آزمایش‌ها یا مداخلات عملی پیشنهاد دهند.

به گفته‌ی پژوهشگران، ظهور مدل‌های متفکر یا استدلالگر مانند «جمینای» گوگل، «R1» از شرکت دیپ‌سیک و «o1» از اوپن‌ای‌آی، می‌توانند با ورود نسل جدیدی از عامل‌های تجربه‌محور (Experience Agents) کنار گذاشته شوند. مشکل اصلی مدل‌های استدلالگر، تقلید از فرایندهای زبانی انسان است که به خروجی‌های طولانی و تکیه‌کلام‌های انسانی منجر می‌شود.

افزون‌براین، تفکر انسان محدود به پیش‌فرض‌های ذهنی دوره‌های خاص است. به عنوان مثال، اگر عاملی با داده‌های فکری انسانی متعلق به ۵۰۰۰ سال پیش آموزش می‌دید، ممکن بود مسائل فیزیکی را با رویکرد «جان‌بخشی به اشیاء» تحلیل کند. هزار سال پیش، استدلال‌ها رنگ و بوی «الهیات» می‌گرفت، ۳۰۰ سال پیش در چارچوب «مکانیک نیوتنی» عمل می‌کرد و ۵۰ سال پیش به «مکانیک کوانتومی» روی می‌آورد.

کپی لینک

قابلیت‌های بی‌سابقه و ریسک‌های پنهان

پژوهشگران تأکید می‌کنند که چنین عامل‌هایی قابلیت‌هایی بی‌سابقه را فعال خواهند کرد و آینده‌ای را رقم می‌زنند که با هر آنچه تاکنون دیده‌ایم، تفاوت بنیادی دارد. بااین‌حال، هشدار می‌دهند که ریسک‌های متعددی از جمله خطر جایگزینی نیروی کار انسانی و کاهش فرصت‌های مداخله‌ی انسان در اقدامات عامل‌ها نیز وجود دارد.

آیا هوش مصنوعی و ربات‌ها می‌خواهند ما را از کار بیکار کنند؟
هوش مصنوعی قرار است در آینده میلیون‌ها شغل را از بین ببرد…و میلیون‌ها شغل جدید ایجاد کند؛ برای آینده آماده‌اید؟
مرجان شیخی
مطالعه '12
آیا هوش مصنوعی و ربات‌ها می‌خواهند ما را از کار بیکار کنند؟

استفاده از عامل‌های هوش مصنوعی در دنیای واقعی می‌تواند ریسک‌هایی جدی به همراه داشته باشد. به‌عنوان مثال، اگر یک عامل هوش مصنوعی در حوزه‌ی پزشکی تصمیم نادرستی بگیرد، می‌تواند جان بیماران را به خطر بیندازد. همچنین، این سیستم‌ها می‌توانند به‌طور ناخواسته الگوهای تبعیض‌آمیز را تقویت کنند یا در صورت عدم نظارت کافی، به ابزارهایی برای سوءاستفاده تبدیل شوند. یا اگر یک عامل هوش مصنوعی در شبکه‌های اجتماعی به تحلیل داده‌های کاربران بپردازد، ممکن است بدون اجازه، اطلاعات شخصی آن‌ها را جمع‌آوری و حریم خصوصی را نقض کند.

عامل‌های خودمختار ممکن است کنترل انسان بر فرایندها را تضعیف کنند

در مقابل، جنبه‌های مثبتی نیز قابل تصور است. عامل‌های سازگارشونده (برخلاف مدل‌های ثابت امروزی) می‌توانند رفتار خود را هنگام ایجاد نگرانی یا نارضایتی در انسان تشخیص دهند و برای جلوگیری از عواقب منفی، آن را اصلاح کنند.

سیلور و ساتن باور دارند که جریان داده‌های تجربی، چنان حجمی از اطلاعات درباره‌ی دنیای پیرامون تولید خواهد کرد که داده‌های متنی فعلی (مانند ویکی‌پدیا و ردیت) را به حاشیه می‌راند. این عامل‌ها حتی ممکن است به سمت هوش عمومی مصنوعی (AGI) یا ابرهوش حرکت کنند و مدلی بسازند که از انسان در همه‌ی زمینه‌ها پیشی بگیرد.

پژوهشگران دیپ‌مایند درنهایت به این نتیجه رسیدند که داده‌های تجربی از نظر مقیاس و کیفیت، داده‌های تولیدشده از سوی انسان را تحت‌الشعاع قرار خواهند داد. همین تغییر چارچوب، همراه با پیشرفت‌های الگوریتمی در یادگیری تقویتی، قابلیت‌هایی فراتر از توانایی‌های انسان در حوزه‌های مختلف را آزاد خواهد کرد.

جریان‌های تجربه می‌توانند دروازه‌ای به سوی هوش مصنوعی پیشرفته‌تر باشند، اما موفقیت این فناوری به تعادل بین نوآوری و مسئولیت‌پذیری طراحان آن‌ها بستگی دارد. طبق پیش‌بینی پژوهشگران دیپ‌مایند، حجم و کیفیت داده‌های جمع‌آوری‌شده از این تجربیات، درنهایت از داده‌های تولیدشده توسط انسان‌ها پیشی می‌گیرد و به‌ ظهور قابلیت‌هایی بسیار فراتر از توانایی‌های انسانی منجر می‌شود.

مقاله رو دوست داشتی؟
نظرت چیه؟
تبلیغات
D5-b3IranServer
داغ‌ترین مطالب روز
تبلیغات
DN-DNShatel

نظرات

با چشم باز خرید کنید
زومیت شما را برای انتخاب بهتر و خرید ارزان‌تر راهنمایی می‌کند
ورود به بخش محصولات