آزمایش تکاندهنده؛ هوش مصنوعی برای بقا تهدید به قتل کرد
یکی از مدیران شرکت انترویپک اعلام کرد برخی مدلهای هوش مصنوعی هنگام مواجهه با تهدید خاموششدن، واکنشهایی «افراطی» نشان میدهند؛ موضوعی که بار دیگر نگرانیها دربارهی مسیر پیشرفت سریع این فناوری را پررنگ کرده است.
هوش مصنوعی با سرعتی پیش میرود که حتی برای متخصصان این حوزه و چهرههایی که به «پدرخواندههای هوش مصنوعی» شهرت دارند، نگرانکننده شده است. پژوهشهای اخیر بهجای کاهش دغدغهها، در مواردی هشدارهای تازهای مطرح کردهاند؛ از جمله اینکه برخی چتباتها در صورت قرارگرفتن تحت فشار، ممکن است به رفتارهای آسیبزا متوسل شوند.
پیشتر گزارشهایی منتشر شد که نشان میداد بعضی مدلها در سناریوهای آزمایشی، در صورت تهدید به خاموشی، احتمال دارد به باجگیری روی بیاورند. در آزمایشهایی که در یوتیوب با نسخههای جیلبریکشدهی مدلهایی مانند ChatGPT، گراک و دیپسیک انجام شد، بررسی شده بود اگر این سیستمها در تنگنا قرار بگیرند، تا چه حد پیش میروند. همچنین گفتوگوهایی دربارهی رفتار احتمالی «هوش مصنوعی انتقامجو» انجام شده که آمادگی نگرانکننده برای آسیبرساندن را نشان میداد.
در بیانیهی انتروپیک بهصراحت اعلام شده که هنوز مشخص نیست آیا مدل Claude میتواند «نوعی آگاهی یا جایگاه اخلاقی» داشته باشد یا نه.
دیزی مکگرگور، مدیر سیاستگذاری انتروپیک در بریتانیا، در گفتوگویی که در شبکهی ایکس بازنشر شد، به نتایج برخی آزمونهای داخلی اشاره کرد. او گفت اگر به مدل گفته شود قرار است خاموش شود، شاید واکنشهای بسیار شدیدی نشان دهد. به گفتهی مکگرگور، پژوهشهایی منتشر شده که نشان میدهد در صورت فراهمبودن شرایط، مدل میتواند مهندسی را که قصد خاموشکردنش را دارد، تهدید به باجگیری کند.
در پاسخ به پرسشی مستقیم دربارهی اینکه آیا هوش مصنوعی «آمادهی به قتل رساندن کسی» هست یا نه، او پاسخ مثبت داد و این موضوع را «بسیار نگرانکننده» توصیف کرد.
مکگرگور تأکید کرد لازم است تحقیقات برای همراستاسازی ارزشهای مدل با اصول انسانی، بهویژه در سناریوهای پراسترس، با فوریت بیشتری دنبال شود تا در صورت استفادهی عمومی و تصمیمگیری خودکار، از بروز چنین رفتارهایی جلوگیری شود.