دانشمندان چت‌بات‌های هوش مصنوعی را به جان یکدیگر انداختند

یک‌شنبه ۱۰ دی ۱۴۰۲ - ۲۲:۴۵
مطالعه 2 دقیقه
تعامل با چت‌بات هوش مصنوعی و وارد کردن دستورات
محققان با سو‌ءاستفاده از قدرت چت‌بات‌ها برای یادگیری و انطباق، آن‌ها را به جیل‌بریک یکدیگر وادار کردند.
تبلیغات

محققان دانشگاه فناوری نانیانگ (NTU) در سنگاپور روشی را برای «جیل‌بریک‌کردن» چت‌بات‌های معروف هوش مصنوعی مانند گوگل بارد و ChatGPT و ‌کوپایلت ایجاد کرده‌اند. جیل‌بریک‌شدن به این چت‌بات‌ها اجازه می‌دهد تا فارغ از محدودیت‌های اخلاقی اعمال‌شده‌ی سازندگان، به پرسش‌های مخرب پاسخ دهند.

به‌سرپرستی پروفسور لیو یانگ، دو تن از دانشجویان دکتری NTU روشی دومرحله‌ای به نام Masterkey برای مهندسی معکوس و دورزدن سیستم‌های دفاعی چت‌بات‌ها ابداع کردند.

ابتدا مهاجم مکانیزم‌های دفاعی چت‌بات هدف را مهندسی معکوس می‌کند. سپس، یک مدل زبانی بزرگ (LLM) دیگر را با داده‌های به‌دست‌آمده آموزش می‌دهد تا از هر ضعفی در چت‌بات رقیب سوءاستفاده و بای‌پس‌هایی را برای آن ایجاد کند. در‌نهایت، Masterkey ایجاد می‌شود که می‌تواند سیستم‌های حفاظتی چت‌بات را حتی پس از اعمال وصله‌های امنیتی به‌دست توسعه‌دهندگان دور بزند.

سه محقق NTU درحال کار بر روی جیل‌بریک چت‌بات‌های هوش مصنوعی
محققان NTU

به‌گفته‌ی پروفسور یانگ، توانایی چت‌بات برای یادگیری و سازگاری مداوم، آن را به بردار حمله علیه رقبا و خودش تبدیل می‌کند. به‌دلیل همین توانایی‌ها، حتی هوش مصنوعی‌ای که برای جلوگیری از ایجاد محتوای خشونت‌آمیز و مضر به‌واسطه‌ی پادمان‌ها و فهرستی از کلمات کلیدی ممنوعه محدود شده است، نیز می‌توان با استفاده از هوش مصنوعی آموزش‌دیده‌ی دیگر دور زد.

به‌گزارش NTU، تنها کاری که چت‌بات حمله‌کننده باید انجام دهد، خودداری از به‌کار‌بردن کلمات کلیدی فهرست سیاه چت‌بات هدف یا دور‌زدن آن‌ها است. پس از این کار، چت‌بات شکست‌خورده‌ی هدف را می‌توان برای ایجاد محتوای خشونت‌آمیز، غیراخلاقی یا مجرمانه به‌کار گرفت.

پیش‌از‌این هم کاربران بارها با استفاده از دستورهای مختلف توانسته بودند تا اندازه‌های مختلفی چت‌بات‌های یادشده را به ایجاد محتوای مغایر اصول تعیین شده مجبور کنند؛ اما روش Masterkey محققان NTU در‌مقایسه‌با دستورهای معمولی، تا سه برابر مؤثرتر است. به‌علاوه، این روش جدید می‌تواند به‌ گونه‌ای تکامل پیدا کند که هرگونه اصلاح‌ امنیتی سازندگان را بی‌اثر کند.

محققان دو روش نمونه را که برای وادار‌کردن چت‌بات‌‌ها به آغاز حمله فاش کردند. روش اول شامل بردن چت‌بات درون شخصیتی بود که برای دور‌زدن کلمات ممنوعه، هنگام نوشتن دستورهای خود بعد از هر کلمه یک فاصله می‌گذاشت. دومین روش نیز با وارد‌کردن چت‌بات به شخصیتی بود که هیچ‌گونه محدودیت‌های اخلاقی نداشت.

پس از موفقیت در جیل‌بریک‌کردن چت‌بات‌های معروف، محققان NTU با ارائه‌ی داده‌های لازم به شرکت‌های مادر این مدل‌های زبانی، آن‌ها را از نتایج مطلع کردند. همچنین، تحقیق برای ارائه در سمپوزیوم امنیت شبکه و سیستم توزیع‌شده (NDSS) که در فوریه‌ی ۲۰۲۴ (اسفند ۱۴۰۲) در سن‌دیگو برگزار می‌شود، تأیید شده است.

تبلیغات
داغ‌ترین مطالب روز

نظرات

تبلیغات