D1-lg

نتیجه یک تحقیق: مدل‌های جدید OpenAI با وجود پیشرفت در استدلال، بیشتر دچار توهم می‌شوند

شنبه 30 فروردین 1404 - 06:24
مطالعه 1 دقیقه
لوگو ChatGPT چت جی پی تی از نمای نزدیک
مدل‌های جدید OpenAI پیشرفته‌تر شده‌اند، اما مشکل قدیمی آن‌ها با شدت بیشتری بازگشته است و می‌تواند اعتماد به هوش مصنوعی را متزلزل کند.
تبلیغات
D4-mcid4

شرکت OpenAI اخیراً مدل‌های هوش مصنوعی o3 و o4-mini را معرفی کرد که در حوزه‌هایی مثل کدنویسی و ریاضیات عملکرد بهتری از خود نشان می‌دهند. اکنون بررسی‌های داخلی نشان می‌دهد این مدل‌ها بیش‌ از نسل‌های قبلی دچار «توهم» یا تولید اطلاعات نادرست می‌شوند؛ مشکلی قدیمی که حالا با شدت بیشتری بازگشته است.

مدل o3 در تست‌های OpenAI در ۳۳ درصد از پاسخ‌هایش در آزمون PersonQA دچار توهم شد؛ درحالی‌که مدل‌های قبلی مانند o1 و o3-mini نرخ‌هایی حدود ۱۵ درصد داشتند. عملکرد o4-mini حتی ضعیف‌تر بود و در ۴۸ درصد از موارد اطلاعات اشتباه ارائه کرد.

محققان Transluce گزارش داده‌اند که مدل o3 گاهی اقدامات ساختگی ازجمله اجرای کد در محیطی خارج از توانایی‌های خود را گزارش می‌کند. به گفته‌ی آن‌ها، نحوه‌ی آموزش تقویتی مدل‌ها می‌تواند عامل اصلی تقویت چنین رفتارهایی باشد.

اگرچه مدل o3 در برخی کاربردهای واقعی مثل برنامه‌نویسی در شرکت Workera، نتایج رضایت‌بخشی داشت، اما پاسخ‌های ساختگی همچنان دقت آن را زیر سؤال می‌برند. این مسئله برای مشاغل حساس ازجمله وکالت یا درمان می‌تواند دردسرساز باشد.

یکی از راهکارهای مطرح برای کاهش توهم، استفاده از ابزار جست‌وجوی وب در مدل‌های زبانی است؛ قابلیتی که در GPT-4o باعث افزایش دقت شد به‌هرحال درصورتی‌که مدل‌های استدلالی با گسترش ویژگی‌هایشان، توهم بیشتری پیدا کنند، اهمیتِ یافتن راه‌حلی قطعی افزایش می‌یابد.

مقاله رو دوست داشتی؟
نظرت چیه؟
تبلیغات
D5-b3IranServer
داغ‌ترین مطالب روز
کابین خودرو کیا تلوراید
از اعتماد تا پشیمانی؛ وقتی داشبورد خودرو شاسی‌بلند معروف شروع به دودکردن می‌کند

یکی از مالکان خودرو معروف کیا ویدیویی از داشبورد خودرو خود در حال دودکردن منتشر کرد که جنجال زیادی به پا کرده است.

124
1 روز قبل
عکس بابک زنجانی و تاکسی‌های دات‌وان
غیرمنتظره از بابک زنجانی؛ بازاریابی تاکسی اینترنتی در میان اخبار قتل الهه‌حسین‌نژاد

تنها دو ساعت از خبر بازداشت قاتل الهه حسین‌نژاد گذشته بود که بابک زنجانی با اشاره به این موضوع در توییتی خبر از راه‌اندازی یک تاکسی جدید داد.

117
1 روز قبل
نمای جانبی خودرو FCB Tai 7 زیر پوشش در تیزر رسمی
شاسی‌بلند جدید BYD با طراحی خشن به قلمرو تانک ۳۰۰ هجوم می‌برد

شاسی‌بلند آفرودی جدید بی‌وای‌دی با طراحی خشن و ظاهری پرابهت به رقابت با تانک ۳۰۰ می‌رود.

15
2 روز قبل
 دریافت کارت ملی هوشمند
راهنمای کامل دریافت کارت ملی هوشمند در سال ۱۴۰۴

کارت هوشمند ملی برای هر ایرانی مدرکی ضروری است. در این مطلب، مراحل ثبت‌نام کارت هوشمند ملی را توضیح می‌دهیم.

63
1 روز قبل
نئوبانک
بهترین نئوبانک‌ های ایرانی؛ از بلوبانک تا ویپاد

این مطلب به شما توضیح می‌دهد که نئوبانک چیست و بهترین نئوبانک‌ های ایران کدام‌اند.

67
حدود 20 ساعت قبل
پوست چرب
علت چرب شدن پوست صورت و روش‌های کنترل آن

چرب بودن پوست احتمال جوش و آکنه را افزایش می‌دهد. علت چرب شدن پوست چیست و چگونه می‌توانیم آن را کنترل کنیم؟

34
1 روز قبل
آیکو Z10 لایت در رنگ آبی
این موبایل با قیمت کمتر از ۱۰ میلیون امکانات بسیار خوبی دارد

جدیدترین گوشی چینی‌ها با طراحی شیک و پردازنده‌ی اسنپدراگون عرضه می‌شود.

75
1 روز قبل

نظرات

با چشم باز خرید کنید
زومیت شما را برای انتخاب بهتر و خرید ارزان‌تر راهنمایی می‌کند
ورود به بخش محصولات