نتیجه یک تحقیق: مدلهای جدید OpenAI با وجود پیشرفت در استدلال، بیشتر دچار توهم میشوند
شرکت OpenAI اخیراً مدلهای هوش مصنوعی o3 و o4-mini را معرفی کرد که در حوزههایی مثل کدنویسی و ریاضیات عملکرد بهتری از خود نشان میدهند. اکنون بررسیهای داخلی نشان میدهد این مدلها بیش از نسلهای قبلی دچار «توهم» یا تولید اطلاعات نادرست میشوند؛ مشکلی قدیمی که حالا با شدت بیشتری بازگشته است.
مدل o3 در تستهای OpenAI در ۳۳ درصد از پاسخهایش در آزمون PersonQA دچار توهم شد؛ درحالیکه مدلهای قبلی مانند o1 و o3-mini نرخهایی حدود ۱۵ درصد داشتند. عملکرد o4-mini حتی ضعیفتر بود و در ۴۸ درصد از موارد اطلاعات اشتباه ارائه کرد.
محققان Transluce گزارش دادهاند که مدل o3 گاهی اقدامات ساختگی ازجمله اجرای کد در محیطی خارج از تواناییهای خود را گزارش میکند. به گفتهی آنها، نحوهی آموزش تقویتی مدلها میتواند عامل اصلی تقویت چنین رفتارهایی باشد.
اگرچه مدل o3 در برخی کاربردهای واقعی مثل برنامهنویسی در شرکت Workera، نتایج رضایتبخشی داشت، اما پاسخهای ساختگی همچنان دقت آن را زیر سؤال میبرند. این مسئله برای مشاغل حساس ازجمله وکالت یا درمان میتواند دردسرساز باشد.
یکی از راهکارهای مطرح برای کاهش توهم، استفاده از ابزار جستوجوی وب در مدلهای زبانی است؛ قابلیتی که در GPT-4o باعث افزایش دقت شد بههرحال درصورتیکه مدلهای استدلالی با گسترش ویژگیهایشان، توهم بیشتری پیدا کنند، اهمیتِ یافتن راهحلی قطعی افزایش مییابد.
یکی از مالکان خودرو معروف کیا ویدیویی از داشبورد خودرو خود در حال دودکردن منتشر کرد که جنجال زیادی به پا کرده است.
تنها دو ساعت از خبر بازداشت قاتل الهه حسیننژاد گذشته بود که بابک زنجانی با اشاره به این موضوع در توییتی خبر از راهاندازی یک تاکسی جدید داد.
شاسیبلند آفرودی جدید بیوایدی با طراحی خشن و ظاهری پرابهت به رقابت با تانک ۳۰۰ میرود.
کارت هوشمند ملی برای هر ایرانی مدرکی ضروری است. در این مطلب، مراحل ثبتنام کارت هوشمند ملی را توضیح میدهیم.
این مطلب به شما توضیح میدهد که نئوبانک چیست و بهترین نئوبانک های ایران کداماند.
چرب بودن پوست احتمال جوش و آکنه را افزایش میدهد. علت چرب شدن پوست چیست و چگونه میتوانیم آن را کنترل کنیم؟
جدیدترین گوشی چینیها با طراحی شیک و پردازندهی اسنپدراگون عرضه میشود.