هوش مصنوعی Fable 5 انتروپیک عملکرد خیرهکنندهای در بنچمارکها بهنمایش گذاشت
نتایج جدید بنچمارک Fable 5 سؤالات زیادی ایجاد کرده است. چرا این مدل با وجود تکیه بر Opus 4.8، عملکردی دوبرابر بهتر از خود نشان میدهد؟
تبلیغات
ارزیابیها روی مدل پیشرفتهی هوش مصنوعی Fable 5 در پلتفرم ProgramBench نتایج غیرمنتظرهای را بههمراه داشت. این مدل در اکثر اجراها، عملکردی دوبرابر بهتر از Opus 4.8 از خود بهنمایش گذاشت.
سیستم در ۱۹۹ مورد از ۲۰۰ نوبت، به دلیل دستورات سیستمی به Opus 4.8 بازگشت. یعنی یکسوم امتیاز کسبشده مستقیماً به نسخهی ۴٫۸ تعلق دارد.
تفاوت اصلی در مصرف منابع نهفته است. اجرای بازگشتی حدود دو برابر بیشتر توکن مصرف کرد و زمان بیشتری برای پردازش نیاز داشت.
هزینهی تست Fable 5 معادل ۷۵٫۶۸ دلار و برای Opus 4.8 برابر ۳۶٫۱۰ دلار است؛ اختلاف قیمتی که صرفاً از حجم توکنهای مصرفی ناشی میشود.
دلیل استدلال طولانیتر Fable 5 هنوز مشخص نیست. با این حال، فرضیات زیر مطرح شده است:
- فعال بودن حالت استدلال داخلی بالاتر در زمان بازگشت
- بهبود بیسروصدای Opus 4.8 از زمان آخرین بنچمارک
- هدایت مسیر بازگشت به یک نسخهی داخلی متفاوت از ۴٫۸
- حفظ تنظیمات استدلال Fable 5 برای اولین نوبت