هوش مصنوعی Fable 5 انتروپیک عملکرد خیره‌کننده‌ای در بنچمارک‌ها به‌نمایش گذاشت

سه‌شنبه 26 خرداد 1405 - 21:40
مطالعه 1 دقیقه
لوگو مدل کلاود فیبل ۵
نتایج جدید بنچمارک Fable 5 سؤالات زیادی ایجاد کرده است. چرا این مدل با وجود تکیه بر Opus 4.8، عملکردی دوبرابر بهتر از خود نشان می‌دهد؟
تبلیغات

ارزیابی‌ها روی مدل پیشرفته‌ی هوش مصنوعی Fable 5 در پلتفرم ProgramBench نتایج غیرمنتظره‌ای را به‌همراه داشت. این مدل در اکثر اجراها، عملکردی دوبرابر بهتر از Opus 4.8 از خود به‌نمایش گذاشت.

سیستم در ۱۹۹ مورد از ۲۰۰ نوبت، به دلیل دستورات سیستمی به Opus 4.8 بازگشت. یعنی یک‌سوم امتیاز کسب‌شده مستقیماً به نسخه‌ی ۴٫۸ تعلق دارد.

تفاوت اصلی در مصرف منابع نهفته است. اجرای بازگشتی حدود دو برابر بیشتر توکن مصرف کرد و زمان بیشتری برای پردازش نیاز داشت.

هزینه‌ی تست Fable 5 معادل ۷۵٫۶۸ دلار و برای Opus 4.8 برابر ۳۶٫۱۰ دلار است؛ اختلاف قیمتی که صرفاً از حجم توکن‌های مصرفی ناشی می‌شود.

دلیل استدلال طولانی‌تر Fable 5 هنوز مشخص نیست. با این حال، فرضیات زیر مطرح شده است:

  • فعال بودن حالت استدلال داخلی بالاتر در زمان بازگشت
  • بهبود بی‌سروصدای Opus 4.8 از زمان آخرین بنچمارک
  • هدایت مسیر بازگشت به یک نسخه‌ی داخلی متفاوت از ۴٫۸
  • حفظ تنظیمات استدلال Fable 5 برای اولین نوبت

نظرات