مدل هوش مصنوعی Maverick متا در بنچمارک‌های مستقل از رقبایش شکست خورد

شنبه 23 فروردین 1404 - 07:15
مطالعه 2 دقیقه
لوگو Meta AI روی نمایشگر گوشی قرار گرفته روی کیبورد لپ‌تاپ از نمای نزدیک
مدل جدید متا که با وعده‌ی تحول در مکالمه با هوش مصنوعی معرفی شد، در آزمونی بی‌طرفانه جایگاه پایین‌تری نسبت‌ به رقبایش کسب کرد.
تبلیغات

مدل هوش مصنوعی Maverick متا که به‌عنوان نسخه‌ای جدید و آزمایشی از خانواده‌ی Llama 4 معرفی شد، در کانون توجه قرار گرفت، اما نه به دلیلی که متا انتظار داشت. اوایل این هفته مشخص شد که متا برای کسب امتیاز بالا در بنچمارک LM Arena، از نسخه‌ی آزمایشی و منتشرنشده‌ی مدل Maverick استفاده کرده است. این اقدام LM Arena را به عذرخواهی رسمی و تغییر سیاست‌هایش وادار کرد تا امتیازدهی را بر اساس نسخه‌ی اصلی و دست‌نخورده‌ی مدل‌های هوش مصنوعی ثبت کند.

به گفته‌ی ‌Piɡeσn، نسخه‌ی رسمی مدل جدید متا با نام کامل Llama-4-Maverick-17B-128E-Instruct، در رده‌ای پایین‌تر از مدل‌های رقبا ازجمله GPT-4o ،Claude 3.5 Sonnet و جمینای ۱٫۵ پرو قرار گرفت؛ مدل‌هایی که بسیاری از آن‌ها چند ماه قبل معرفی شده‌اند.

اما چرا Maverick اصلی چنین عملکرد ضعیفی داشت؟ به‌گفته‌ی متا، نسخه‌ی آزمایشی مدل که با نام Llama-4-Maverick-03-26-Experimental شناخته می‌شود، برای مکالمه بهینه‌سازی شده بود. این بهینه‌سازی‌ها ظاهراً در LM Arena مؤثر واقع شدند، زیرا در این پلتفرم انسان‌ها پاسخ مدل‌ها را مقایسه و بهترین را انتخاب می‌کنند.

پلتفرم LM Arena به دلایل مختلف هرگز معیار مطمئنی برای سنجش عملکرد واقعی مدل‌های هوش مصنوعی محسوب نمی‌شود. بهینه‌سازی مدل‌های هوش مصنوعی صرفاً برای موفقیت در بنچمارک خاص، علاوه‌بر اینکه گمراه‌کننده است، کار توسعه‌دهندگان را برای درک دقیق عملکرد مدل در سناریوهای مختلف دشوار می‌کند.

مقاله رو دوست داشتی؟
نظرت چیه؟
تبلیغات
داغ‌ترین مطالب روز
آیکون بلوتوث به صورت هولوگرامی در بالای لپ تاپ
چگونه بلوتوث را در ویندوز ۱۱ فعال کنیم؟

می‌خواهید دستگاه بلوتوثی‌تان را به ویندوز ۱۱ وصل کنید، اما نمی‌دانید از کجا شروع کنید؟ این راهنمای کامل، پاسخ تمام سؤالات شما است.

7
حدود 12 ساعت قبل
راکت USAF درحال اوج گرفتن
نیروی هوایی آمریکا می‌خواهد محموله‌هایش را در کمتر از ۹۰ دقیقه به آن‌سوی دنیا بفرستد

موشک جدید طراحی شده توسط ایالات متحده قابلیت حمل و انتقال مستقیم بارهای سنگین را از نقطه‌ای به نقطه دیگر، در کمترین زمان ممکن دارد.

143
1 روز قبل
بهترین میکروفن ها برای ضبط پادکست و استریم
بهترین میکروفون برای ضبط پادکست و استریم [بهار و تابستان ۱۴۰۴]

انتخاب میکروفون برای ضبط پادکست یا استریم، به نوع و سطح کاربری شما بستگی دارد. با معرفی بهترین مدل‌ها و مرور نکات خرید میکروفون، همراه زومیت باشید.

29
حدود 18 ساعت قبل
هوش مصنوعی برای طراحی‌ وب‌ سایت
بهترین ابزار هوش مصنوعی برای طراحی‌ وب‌ سایت

استفاده از هوش مصنوعی در طراحی وب‌سایت کار را سرعت می‌بخشد، در ادامه بهترین پلتفرم‌های هوش مصنوعی طراحی وب‌سایت را در سال ۲۰۲۵ معرفی می‌کنیم.

4
حدود 14 ساعت قبل
نماوا تی وی رابط کاربری هوما و اپلیکیشن ها
نماوا به‌ دلیل پخش سریال سووشون مسدود شد [به‌روزرسانی: نماوا بیانیه داد]

پلتفرم نماوا به‌دلیل پخش رسال سوشوون مسدود شد.

124
حدود 13 ساعت قبل
بهترین مانیتورهای گیمینگ
بهترین مانیتورهای گیمینگ بازار ایران [بهار ۱۴۰۴]

داشتن مانیتور گیمینگ حرفه‌ای به بهبود تجربه‌ی بازی شما کمک زیادی می‌کند. در این مقاله بهترین مانیتورهای گیمینگ بازار را معرفی می‌کنیم.

57
حدود 13 ساعت قبل
نمای سه‌چهارم جلو خودرو Maextro S800
خودرو فوق لوکس هواوی از راه رسید؛ رقیب ۸ میلیاردی مرسدس میباخ با امکانات شگفت‌انگیز

هواوی با همکاری JAC موتورز، خودرو لوکس و باشکوه Maextro S800 را با امکانات رفاهی بی‌شمار برای رقابت با میباخ رونمایی کرد.

140
1 روز قبل
تبلیغات

نظرات

با چشم باز خرید کنید
زومیت شما را برای انتخاب بهتر و خرید ارزان‌تر راهنمایی می‌کند
ورود به بخش محصولات