نتایج یک تحقیق: عملکرد مدلهای هوش مصنوعی متا بهتر از واقعیت جلوه داده شده است
یکی از مدلهای هوش مصنوعی جدید متا بهنام Maverick در آزمون LM Arena رتبهی دوم را کسب کرد. این آزمون از سوی ارزیابان انسانی انجام شده است که خروجی مدلها را مقایسه و نتایج خود را اعلام میکنند.
اکنون به نظر میرسد نسخهای از Maverick که متا در LM Arena به کار گرفته، با نسخهای که برای توسعهدهندگان ارائه شده، متفاوت است.
چندین محقق هوش مصنوعی در شبکهی اجتماعی ایکس اشاره کردند که متا در بیانیهاش گفته نسخهای که در LM Arena استفاده شده، نسخهای آزمایشی مخصوص مکالمه است.
نموداری در وبسایت رسمی Llama نشان میدهد که آزمایشهای LM Arena با استفاده از نسخهی Llama 4 Maverick و «بهینهسازیشده برای مکالمه» انجام شده است.
اگر مدلی برای یک آزمون خاص تنظیم شود و نسخهی معمولیاش در اختیار کاربران قرار بگیرد، توسعهدهندگان نمیتوانند دقیقاً عملکرد مدل را در زمینههای مختلف پیشبینی کنند؛ موضوعی که میتواند گمراهکننده باشد. آزمونهای ارزیابی، هرچند ناکافی، باید تصویری کلی از نقاط قوت و ضعف مدل را در طیف وسیعی از وظایف ارائه دهند.
متا هنوز به یافتهی جدید محققان واکنشی نشان نداده است.
چه گوشیهایی با وزن مناسب بهترین عملکرد را دارند؟ در این مقاله با سبکترین گوشیهای سامسونگ در بازار ایران آشنا خواهید شد.
مطالعهی جدید برپایه GPS نشان میدهد که آفریقای جنوبی بین سالهای ۲۰۱۲ تا ۲۰۲۰ بهطور پیوسته بالا آمده و خشکسالی عامل احتمالی آن است.
آیا به ضبط مکالمه در گوشی سامسونگ خود نیاز دارید؟ روش سادهای برای انجام این کار روی گوشیهای سامسونگ وجود دارد.
در این مطلب شرایط، مدارک، مراحل و همه آنچه باید درباره وام فرزند آوری در سال ۱۴۰۴ بدانید، برایتان توضیح داده شده است.
روانشناسی تاریک استفاده از دستکاری ذهن، متقاعدسازی و اجبار به صورتی است که به مخاطب آسیب میزند. با مبحث روانشناسی تاریک بیشتر آشنا شوید.
شما میتوانید با ساخت NFT از آثار هنری خود در شبکهی بلاک چین، نهتنها آنها را جاودانه کنید، بلکه از فروش آنها درآمد داشته باشید.
در بازهی قیمتی زیر ۲۰ میلیون تومان کدام گوشیهای سامسونگ ارزش خرید بالاتری دارند؟ در این راهنمای خرید برای انتخاب بهتر به شما کمک خواهیم کرد.