استارتاپ آنتروپیک از «پوکمون» برای تست مدل‌هایش استفاده می‌کند

سه‌شنبه 7 اسفند 1403 - 14:06
مطالعه 2 دقیقه
صفحه شروع بازی Pokemon Red روی کنسول Game Boy
جدیدترین مدل هوش مصنوعی آنتروپیک، مانند DeepSeek-R1، توانایی استدلال و حل مشکلات چالش‌برانگیز را دارد.
تبلیغات

استفاده از بازی‌های مختلف برای سنجش توانایی مدل‌های هوش مصنوعی و ایجاد بنچمارک‌های مختلف برای آن‌ها، سابقه‌ی طولانی دارد و حالا، آنتروپیک نیز به جمع شرکت‌هایی پیوسته است که از این گزینه‌ برای محک‌زدن مدل‌هایش بهره می‌برد.

بر اساس پست منتشرشده در Anthropic، این استارتاپ، توانایی‌های Claude 3.7 Sonnet، جدیدترین مدل هوش مصنوعی خود را با بازی Pokémon Red کلاسیک که برای کنسول نینتندو Game Boy منتشر شده، آزمایش کرده است.

آنتروپیک، مدل Claude 3.7 را به حافظه‌ی اصلی، صفحه‌ی ورودی و قابلیت فراخوانی عملکرد برای فشار دادن دکمه‌ها و حرکت در اطراف صفحه مجهز کرد تا این مدل بتواند به‌طور مداوم پوکمون بازی کند.

ویژگی منحصربه‌فرد Claude 3.7، قابلیت تفکر و استدلال و پشت‌سر گذاشتن مشکلات چالش‌برانگیز با انجام محاسبات بیشتر و صرف زمان طولانی‌تر است؛ توانایی خاصی که درحال‌حاضر، مدل‌های o3-mini شرکت OpenAI و DeepSeek-R1 به آن مجهز هستند.

مدل Claude 3.7 در اجرای بازی Pokémon Red، عملکرد بهتری نسبت به نسخه‌ی Claude 3.0 داشت و نه‌تنها از خانه‌ای در Pallet Town، جایی که بازی شروع می‌شود، گذر کرد؛ بلکه توانست با سه رهبر باشگاه پوکمون مبارزه کند و نشان آن‌ها را به دست بیاورد.

به گفته‌ی آنتروپیک، مدل Claude 3.7 با انجام ۳۵ هزار حرکت، توانست به آخرین رهبر باشگاه پوکمون برسد، اما اینکه برای رسیدن به این مرحله، دقیقاً چه تعداد محاسبات را در طی چه میزان زمانی انجام داده است، هنوز مشخص نیست.

تبلیغات
تبلیغات

نظرات