هوش مصنوعی OpenAI هم‌اکنون قادر به شکست تیم‌های نیمه‌حرفه‌‌ای دوتا 2 است

سه‌شنبه 20 آذر 1397 - 14:20

مطالعه 5 دقیقه

شرکت OpenAI به‌تازگی یک سیستم هوش مصنوعی توسعه داده که قادر به انجام بازی‌ پیچیده DOTA 2 و شکست حریفان انسانی است.

تبلیغات

کاربری هوش مصنوعی (AI) تنها به کارهایی مانند اعمال افکت‌های اسلوموشن به ویدیوها و پیشنهاد محصولات بر اساس دکور خانه، محدود نمی‌شود. این حوزه هم‌اکنون قادر به شکست بازیکنان باسابقه انسانی یکی از محبوب‌ترین بازی‌های استراتژی آنلاین دنیاست: دوتا ۲ شرکت ولو.

مقاله‌های مرتبط:

استارتاپ یک میلیارد دلاری ایلان ماسک، به ربات ها در فضای مجازی آموزش می‌دهد

گرفتاری هوش مصنوعی در دام وهم و خیال چه تبعاتی دارد؟

اُپن اِی‌آی یک شرکت تحقیقاتی غیرانتفاعی فعال در حوزه هوش مصنوعی است. OpenAI سان‌فرانسیسکویی توسط تعدادی از ستارگان آسمان فناوری مانند ایلان ماسک، رید هافمن و پیتر تیل پشتیبانی می‌شود. این شرکت به‌تازگی اعلام کرده‌ است که آخرین نسخه از هوش مصنوعی این شرکت که دوتا ۲ بازی می‌کند (ملقب به OpenAI Five)، توانسته ۵ تیم از بازیکنان نیمه‌حرفه‌ای را شکست بدهد. یکی از این تیم‌ها متشکل از کارکنان خود شرکت ولو (سازنده Dota 2) بود.

نسل قدیم از سیستم OpenAI تنها قادر به برتری در دیدارهای یک در برابر یک بود که پیچیدگی بسیار کمتری نسبت به بازی گروهی ۵ در برابر ۵ دارد.

هم‌بنیان‌گذار و مدیر ارشد فناوری OpenAI می‌گوید:

بازی دوتا واقعا پیچیده است. در این بازی شما با افق‌های زمانی طولانی و به‌طور پیوسته مواجه می‌شوید. در بازی‌های رومیزی شاهد چند صد حرکت ممکن هستیم، اما در دوتا ۸۰ هزار فریم مجزا داریم. هرگاه کاری انجام دهید، اتفاقات بسیار بیشتری به‌تبع آن رخ می‌دهد. باید راهی پیدا کنید تا بتوانید برای این زمان طولانی و با کنترل بسیار کم، برنامه‌ریزی مناسبی داشته باشید.

الگوریتم‌های یادگیری ماشین OpenAI به مصاف با ۵ تیم رفت: یک تیم از کارکنان OpenAI، یک تیم از مخاطبانی که بازی را مشاهده می‌کردند، یک تیم از کارکنان ولو، یک تیم آماتور و یک تیم نیمه‌حرفه‌ای. هوش مصنوعی به‌راحتی سه تیم اول را در دیدارهای متعددی شکست داد و دو بازی از سه بازی خود در مقابل تیم‌های چهارم و پنجم را نیز برد.

OpenAI Five واقعا در بعضی از زمینه‌ها برتر بود. این هوش مصنوعی می‌توانست به تغییرات سلامتی، موقعیت و تجهیزات هر بازیکن به‌طور آنی پاسخ دهد. به‌طور میانگین، شبکه عصبی آن حدود ۱۵۰-۱۷۰ عمل در دقیقه (تا بیشترین مقدار ۴۵۰) با زمان واکنش فرا انسانی ۸۰ میلی‌ثانیه، انجام داد و این هوش مصنوعی با محدودیت‌هایی روی برخی از قابلیت‌های ویژه، آیتم‌ها و شخصیت‌ها بازی کرد. اما هیچ‌کدام از این برتری‌ها در کامل کردن هدف غایی این هوش مصنوعی یعنی ارائه‌ی بازی مشابه با بازیکنان کاملاً حرفه‌ای، کافی نبود.

هوش مصنوعی بارها طی بازی «Safe Lane» خود را برای به‌دست‌آوردن Safe Lane حریف، قربانی کرد؛ و همچنین با حمله به سنگرها و قهرمانان تیم مقابل، قهرمانان خود را ارتقا داده و سریع‌تر از بسیاری از رقبای انسانی به سمت پایگاه دشمن حرکت می‌کرد.

این هوش مصنوعی همچنین یک‌سری تکنیک جدید در حین این بازی‌ها یاد گرفته‌ است؛ مانند جاخالی دادن مقابل موشک‌ها و کسب XP در ابتدای بازی. هوش مصنوعی حتی تکنیک‌هایی مانند «creep blocking» را در بازی پیاده کرد، تکنیکی که در آن یک قهرمان به‌طور فیزیکی مسیر دشمنان کوچک را مسدود می‌کند تا از پیشرفت آنان جلوگیری کند.

OpenAI برنامه دارد تا در آینده هوش مصنوعی‌اش را با تیم‌های حرفه‌ای رقابت دهد.

آموزش OpenAI Five

OpenAI Five از ۵ لایه تکی، شبکه‌های حافظه‌ کوتاه‌مدت ۱۰۲۴ واحدی (LSTM) - نوعی از شبکه عصبی بازگشت‌کننده (RNN) که می‌تواند مقادیر یک طول دلخواه از زمان را «به یاد بسپارد» - که هرکدام به یک قهرمان اختصاص دارند، تشکیل شده‌ است. شبکه‌ها با یک مدل یادگیری تقویتی عمیق آموزش داده شده‌اند که با پیشرفت و تخصیص پاداش به خود، انگیزه می‌گیرد. در مورد OpenAI Five، پاداش‌ها همان تعداد کشته‌ها، مرگ‌ها، کمک‌ها (assist)، ارزش خالص و دیگر آمار بازی دوتا هستند.

جالب است بدانید که این شبکه‌های LSTM با یکدیگر ارتباط برقرار نمی‌کنند. به‌جای آن، یک هایپرپارامتر به نام «روحیه تیمی» که مقداری از ۰ تا ۱ است، ترجیح هر قهرمان بر پاداش شخصی و تیمی را مشخص می‌کند.

برای آماده‌سازی دیدارها، سیستم هر روز معادل ۱۸۰ سال روی یک سیستم متشکل از ۲۵۶ کارت گرافیک انویدیا P100، بازی می‌کند (۱۲۸ هزار هسته در مقایسه با ۶۰ هزار هسته بات قبلی دوتا).

حین هر دیدار، هر بازیکنی می‌تواند ۱۷۰ هزار عمل ممکن را انجام دهد؛ و اگر تمام قهرمانان بازی را در نظر بگیریم حدود ۱۰ هزار حرکت در هر فریم امکان‌پذیر خواهد بود.

کارکنان OpenAI جمع شده‌اند تا بازی هوش مصنوعی را در مقابل انسان تماشا کنند

رپید (Rapid)، چهارچوب تمرینی OpenAI، از دو بخش تشکیل شده‌ است: مجموعه‌ای که یک نسخه از دوتا ۲ را روی یک شبکه LSTM اجرا می‌کند و گره‌های بهینه‌ساز که گرادیان کاهشی همگام (مرحله‌ای ضروری در یادگیری ماشین) را روی ناوگانی از GPUها اجرا می‌کنند.

در چند بازی نخست، قهرمانان کنترل‌شده توسط هوش مصنوعی به‌طور بی‌هدفی در نقشه‌ی بازی راه می‌روند. با این حال بعد از چند ساعت، آن‌ها در مهارت‌های پایه‌ای مانند دفاع و فارمینگ استاد می‌شوند و در چند روز استراتژی‌های پیشرفته را یاد می‌گیرند.

پیش‌تر تصور می‌شد که چنین دستاوردی با یادگیری ماشین امروزی غیرممکن است اما حال می‌دانیم که این شبکه‌ها قادر به بازی در سطحی حرفه‌ای بوده و می‌توانند برنامه‌ریزی طولانی‌مدت انجام دهند. مسئله‌ی شوکه‌کننده این است که از الگوریتم‌های موجود استفاده شده است که به اعتقاد بسیاری دارای اشکالات فراوانی بوده‌اند.

دستاوردی برای هوش مصنوعی

OpenAI Five نخستین سیستم هوش مصنوعی نیست که قادر به شکست حریفان انسانی در بازی‌های پیچیده شده است. AlphaZero، یک شبکه عصبی عمیق که توسط دیپ‌مایند، زیرمجموعه آلفابت، توسعه داده شده‌ است، توانسته به سطحی فراانسانی در بازی شطرنج، شوگی و گو دست یابد. یادگیری ماشینی که توسط مالوبا توسعه داده شده (تصاحب‌شده توسط گوگل در سال ۲۰۱۷) توانست در بازی Ms Pac-Man، بالاتر از هر انسانی، امتیاز ۹۹۹/۹۰۰ را ثبت کند.

اما دستاوردهای OpenAI Five تنها به انجام بازی دوتا محدود نمی‌شود. این هوش مصنوعی نشانگر دستاوردهای جدیدی برای هوش مصنوعی است؛ دستاوردهایی که نمایانگر آینده‌ای است که در آن هوش مصنوعی می‌تواند کارهای به مراتب پیچیده‌تری را به انجام برساند.

نظر شما درباره این دستاورد جدید در حوزه هوش مصنوعی چیست؟ آیا آن را قابل توجه می‌دانید؟ نظرات خود را با ما به اشتراک بگذارید.

مقاله رو دوست داشتی؟

نظرت چیه؟