هوش مصنوعی ۷۰ میلیارد پارامتری روی گرافیک ۴ گیگابایتی اجرا شد!

کارت گرافیک GTX 1630 انویدیا مدل SC Gaming
یک پروژه‌ی جدید به کاربران اجازه می‌دهد تا مدل‌های هوش مصنوعی چندین میلیارد پارامتری را روی گرافیک‌های ارزان‌قیمت اجرا کنند.
تبلیغات

براساس جدیدترین گزارش‌ها، فردی توانست به کمک پروژه‌ای به‌نام AirLLM، مدل هوش مصنوعی ۷۰ میلیارد پارامتری را روی کارت گرافیک ۴ گیگابایتی اجرا کند.

اجرای مستقیم مدل ۷۰ میلیارد پارامتری اکنون روی سخت‌افزاری انجام می‌شود که قیمتش برای کاربران برخی کشور‌ها کمتر از یک وعده‌ی شام است. به‌لطف AirLLM، حتی امکان اجرای نسخه‌ی ۴۰۵ میلیارد پارامتری Llama 3.1 روی گرافیک ۸ گیگابایتی هم وجود دارد.

مکانیزم عملکرد AirLLM بر پایه‌ی تجزیه‌ی مدل به‌صورت لایه‌به‌لایه شکل گرفته است. در هر مرحله فقط یک لایه در حافظه‌ی GPU بارگذاری می‌شود و فرآیند استنتاج صورت می‌گیرد و سپس پردازش به لایه‌ی بعدی منتقل می‌شود. هم‌زمان با محاسبه‌ی لایه‌ی جاری، لایه‌ی بعدی پیش‌بارگذاری خواهد شد تا وقفه‌ای در پردازش رخ ندهد. پشتیبانی از فشرده‌سازی ۴ بیتی و ۸ بیتی سرعت را تا سه‌برابر افزایش می‌دهد.

برای استفاده از این ابزار نیازی به API ابری یا کارت گرافیک ۱۰ هزار دلاری نیست و فقط کافی است AirLLM از طریق pip نصب شود. پشتیبانی گسترده از مدل‌های مطرح، بخش شگفت‌انگیز این پروژه به‌شمار می‌رود. خانواده‌ی Llama، Qwen، Mistral، ChatGLM، Baichuan و InternLM در فهرست مدل‌های سازگار قرار دارند و نوع مدل به‌صورت خودکار تشخیص داده می‌شود.

AirLLM روی لینوکس، مک‌های مجهز به تراشه‌های Apple Silicon و حتی نسخه‌ی رایگان Google Colab اجرا می‌شود. چنین چیزی یعنی لپ‌تاپ‌های گیمینگ قدیمی هم قادر خواهند بود همان مدل‌هایی را اجرا کنند که پیش‌تر به گرافیک بسیار گران‌قیمت نیاز داشتند. کد منبع پروژه به‌طور متن‌باز منتشر شده و تحت مجوز Apache 2.0 در دسترس قرار دارد.

تبلیغات
تبلیغات

نظرات