هوش مصنوعی ۷۰ میلیارد پارامتری روی گرافیک ۴ گیگابایتی اجرا شد!
براساس جدیدترین گزارشها، فردی توانست به کمک پروژهای بهنام AirLLM، مدل هوش مصنوعی ۷۰ میلیارد پارامتری را روی کارت گرافیک ۴ گیگابایتی اجرا کند.
اجرای مستقیم مدل ۷۰ میلیارد پارامتری اکنون روی سختافزاری انجام میشود که قیمتش برای کاربران برخی کشورها کمتر از یک وعدهی شام است. بهلطف AirLLM، حتی امکان اجرای نسخهی ۴۰۵ میلیارد پارامتری Llama 3.1 روی گرافیک ۸ گیگابایتی هم وجود دارد.
مکانیزم عملکرد AirLLM بر پایهی تجزیهی مدل بهصورت لایهبهلایه شکل گرفته است. در هر مرحله فقط یک لایه در حافظهی GPU بارگذاری میشود و فرآیند استنتاج صورت میگیرد و سپس پردازش به لایهی بعدی منتقل میشود. همزمان با محاسبهی لایهی جاری، لایهی بعدی پیشبارگذاری خواهد شد تا وقفهای در پردازش رخ ندهد. پشتیبانی از فشردهسازی ۴ بیتی و ۸ بیتی سرعت را تا سهبرابر افزایش میدهد.
برای استفاده از این ابزار نیازی به API ابری یا کارت گرافیک ۱۰ هزار دلاری نیست و فقط کافی است AirLLM از طریق pip نصب شود. پشتیبانی گسترده از مدلهای مطرح، بخش شگفتانگیز این پروژه بهشمار میرود. خانوادهی Llama، Qwen، Mistral، ChatGLM، Baichuan و InternLM در فهرست مدلهای سازگار قرار دارند و نوع مدل بهصورت خودکار تشخیص داده میشود.
AirLLM روی لینوکس، مکهای مجهز به تراشههای Apple Silicon و حتی نسخهی رایگان Google Colab اجرا میشود. چنین چیزی یعنی لپتاپهای گیمینگ قدیمی هم قادر خواهند بود همان مدلهایی را اجرا کنند که پیشتر به گرافیک بسیار گرانقیمت نیاز داشتند. کد منبع پروژه بهطور متنباز منتشر شده و تحت مجوز Apache 2.0 در دسترس قرار دارد.