ادعای محققان چینی: هوش مصنوعی ۱٫۶ تریلیون پارامتری با تراشههای هواوی آموزش داده شد
یک گروه تحقیقاتی به رهبری هواوی اعلام کرد که موفق به انجام آموزش کامل پارامترها برای مدل دیپسیک V4-Pro شده است؛ مدل بزرگی که ۱٫۶ تریلیون پارامتر دارد.
به گزارش SCMP، این عملیات با استفاده از خوشهای متشکل از حداقل هزار تراشهی Ascend 910C انجام شده است.
به نظر میرسد تراشههای چینی اکنون توانایی مدیریت پردازشهای سنگین در حوزهی آموزش هوش مصنوعی را دارند. پیشتر، شرکتهای چینی برای انتقال فرایند آموزش مدلهایشان از سختافزارهای انویدیا به تراشههای داخلی با مشکلات جدی مواجه بودند.
Ascend 910C از طراحی دوگانه بهره میبرد. در آزمایشهای پیشین دیپسیک، این تراشه حدود ۶۰ درصد از عملکرد استنتاج تراشهی پیشرفتهی انویدیا H100 را ارائه داده بود.
تیم تحقیقاتی هواوی تاکید دارد که آموزش کامل پارامترها انجام شده است. یعنی تمام وزنهای مدل بهجای افزودن یک لایهی نازک، بهروزرسانی شدهاند. مرحلهی پسآموزش در واقع همان مرحلهی تنظیم دقیق است که پس از مرحلهی بسیار بزرگتر پیشآموزش انجام میشود.
پیشآموزش با پردازش پیکرههای متنی عظیم، تواناییهای اصلی مدل را میسازد. مستندات دیپسیک نشان میدهد که پیشآموزش V4-Pro با بیش از ۳۲ تریلیون توکن انجام شده است.
پسآموزش رفتار مدل را از طریق دستورالعملها و همسوسازی ایمنی شکل میدهد. هرچند این موفقیت به معنای توانایی تراشههای هواوی برای پیشآموزش یک مدل پیشرو از صفر نیست.
پیشآموزش از صفر، کاری بسیار سنگینتر و پرهزینهتر است. مدتی پیش گزارش شد که دیپسیک نتوانست یک اجرای آموزشی موفق برای مدل R2 روی تراشههای هواوی داشته باشد. آن زمان، مشکلاتی مانند عملکرد ناپایدار و کندی اتصالات تراشه گزارش شد.
ادعایی که محققان چینی مطرح میکنند بنچمارکهای دقیقی ندارد. هیچ عددی دربارهی مدتزمان اجرای این فرآیند یا مقایسهی آن با سختافزار انویدیا ارائه نشده است.