استارتاپ Groq اولین شتاب‌دهنده‌ هوش مصنوعی با قدرت یک PetaOPS را معرفی کرد

سه‌شنبه ۸ بهمن ۱۳۹۸ - ۱۸:۴۵
مطالعه 4 دقیقه
شتاب‌دهنده‌های هوش مصنوعی از ابزارهای مهم پردازشی این فناوری محسوب می‌شود و Groq یکی از استارتاپ‌های فعال در این زمینه است.
تبلیغات

استارتاپ Groq یکی از شرکت‌های متعددی است که در حوزه‌ی ساخت کارت‌های شتاب‌دهنده‌ی هوش مصنوعی فعالیت می‌کند. آن‌ها دومین بازیگر بازار محسوب می‌شوند و موفق به تولید اولین محصول با قابلیت انجام یک کوادریلیون عملیات در ثانیه شده‌اند. چنین عملکردی چهار برابر قوی‌تر از قدرتمندترین کارت شتاب‌دهنده‌ی انویدیا است.

پردازنده‌های شتاب‌دهنده‌ی هوش مصنوعی که به‌نام پردازنده‌ی استریم تنسور یا TSP شناخته می‌شوند، رویکردی تقریبا متفاوت با پردازنده‌های عادی دارند. محصول گراک، برای هر هسته‌ی پردازشی به ۳۰۰ وات نیرو نیاز دارد. البته این پردازنده مجهز به تنها یک هسته‌ی پردازشی است که گراک، آن را از یک نقطه‌ی ضعف، به بزرگ‌ترین مزیت رقابتی خود تبدیل کرد. به‌هرحال برای درک ساختار TSP، باید هرچه از پردازنده‌های گرافیکی یا پردازنده‌های هوش مصنوعی می‌دانیم، کنار بگذاریم. TSP یک قطعه‌ی سیلیکونی بزرگ محسوب می‌شود که تنها به واحد‌های پردازشی ماتریسی و برداری مجهز خواهد بود. هیچ‌گونه کنترلر یا ساختار Backend در این پردازنده‌ها وجود ندارد و کامپایلر، کنترل کامل را در دست می‌گیرد.

واحد پردازی TSP از ۲۰ واحد موسوم به Superlane تشکیل می‌شود که از چپ به راست، اینگونه هستند: واحد ماتریسی 320MAC، واحد سوئیچ، واحد حافظه‌ی ۵/۵ مگابایتی، واحد برداری 16ALU، واحد حافظه‌ی ۵/۵ مگابایتی، واحد سوئیچ، واحد ماتریسی 320MAC. با نگاهی به الگوی مذکور، متوجه آینه‌‌ای بودن جانمایی واحدها می‌شویم که در اطراف واحد برداری طراحی شده‌اند. درنتیجه، سوپرلین‌ها به دو نیم‌کره تقسیم می‌شوند که هرکدام توانایی عملکرد مستقل دارند.

جریان دستورالعمل‌ها که در TSP تنها یک عدد است، به تمامی اجزاء تشکیل‌دهنده‌ی سوپرلین صفر وارد می‌شود. ۷ دستورالعمل برای واحدهای ماتریسی، ۱۴ دستور برای واحدهای سوئیچ، ۴۴ دستور برای واحدهای حافظ و ۱۶ دستور برای واحد برداری ارسال می‌شود. واحدها هر چرخه‌ی کلاک، عملیات خود را انجام می‌دهند و تکه‌های داده را به بخش بعدی در سوپرلین منتقل می‌کنند. هر قطعه، توانایی ارسال و دریافت ۵۱۲ مگابایت داده از همسایه‌ی خود دارد.

Groq TSP

وقتی عملیات سوپرلین تمام شود، همه‌ی نتایج به سوپرلین بعدی بعدی منتقل و دستورالمل یا رویکرد بعدی از کنترل‌کننده‌ی دستورالعمل یا سوپرلین بالایی دریافت می‌شود. درواقع دستورالعمل‌ها همیشه به‌صورت عمودی بین سوپرلین‌ها جابه‌جا می‌شوند و داده تنها تنها به‌صورت افقی در داخل سوپرلین حرکت می‌کند.

واحدهای TSP تنها برای آموزش شبکه‌های عصبی کاربرد دارند و وظیفه‌ی پردازشی دیگری انجام نمی‌دهند

روند فعالیت TSP، آن را به پردازنده‌ای عالی برای آموزش شبکه‌های عصبی و استنباط داده تبدیل می‌کند. همین روندها، هرگونه کارایی دیگر را از TSP سلب می‌کنند. بنچمارک‌های اولیه از شتاب‌دهنده‌ی گراک در ResNet-50 نشان می‌دهند که این واحد پردازشی توانایی انجام ۲۰،۴۰۰ استنباط در ثانیه (I/S) را دارد و تأثیر استنباط آن نیز ۰/۰۵ میلی‌ثانیه گزارش می‌شود.

پردازنده‌ی انویدیا تسلا V100 در ابعاد دسته‌ای ۱۲۸، توانایی انجام ۷،۹۰۷ استنباط در ثانیه دارد و درصورت استفاده از یک دسته، قدرت ۱،۱۵۶ استنباط در ثانیه خواهد داشت. البته تعداد دسته‌های پردازشی هیچ‌گاه به این اندازه کوچک نخواهد بود، اما به‌هرحال تنوع TSP را نشان می‌دهد. تأخیر در شتاب‌دهنده‌ی انویدیا در حالت‌های بالا، ۱۶ و ۰/۸۷ میلی‌ثانیه گزارش می‌شود. نتایج بالا نشان می‌دهند که محصول گراک، با فاصله‌ی قابل‌توجهی رقیب شبیه به خود از انویدیا را شکست می‌دهد.

Groq TSP

Nvidia

Tesla

V100

Nvidia Tesla T4

تعداد هسته

یک

۵،۱۲۰

۲،۵۶۰

حداکثر فرکانس

۱،۲۵۰ مگاهرتز

۱،۵۳۰ مگاهرتز

۱،۵۹۰ مگاهرتز

FP16 TFLOPS

۲۰۵

۱۲۵

۶۵

INT8 TOPS

۱،۰۰۰

۲۵۰

۱۳۰

کش تراشه (L1)

۲۲۰ مگابایت

۱۰ مگابایت

۲/۶ مگابایت

حافظه‌ی اضافه

ندارد

۳۲ گیگابایت HBM2

۱۶ گیگابایت GDDR6

برق مصرفی

۳۰۰ وات

۳۰۰ وات

۷۰ وات

فرایند تولید

۱۴ نانومتری

۱۲ نانومتری

۱۲ نانومتری

ابعاد قالب

۷۲۵ میلی‌متر مربع

۸۱۵ میلی‌متر مربع

۵۴۵ میلی‌متر مربع

از مزیت‌های TSP می‌توان به تجهیز به حافظه‌ی کش L1 اشاره کرد. البته کارت‌های مذکور، تنها همین قابلیت اضافه را دارند و اگر یک شبکه‌ی عصبی، توسعه پیدا کرده و داده‌های ورودی بیشتری دریافت کند، قطعا با مشکل روبه‌رو می‌شوند. درمقابل، کارت‌های انویدیا مجهز به چندین گیگابایت حافظه هستند که افزایش ابعاد و ورودی‌های شبکه‌ی عصبی را سازمان‌دهی می‌کند.

در مجموع می‌توان TSP را یک ابزار شتاب‌دهی کاملا مناسب در حوزه‌ی هوش مصنوعی دانست. محصول گراک در بسیاری از وظایف، انویدیا Tesal V100 را شکست می‌دهد، اما اگر فرایند کاری هوش مصنوعی متنوع باشد، قابلیت‌های TSP محدود خواهد شد. TSP قطعا در حوزه‌هایی همچون خودروهای خودران، کاربرد دارد. در این حوزه‌ها،‌ حجم داده‌ی ورودی محدود و قابل پیش‌بینی است و شبکه‌ی عصبی به‌خوبی قابلیت هماهنگی دارد. در چنین کاربردهایی، تأخیر پایین‌تر ۳۲۰ برابری TSP نسبت به انویدیا، منجر به پاسخ‌گویی سریع‌تر خودروی هوشمند می شود. شتاب‌دهنده‌ی مذکور اکنون ازطریق شبکه‌ی ابری Nimbix در اختیار مشتریان خاص قرار دارد.

تبلیغات
داغ‌ترین مطالب روز

نظرات

تبلیغات