بررسی هسته‌های جگوار، برگ برنده‌ی AMD که سونی و مایکروسافت در کنسول‌های نسل بعدی از آن استفاده کرده‌اند - زومیت

بررسی هسته‌های جگوار، برگ برنده‌ی AMD که سونی و مایکروسافت در کنسول‌های نسل بعدی از آن استفاده کرده‌اند

مشخصات دقیق دو کنسول ایکس‌باکس وان و پلی استیشن ۴ در تمام رسانه‌ها بازتاب گسترده داشته است. بازی‌هایی که از نظر گرافیکی، بسیار پیشرفته هستند و گاهی نمی‌توان تفاوتشان را با یک فیلم تشخیص داد. پردازنده‌ی گرافیکی قدرتمند، یک عامل اساسی در نمایش جزئیات خیره‌کننده است اما پردازنده‌ی ۸ هسته‌‌ای این دو کنسول هم سرعت فوق‌العاده‌ای دارد. در این مقاله می‌خواهیم به پردازنده‌ی این دو کنسول یعنی هسته‌های جگوار بپردازیم و ببینیم چرا سونی و مایکروسافت، اینتل بزرگ را رها کرده‌اند و سراغ AMD معروف رفته‌اند.

امروزه معماری پردازنده‌ها واقعاً محدود است و توان مصرفی عامل اساسی در این محدودیت به حساب می‌آید. وقتی مسأله، طراحی یک پردازنده با توان مصرفی مشخص باشد، می‌توان از یک معماری کلی استفاده کرد و با اعمال تنظیمات خاص، به توان مورد نظر رسید. به عنوان مثال دو معماری معروف اینتل برای پردازنده‌ها را در نظر بگیرید، منظورمان سندی بریج و آیوی بریج است. در بازار با پردازنده‌های مختلفی که محدوده‌ی ۱۳ تا ۱۳۰ وات را پوشش داده‌اند روبرو می‌شویم. البته بازدهی پردازنده‌هایی که بسیار زیاد یا بسیار کم مصرف می‌کنند بهینه نیست و معمولاً برای توان مصرفی کم و زیاد، از معماری‌های دیگری استفاده می‌شود.

01

هر دو کمپانی معروف اینتل و ای‌ام‌دی از این روش استفاده می‌کنند، اینتل پردازنده‌های خانواده‌ی اتم را با توان مصرفی پایین، پردازنده‌های سری Core را برای مصرف معمولی و زیاد ارائه کرده است. ای‌ام‌دی در سال ۲۰۱۰ بابکت (Bobcat) را در نقشه راه پردازنده‌های کم‌مصرف خود قرار داد و بولدوزرها در رده‌ی پردازنده‌های پر‌مصرف و قدرتمند.

هر دو معماری بابکت و بولدوزر به صورت سالانه به روز شده‌اند. در سال ۲۰۱۱ در دو مدل از پلتفرم برَزو (Brazos) یعنی SoCهای آنتاریو و زاکِیت (Zacate) شاهد استفاده از بابکت بودیم. منظور از SoC تراشه‌هایی است که امروزه در تبلت‌ها و گوشی‌ها به کار می‌روند و علاوه بر پردازنده‌ی اصلی و گرافیکی، شامل حافظه‌، واسط‌هایی مثل شبکه و USB، مودم باند پایه و غیره است.

در سال ۲۰۱۲ هم با بروزوی دوم آشنا شدیم. باز هم همان هسته‌های بابکت ولیکن با تغییراتی استفاده شد. حالا پس از ۲-۳ سال، نوبت به یک بروز رسانی جدی است، چرا که اینتل و معماری ARM هم به شدت برای به دست آوردن سهم بیشتر از بازار وسایل کم‌مصرف و همراه تلاش می‌کنند. اینجاست که ای‌ام‌دی هسته‌های جگوار را معرفی می‌کند.

جگوار و بهینه‌سازی معماری تخصیص دوگانه و خارج از نوبت

02

ابتدا سراغ هسته‌های جگوار می‌رویم و تنها یک هسته را بررسی می‌کنیم، شباهت آن با بابکت زیاد است. همان معماری دو تخصیصه و خارج از نوبت که در سال ۲۰۱۰ معرفی شده بود، باز هم مورد استفاده قرار گرفته است. منظور از اجرای خارج از نوبت این است که پردازنده در مواقعی که داده‌ی ورودی داشته باشد، بدون اتلاف کلاک به اجرای دستورات می‌پردازد و خود را درگیر تأخیرهای موجود نمی‌کند. همان کش سطح ۱ یا L1 واسط نهایی و بلوک‌های اجرایی هنوز بر قوت خود باقی هستند. در حقیقت ای‌ام‌دی هم مثل ARM به اجرای خارج از نوبت دستورات روی آورده است. همان چیزی که در Cortex-A15 وجود دارد. وجه تمایز اینتل و ای‌ام‌دی با Cortex-A15 در تعداد تخصیص است. منظور از Issue (یا تخصیص) در زبان اینتل و آی‌بی‌ام و دیگران متفاوت است اما معمولاً به انتقال یک دستور پردازشی (یا Instruction) از موقعیتی در پایپ‌لاین (یا کانال اطلاعات) به یک موقعیت دیگر، Issue گفته می‌شود.

در Cortex-A15 از ۳ تخصیص استفاده می‌شود به این معنی که در یک سیکل کلاک می‌توان سه دستور را جابجا کرد، اما اینتل و ای‌ام‌دی به دنبال کاهش مصرف انرژی بوده و در آخرین نسل اتم یعنی سیلورمونت و نیز جگوار، همچنان از ۲ تخصیص استفاده می‌شود و افزایش آن به آینده موکول شده است.

گذشته از حرکت به سمت استفاده از لیتوگرافی ۲۸ نانومتری، تمرکز اصلی ای‌ام‌دی روی افزایش کارایی با همان توان مصرفی قبل بوده است. بابکت در نت‌بوک‌ها و نتاپ‌ها و سایر محصولات ارزان‌قیمت و نیز ضخیم به کار رفته اما جای آن در محصولات باریکی مثل تبلت خالی است. جگوار قصد ورود اساسی به دنیای تبلت را هم دارد. شاید ای‌ام‌دی فعلاً در مورد گوشی‌های هوشمند برنامه‌ی خاصی ندارد، ولیکن بازار تبلت هم چیز کمی نیست. در تبلت‌های ارزان‌قیمت، ارتباط تلفنی مهم نیست و لذا ای‌ام‌دی می‌تواند بعد از اینتل بزرگ‌ترین تأمین‌کننده‌ی تراشه باشد.

در جگوار از ۴ حلقه‌ی ۳۲ بایتی به عنوان بافری برای کش دستورات استفاده می‌شود. وقتی یک حلقه تشخیص داده شد، به جای فراخوانی مجدد دستورات اجرا شده از کش L1، از همین حلقه‌ی کوچک بافر استفاده می‌شود. تنها مزیت این روش فراخوانی این است که دیگر نیازی به فعالیت کش دستورات در هر بار اجرای یک حلقه نیست و لذا مصرف انرژی کاهش می‌یابد و کارایی افزایشی نخواهد داشت.

هر معماری جدیدی قبل از تولید انبوه، بارها و بارها مورد آزمایش قرار می‌گیرد تا گلوگاه‌ها شناسایی شوند و در طراحی‌های بعدی، مورد بررسی بیشتر قرار گیرند. برطرف کردن گلوگاه‌ها هم همواره با توجه به هزینه‌ها و زمان‌بندی عرضه‌ی محصولات جدید صورت می‌گیرد.

ای‌ام‌دی در طراحی جگوار از همان واسط نهایی ۲ تخصیص استفاده کرده و به جای استفاده از کش مایکرو-‌‌آپ یا کش ردگیری، به استفاده از یک بافر حلقه‌ی دستورات روی آورده است تا تدریجاً در طراحی‌های بعدی، زمان و هزینه‌ی لازم برای اعمال تغییرات بیشتر را پیدا کند.

ای‌ام‌دی کش پیش‌فراخوانی دستورات را هم بهینه‌تر کرده، علت استفاده از پهنای باند بیشتر نیست بلکه زمان بیشتری در طراحی و اعمال آن گذاشته شده است. اندازه‌ی بافر دستورات بین کش دستورات و دیکودر (یا رمزگشا) از نظر اندازه پیشرفت کرده اما در هنوز تا رسیدن به مراحل فراخوانی و رمزگشایی بسیار مستقلی که در بولدوزر سراغ داریم، فاصله‌ی زیادی وجود دارد.

در جگوار از سلسله دستورات جدیدتری پشتیبانی به عمل آمده که SSE4.1 ،SSE4.2 ،AES ،CLMUL ،MOVBE ،AVX ،F16C و BMI1 جزء آن است، آدرس‌دهی فیزیکی ۴۰ بیتی نیز پشتیبانی شده است.

آخرین تغییری که در جگوار رخ داده، اضافه شدن یک مرحله‌ی رمزگشایی دیگری است که هدف از آن افزایش فرکانس می‌باشد. در بابکت یکی از مشکلات اساسی که فرکانس ماکسیمم را محدود می‌کرد، دیکودر بوده، بنابراین اضافه شدن یک مرحله‌ی جدید رمزگشایی، فرکانس جگوارهای ۲۸ نانومتری را افزایش خواهد داد.

اجرای محاسبات اعداد صحیح و ممیز شناور

از نظر اجرای محاسبات اعداد صحیح، واحدها و پایپ‌لاین تقریباً مشابه بابکت هستند. بزرگ‌ترین تغییر در این بخش استفاده از مقسم سخت‌افزاری است که در نسل اول APUهای ای‌ام‌دی یعنی Llano استفاده می‌شود. بابکت دارای مقسم اینتیجر مایکروکدشده‌ای بود که در هر سیکل کلاک، یک بیت را پردازش می‌کرد. در جگوار مقسم با قدرت ۲ برابر وجود دارد. با توجه به اینکه سخت‌افزار با کلاک فعالیت می‌کند و لذا اگر استفاده‌ای از آن نشود، مصرف انرژی هم بیشتر نخواهد بود.

بافرهای زمان‌بندی و مرتب‌کننده در جگوار بزرگ‌تر شده‌اند. منابع اجرای خارج از نوبت هم افزایش یافته‌اند و بخش زمان‌بندی دچار تغییراتی شده است.

03

در بابکت مشکل خاصی در اجرای اینتیجر وجود نداشت اما در مورد ممیز شناور وضعیت کاملاً متفاوت بود. محاسبات ممیز شناور سنگین در بابکت نسبت به اتم‌های اینتلی کندتر بودند. علت تا حدی به بهره‌مندی اتم از هایپر تردینگ برمی‌گردد. ای‌ام‌دی برای حل مشکل اجرای ممیز شناوری را بهینه کرده و البته تعداد هسته‌های پردازشی را افزایش داده که نقش عامل دوم مهم‌تر است.

در بابکت از واحدهای ۶۴ بیتی برای اجرای ممیز شناور استفاده می‌شود. بنابراین برای اجرای یک عمل ممیز شناوری ۱۲۸ بیتی، باید از دو مرحله‌ی کوچک‌تر استفاده می‌شد. در جگوار از واحدهای ۱۲۸ بیتی استفاده شده است. دستورات AVX به صورت ۲ عمل ۱۲۸ بیتی انجام می‌شوند اما سایر اعمال ۱۲۸ بیتی، بدون مرحله‌مرحله شدن و استفاده از پایپ‌لاین، در یک مرحله انجام می‌شود. بنابراین افزایش پهنای بردار علت افزایش کارایی در بحث محاسبات ممیز شناور است.

04

ای‌ام‌دی به خاطر استفاده از بردارهای ۱۲۸ بیتی در واحد پردازش ممیز شناور یا FPU مجبور شده به پایپ‌لاین هم یک مرحله‌ی دیگر اضافه کند چرا که افزایش اندازه‌ی FPU باعث افزایش زمان جابجایی از یک موقعیت به موقعیت دیگر می‌شود و لذا به یک مرحله‌ی اضافی نیاز داریم.

ذخیره‌سازی و بارگذاری

05

ای‌ام‌دی مدعی است که عملکرد جگوار از نظر تعداد دستوراتی که در یک کلاک اجرا می‌شوند، ۱۵ درصد بهینه‌تر شده است. علت اصلی استفاده از واحد ذخیره‌سازی و بارگذاری خارج از نوبت جدیدی است که از مدت‌ها پیش مشخص بود جای بهینه‌سازی زیادی دارد. این دومین نسل واحد ذخیره‌سازی و بارگذاری خارج از نوبتی است که ای‌ام‌دی معرفی کرده و نتیجه‌ی خوبی هم داشته است.

06

واحد محاسبه

بابکت ساختار چند‌هسته‌ای ساده‌ای دارد. هر یک از هسته‌ها، کش ۵۱۲ سطح دوم مختص به خود را دارند و تمام ارتباطات بین هسته‌ای از طریق باس روی هر هسته اتفاق می‌افتد. ساختار کش مثل معماری‌های قبلی ای‌ام‌دی، انحصاری است.

در جگوار همه‌چیز دگرگون شده است. ای‌ام‌دی یک واحد محاسباتی جگوار را با نهایتاً ۴ هسته تعریف کرده که یک کش بزرگ و مشترک بینشان وجود دارد. کش L2 نهایتاً می‌تواند ۲ مگابایت و ۱۶ جهتی باشد. این کش اولین کش غیرانحصاری یا به عبارت بهتر اشتراکی در تاریخ معماری‌های این کمپانی است.

در گذشته ای‌ام‌دی همیشه از کش انحصاری استفاده می‌کرد، کپی کردن اطلاعات کش L1 در کش L2 هم تأثیر زیادی نداشت چرا که L2 هم یک کش انحصاری و مختص به هسته‌های خاص بود.

اما تأثیر کش اشتراکی که ای‌ام‌دی برای اولین بار استفاده کرده چه قدر است؟ تعداد دستورات اجرا شده در یک سیکل بین ۵ تا ۷ درصد بیشتر از بابکت خواهد بود.

بنابراین تا به اینجای کار، نتیجه‌ی استفاده از کش اشتراکی و واحد ذخیره‌سازی و بارگذاری خارج از نوبت نسل دوم، ۲۲ درصد سرعت بیشتر است.

07

08

اما در کاربردهای چند تردی چه اتفاقی می‌افتد؟ منظور از چند تردی، پردازش‌هایی است که به صورت موازی توسط هسته‌های مختلف اجرا می‌شوند. معماری جدید کش در جگوار و ارتباط بین هسته‌ای با تأخیر کمتر، در کاربردهای چند تردی به مراتب موثرتر واقع می‌شود و لذا به نتیجه‌ی عالی زیر می‌رسیم:

09

در کاربرد تک تردی یا به عبارتی در مقایسه‌ی یک هسته، سرعت پردازش ۲۱ درصد بیشتر شده ، حتی با اینکه سرعت کلاک از ۱.۶ به ۱.۵ گیگاهرتز تقلیل یافته است. اما در کاربردهای چند هسته‌ای، سرعت پردازش حدوداً ۲.۵ برابر شده که نشان از عملکرد بهتر دارد.

کش L1 همان مقدار ۳۲ کیلوبایت قبلی است و تغییر نداشته است.

چیدمان فیزیکی و ترکیب پردازنده

10

بابکت اولین هسته‌ی پردازنده‌ای است که ای‌ام‌دی به راحتی تولید کرده و این موضوع نتیجه‌ی خرید کمپانی ATI می‌باشد. ای‌ام‌دی در جگوار باز هم موفق‌تر ظاهر شده و تعداد مایکروهای یکتایی که در طراحی لازم است را کاهش داده و لذا تراشه به شدت ساده شده است. منظور از مایکرو طبقات و بخش‌های مختلفی است که با رنگ‌های متفاوت در تصویر فوق نشان داده شده است.

حالا ای‌ام‌دی می‌تواند جگوار را بین کارخانه‌های مختلف جابجا کند. البته استفاده از مایکروهای عمومی، مساحت را افزایش می‌دهد اما در عوض تولید مایکروها ساده‌تر می‌شود. در نهایت مساحت یک هسته‌ی ۲۸ نانومتری جگوار تنها ۳.۱ میلی‌متر مربع است در حالی که یک هسته‌ی بابکت که لیتوگرافی ۴۰ نانومتری داشت، ۴.۹ میلی‌متر مربعی بود.

با توجه به تصویر زیر پیچیدگی بیشتر بابکت نسبت به جگوار کاملاً مشهود می‌باشد:

11

کبینی (Kabini)، تراشه‌ای برای دنیای نوت‌بوک‌ها

ای‌ام‌دی قرار است دو نوع ای‌پی‌یو بر اساس هسته‌های جگوار تولید کند. کَبینی و تِسمش. اگر با مفهوم APU و تفاوت آن با CPU و GPU آشنایی ندارید، به مقاله‌ی اختصاصی زومیت سری بزنید. کبینی به زودی در نوت‌بوک‌های نسبتاً ارزان و البته بسیار باریک مورد استفاده قرار خواهد گرفت. اگر به تعریف APU نگاهی داشته باشیم، متوجه می‌شویم که تسمش و کبینی هیچ کدام یک ای‌پی‌یو نیستند چرا که اجزای موجود آنها را در تعریف SoC یا سیستم روی چیپ قرار می‌دهد. هاب I/O در قالب یکپارچه‌ی این تراشه‌ها به کار رفته است و لذا بهتر است بگوییم:

کبینی اولین سیستم روی چیپ ۴ هسته‌ای X86 است.

12

کبینی در دو سری با پیشوند A و E عرضه می‌شود، نسخه‌هایی با پیشوند A دارای ۴ هسته و سری E دارای ۲ هسته‌ی جگوار هستند. لیست کبینی‌های فعلی به صورت زیر است:

13

اما به پردازنده‌ی گرافیکی مجتمع بپردازیم، از ۲ واحد محاسباتی با معماری Graphics Core Next یا GCN استفاده می‌شود. موتور هندسی خاصی با توان پردازش ۴/۱ دستورات اولیه در هر کلاک مورد استفاده قرار گرفته تا تولید چنین پردازنده‌های کوچک و کم‌مصرفی امکان‌پذیر شود. انجام محاسبات با دقت مضاعف با نرخ ۱۶/۱ پشتیبانی شده گرچه در زمان اجرا با دقت عادی و نرخ ۸/۱ مشکلاتی به چشم می‌خورد.

14

15

کنترلر مموری ۶۴ بیتی DDR3 در کبینی‌ها به کار رفته و توان مصرفی مدل‌های مختلف بین ۹ تا ۲۵ وات می‌باشد. با اینکه جگوار از فرکانس کاری پویا (Dynamic) پشتیبانی می‌کند، این قابلیت یعتی Turbo Mode را در کبینی‌ها نمی‌بینیم. تمام سرعت‌های مذکور، بیشترین سرعت هسته‌ها هستند و به بار پردازشی وابسته نمی‌باشند.

16

تمش (Temash) یک پردازنده‌ی معمولی برای تبلت‌ها

17

تسمش‌ها توان مصرفی کمتری دارند و بین ۳.۹ تا ۹ وات انرژی مصرف می‌کنند. مدل ۴ هسته‌ای A6-1450 دارای توربو کور است و فرکانس هسته‌های آن دائماً در حال تغییر می‌باشد. یکی از ویژگی‌های جالب توربو کور در این تراشه، اشتراک توان مصرفی بین پردازنده‌ی اصلی و گرافیکی است. به این معنی که اگر پردازنده کم‌بار باشد، توان در دسترس را در اختیار پردازنده‌ی گرافیکی قرار می‌دهد و پردازنده‌ی گرافیکی هم چنین قابلیتی دارد.

18

مدل A4-1200 هم توان مصرفی جالب دارد، کمتر از ۴ وات که برای تولید تبلت‌هایی مثل آیپد مناسب است. ای‌ام‌دی در هیچ کدام از مدل‌های معرفی شده، تعداد هسته‌های گرافیکی را کاهش نداده و تنها فرکانس کاری را تغییر داده است.

ایکس‌باکس وان و پلی استیشن ۴

در هر دو کنسول نسل بعدی مایکروسافت و سونی، از پردازنده‌ها و به عبارت دقیق‌تر سیستم روی چیپ‌هایی مبتنی بر جگوار استفاده شده است. در هر دو کنسول دو واحد ۴ هسته‌ای جگوار دیده می‌شود. کش مشترک L2 در هر واحد ۲ مگابایت است. ارتباط بین دو واحد ۴ هسته‌ای در حد ایده‌آل نیست و لذا سازندگان بازی سعی می‌کنند بار پردازشی روی یکی از واحدهای ۴ هسته‌ای باشد.

با نگاهی به کبینی محدوده‌ی فرکانس کاری جگوارهای ۲۸ نانومتری مشخص می‌شود: ۱ تا ۲ گیگاهرتز. اما همیشه یک نقطه‌ی بهینه برای رسیدن به بالاترین بازدهی وجود دارد که در مورد جگوار فرکانس ۱.۶ گیگاهرتز است. با افزایش ۲۵ درصدی فرکانس یعنی رسیدن به سرعت ۲ گیگاهرتز، مصرف انرژی ۶۶ درصد افزایش می‌یابد که نشان می‌دهد فرکانس ۲ گیگاهرتز به هیچ وجه بازده بهتری ندارد.

تفاوت بین کبینی و تسمش با پردازنده‌ای که در کنسول‌های موردبحث به کار رفته تنها در آدرس‌دهی یکپارچه‌ی حافظه و وابستگی‌های خاصی است که در معماری این دو کنسول می‌بینیم. قطعاً باس حافظه هم بسیار متفاوت است اما هسته‌های جگوار دقیقاً یکی هستند.

نتیجه‌گیری نهایی

همانطور که گفتیم ای‌ام‌دی مدعی است که یک هسته‌ی جگوار از نظر کارایی با سرعت کلاک مساوی، ۲۲ درصد سریع‌تر از بابکت است. بابکت دروازه‌ی ورود به وسایل همراه بوده و در حال حاضر در بیش از ۵۰ میلیون دستگاه مشغول کار است. مصرف انرژی جگوار نیز با استفاده از لیتوگرافی ۲۸ نانومتری و سایر بهینه‌سازی‌ها، به مراتب بهتر از بابکت می‌باشد. بنابراین انتظار داریم که تسمش در ورود به دنیای تبلت‌ها موفق‌تر از دو برزویی که در سال‌های قبل رونمایی شدند، ظاهر شود.

19

البته جگوار نقاط ضعفی هم دارد که نشان می‌دهد سازنده در رونمایی و عرضه‌ی آن کمی عجله داشته است که با توجه به اوضاع بازار، بی‌مورد هم نیست. بزرگ‌ترین اشکال جگوار در توربو کور نسبتاً ضعیف است. چیزی که در اجرای پردازش‌های تک‌هسته‌ای معجزه می‌کند. قابلیت کنترل و مانیتور دما و توان مصرفی هم از نقاط ضعف جگوار است که در آینده پیشرفت خواهد کرد.

در مجموع وضعیت جگوار بسیار خوب به نظر می‌رسد. توان مصرفی هسته‌های جگوار در بار پردازشی سبک به کمتر از ۲ وات کاهش می‌یابد. سایر بخش‌های یک تبلت، این توان را به رقم ۴ تا ۷ وات می‌رسانند. به نمودار زیر توجه کنید:

20

توان مصرفی پلتفرم کبینی با ۴ هسته، در حالت بی‌کار ۰.۷۷ وات است و در مجموع کلی سیستم حدود ۴ وات مصرف می‌کند. همین رقم در مورد بروزی ۲.۰، حدود ۶ وات بود. جالب است که با استفاده از یک باتری ۴۵ وات‌ساعتی که در نوت‌بوک‌های امروزی مرسوم است، می‌توان حدود ۷ ساعت از سیستم برای پخش ویدیوی استفاده کرد.

در این محدوده‌ی قیمتی، فعلاً رقیبی برای جگوار وجود ندارد. اتم‌های فعلی ۳۲ نانومتری اینتل که از هسته‌های سالت‌وِل (Saltwell) استفاده می‌کنند، کمی قدیمی شده‌اند و ARM هم چیزی در این حد سریع ارایه نکرده است. بنابراین منطقی است که مایکروسافت و سونی در تصمیمی مشابه سراغ تراشه‌ای ۸ هسته‌ای با هسته‌های جگوار بروند.

تا چند ماه بعد که اینتل معماری سیلورمونت خود با لیتوگرافی ۲۲ نانومتری را روانه‌ی بازار کند، ای‌ام‌دی با خیال راحت مشغول فروش محصولات خود خواهد بود و از موقعیتی که در چند سال اخیر کمتر به آن رسیده لذت می‌برد، منظورمان برتری در کارایی CPU است.

از سراسر وب

  دیدگاه
کاراکتر باقی مانده
تبلیغات

بیشتر بخوانید