چرا هوش مصنوعی تشنه انرژی است؟

یک‌شنبه ۲۱ دی ۱۳۹۹ - ۲۲:۰۰
مطالعه 5 دقیقه
هوش مصنوعی با وجود تمام مزایا و پیشرفت‌ها، انرژی زیادی مصرف می‌کند و اثر محیطی شدیدی به‌جای می‌گذارد.
تبلیغات

گوگل در پژوهشی ناامیدکننده به خطرهای هوش مصنوعی پردازش زبان اشاره کرد. این نوع هوش مصنوعی در جست‌وجوی گوگل و دیگر محصولات تحلیل متنی به‌کار می‌رود. یکی از خطر‌های این نوع هوش مصنوعی، اثر کربنی فراوان آن است.

بر‌اساس تخمین‌ها، آموزش مدل هوش مصنوعی به‌اندازه‌ی تولید خودرو و رانندگی با خودروها در طول عمر آن‌ها به انرژی نیاز دارد. کیت سائنکو، پژوهشگر و نویسنده‌ی اصلی این مقاله، مدل‌های هوش مصنوعی بررسی می‌کند و آن را توسعه می‌دهد و با انرژی و هزینه‌های مالی پژوهش‌های AI آشنا است. چرا مدل‌های هوش مصنوعی تا این اندازه تشنه‌ی انرژی هستند و چه تفاوتی با رایانش دیتاسنتری یا مرکزداده‌ای سنتی دارند؟

فرایند آموزش هوش مصنوعی غیربهینه است

عملیات سنتی پردازش داده در دیتاسنترها پخش ویدئو و ایمیل و رسانه‌های اجتماعی را شامل می‌شود. هوش مصنوعی ازنظر محاسباتی متمرکز است؛ زیرا به خواندن مقادیر زیادی داده و یادگیری و درک آن‌ها نیاز دارد. این نوع فرایند آموزشی در‌مقایسه‌با یادگیری انسانی غیربهینه است. AI مدرن از شبکه‌های عصبی استفاده می‌کند که محاسبات ریاضی را به تقلید از مغز انسان انجام می‌دهند. میزان قدرت اتصال هر نورون به همسایه‌ی آن یکی از پارامترهای شبکه به نام وزن است. شبکه برای یادگیری چگونگی درک زبان با وزن‌های تصادفی آغاز می‌شود و این وزن‌ها را تا زمانی تطبیق می‌دهد که خروجی منطبق با پاسخی صحیح باشد.

یکی از روش‌های متداول آموزش شبکه‌ی زبانی تغذیه‌ی شبکه با مقادیر زیادی متن از وب‌سایت‌هایی مثل ویکی‌پدیا و اخباری دارای کلمات نشانه‌گذاری شده است. سپس شبکه کلمات جداشده را حدس می‌زند. برای مثال، جمله‌ی «سگ من بامزه است» را با کلمه‌ی «بامزه» در نظر بگیرید. در ابتدا، مدل کلمات را به‌اشتباه تشخیص می‌دهد؛ اما با تطبیق بیشتر، وزن‌های اتصالی تغییر می‌کنند و الگوهای داده‌ای را کشف می‌کنند؛ در‌نهایت، شبکه به دقت چشمگیری می‌رسد.

یکی از مدل‌های جدید به نام BERT (نمایش رمزنگار دوطرفه از مبدل‌ها) از ۳/۳ میلیارد کلمه‌ی کتاب‌های انگلیسی و مقاله‌های ویکی‌پدیا استفاده می‌کند. علاوه‌بر‌این، BERT در طول آموزش مجموعه‌های داده‌ای را یک جا چهل مرتبه می‌خواند. در‌مقابل، کودک به‌طور‌میانگین می‌تواند تا پنج‌سالگی ۴۵ میلیون کلمه را بشنود که سه‌هزار مرتبه کمتر از داده‌های BERT است.

جست‌وجوی ساختار مناسب

فرایند آموزش که معمولا در طول توسعه چند بار تکرار می‌شد، مدل‌های زبانی را پرهزینه می‌سازد. دلیل این مسئله جست‌وجوی بهترین ساختار برای شبکه ازجمله تعداد نورون‌ها، تعداد اتصال بین نورون‌ها، سرعت تغییر پارامترها در طول یادگیری و... است. هرچه ترکیب‌های آزمایشی بیشتر باشند، بخت شبکه برای رسیدن به دقت زیاد افزایش می‌یابد. درمقابل مغز انسان به یافتن ساختار بهینه نیازی ندارد و از ساختار پیش‌ساخته‌ای برخوردار است که در فرایند تکامل شکل گرفته است.

با افزایش شرکت‌ها و مؤسسه‌های پژوهشی در حوزه‌ی هوش مصنوعی، فشار برای بهبود جدیدترین فناوری‌ها افزایش یافت. حتی دستیابی به پیشرفت ۱ درصدی در دقت وظایف دشواری مثل ترجمه‌ی ماشینی هم معنادار است و می‌تواند به‌معنی تولید محصولات بهتر باشد. باوجوداین برای رسیدن به این بهبود ۱ درصدی، باید مدل را هزاران مرتبه و هر بار با ساختار متفاوتی آموزش داد تا بهترین نتیجه حاصل شود.

پژوهشگران دانشگاه آمهرست ماساچوست با اندازه‌گیری مصرف برق سخت‌افزارهای متداول به‌کاررفته در فرایند آموزش، هزینه‌ی انرژی توسعه‌ی مدل‌های زبانی AI را تخمین زدند. براساس نتایج، مصرف انرژی BERT معادل اثر کربنی حاصل از پرواز بین نیویورک و سان‌فرانسیسکو است. با‌این‌حال، جست‌وجو در ساختارهای مختلف و آموزش چندباره‌ی الگوریتم براساس داده‌ها با تعداد متغیر نورو‌ن‌ها و اتصال‌ها و پارامترهای دیگر، هزینه‌ی انرژی هم‌ارز با پرواز ۳۱۵ مسافر یا هواپیمای ۷۴۷ کامل است.

بزرگ‌تر و داغ‌تر

مدل‌های هوش مصنوعی هر سال بزرگ‌تر می‌شوند. GPT-2، مدل زبانی جدید مشابه BERT، در شبکه‌ی خود تقریبا ۱/۵ میلیارد و GPT-3 با دقتی بیشتر ۱۷۵ میلیارد وزن دارد. به‌طور‌کلی، شبکه‌های بزرگ‌تر دقت بیشتر دارند؛ حتی اگر تنها بخش کوچکی از شبکه‌ی مفید و کاربردی باشد. فرایند مشابهی در مغز کودکان رخ می‌دهد؛ در ابتدا اتصال‌های عصبی اضافه می‌شوند و سپس کاهش می‌یابند؛ اما به‌طور‌کلی مغز بیولوژیکی بهینه‌تر از مغزهای کامپیوتری است.

مدل‌های هوش مصنوعی بر اساس سخت‌افزار ویژه‌ای مثل واحدهای پردازنده‌ی گرافیکی آموزش می‌بینند که انرژی بیشتری درمقایسه‌با CPU‌های قدیمی مصرف می‌کند. معمولا در لپ‌تاپ‌های بازی از این واحدهای پردازنده‌ برای تولید گرافیک پیشرفته برای بازی‌هایی مثل ماینکرفت RTX استفاده می‌شود. این لپ‌تاپها معمولا داغ‌تر از لپ‌‌تاپ‌های معمولی هستند.

به‌طور‌کلی، توسعه‌ی مدل‌های پیشرفته‌ی هوش مصنوعی نشر کربنی را افزایش می‌دهد. تا زمانی‌که از منابع ۱۰۰ درصد تجدیدپذیر استفاده نکنیم، پیشرفت هوش مصنوعی در تضاد با کاهش گازهای گلخانه‌ای و کاهش سرعت تغییرات اقلیمی قرار می‌گیرد. هزینه‌ی نهایی توسعه هم بسیار گران است و تنها تعداد اندکی از آزمایشگاه‌ها از عهده‌ی آن برمی‌‌آیند.

کار بیشتر با انرژی کمتر

کار بیشتر و انرژی کمتر دقیقا چه مفهومی برای پژوهش‌های هوش مصنوعی دارد؟ هزینه‌ی آموزش با ابداع روش‌های بهینه کاهش خواهد یافت. به‌طور‌مشابه طبق پیش‌‌بینی سال‌های گذشته، قرار بود مصرف انرژی دیتاسنترها رو به انفجار باشد؛ اما این اتفاق به‌دلیل پیشرفت در بازدهی دیتاسنترها و فناوری‌های سرمایش و سخت‌افزاری بهینه رخ نداد.

همچنین، مبادله‌ای بین هزینه‌ی آموزش مدل‌ها و هزینه‌ی استفاده از آن‌ها وجود دارد؛ در‌نتیجه مصرف بیشتر انرژی در زمان آموزش با تولید مدل کوچک‌تری همراه است که استفاده از آن می‌تواند ارزان‌تر تمام شود. از‌آنجا‌که از یک مدل چند بار استفاده می‌شود، انرژی بیشتری ذخیره خواهد شد.

سائنکو در پژوهش آزمایشگاهی خود، روش‌هایی برای کوچک‌کردن مدل‌های AI ازطریق اشتراک‌گذاری وزن‌ها یا استفاده از وزن‌های یکسان در بخش‌های مختلف شبکه جست‌وجو کرد. به این شبکه‌ها شیپ‌شیفتر یا تبدیل‌شونده گفته می‌شود؛ زیرا مجموعه‌ی کوچکی از وزن‌ها را می‌توان برای شبکه‌های بزرگ‌تر با هر شکل و ساختاری تنظیم کرد. پژوهشگران دیگر هم نشان داده‌اند اشتراک‌گذاری وزن عملکرد بهتری در زمان یادگیری یکسان دارد.

جامعه‌ی AI با نگاهی به آینده باید برای توسعه‌ی طرح‌های آموزشی بهینه تلاش کند؛ در‌غیر‌این‌صورت، تعداد اندکی از توسعه‌دهندگان می‌توانند دستورالعمل دلخواه خود را برای توسعه‌ی مدل‌ها یا نوع داده‌های به کاررفته برای آموزش توسعه دهند.

مقاله‌ی اصلی در The conversation منتشر شده است.

تبلیغات
داغ‌ترین مطالب روز

نظرات

تبلیغات