طرح مفهومی از هوش مصنوعی

هوش مصنوعی به زبان آدمیزاد؛ راهنمای جامع برای مبتدیان

سه‌شنبه 11 آذر 1404
مطالعه 41 دقیقه
اگر میان انبوه اصطلاحاتی مثل یادگیری ماشین، دیپ‌فیک و هوش مولد سردرگم شده‌اید، این مقاله به تمام سوالات درباره چیستی، کارکرد و آینده AI پاسخ می‌دهد.
تبلیغات

این‌روزها همه‌جا صحبت از هوش مصنوعی است. کافی است سری به شبکه‌های اجتماعی بزنید یا اخبار را دنبال کنید تا با کلماتی مانند «هوش مصنوعی»، «یادگیری ماشین»، «یادگیری عمیق» و این اواخر، «هوش مصنوعی مولد» بمباران شوید. چت‌بات‌هایی که دنیا را تسخیر کرده‌اند، مشکلات «حل‌نشدنی» که در حال حل شدن هستند، افرادی که بدون هیچ دانشی از کدنویسی یا آهنگسازی، در عرض چند ثانیه وب‌سایت و آهنگ می‌سازنند و ویدیوهای «دیپ‌فیک‌» که تشخیص واقعیت از خیال را دشوار کرده‌اند.

خلاصه پادکستی

همه‌ی این اصطلاحات حالا به بخشی از گفتگوی روزمره ما تبدیل شده‌اند؛ اما آیا «هوش مصنوعی» و «یادگیری ماشین» یکی هستند؟ اگر نه، تفاوتشان چیست؟ اصلا هوش مصنوعی از کجا آمده، چطور کار می‌کند و این «هوش مصنوعی مولد» دقیقاً چه ارتباطی با بقیه دارد؟

اگر برای شما نیز سوال شده که این همه هیاهو و هیجان بر سر هوش مصنوعی به‌خاطر چیست و اگر دوست دارید پاسخ این پرسش‌ها را به زبانی ساده یاد بگیرید، با ما همراه شوید تا نگاهی به پشت پرده‌ی این فناوری مرموز و قدرتمند بیندازیم.

هوش مصنوعی چیست؟

در ساده‌ترین تعریف و به دور از تمام هیاهوی رسانه‌ای، هوش مصنوعی یا AI، چیزی نیست جز نرم‌افزاری که توانایی‌هایی شبیه به انسان را از خود نشان می‌دهد. به همین سادگی.

اما چه توانایی‌هایی؟ ما انسان‌ها توانایی دیدن داریم؛ به اطراف نگاه می‌کنیم و اشیا، چهره‌ها و صحنه‌ها را درک می‌کنیم. این، توانایی «بینایی» (Vision) در هوش مصنوعی است. ما توانایی گفتگو داریم؛ می‌توانیم متن را بفهمیم، کلمات را از دل یک تصویر بخوانیم (تحلیل متن) و به سوالات پاسخ دهیم. و شاید مهم‌تر از همه، ما براساس اطلاعاتی که از حواس مختلف (دیده‌ها، شنیده‌ها، سوالات) دریافت می‌کنیم، «تصمیم» می‌گیریم.

بنابراین، وقتی از هوش مصنوعی صحبت می‌کنیم، منظورمان نرم‌افزاری است که می‌تواند یک یا چند مورد از این قابلیت‌های انسانی را تقلید کند: «یادگیری»، «استنتاج» و «استدلال».

اما در اکثر موارد، آنچه به‌عنوان هوش مصنوعی می‌شناسیم، درواقع «اتوماسیون» یا همان فرایند خودکارسازی نام دارد و برای درک بهتر AI، ابتدا باید فرق آن را با اتوماسیون بدانیم.

در دنیای علوم کامپیوتر یک جوک قدیمی وجود دارد که می‌گوید اتوماسیون، کارهایی است که ما همین‌حالا می‌توانیم با کامپیوتر انجام دهیم، اما هوش مصنوعی کارهایی است که ما دلمان می‌خواست می‌توانستیم با کامپیوتر انجام دهیم. به‌عبارت دیگر،‌ به‌محض اینکه بفهمیم چطور کاری را با کامپیوتر انجام دهیم، از حوزه‌ی هوش مصنوعی خارج و وارد اتوماسیون می‌شویم.

به‌عبارت دیگر، «هوش مصنوعی» درحال‌حاضر بیشتر اصطلاحی برای بازاریابی است تا اصطلاحی فنی. دلیل اینکه شرکت‌ها به جای استفاده از واژه‌ی «اتوماسیون» از هوش مصنوعی استفاده می‌کنند این است که می‌خواهند در ذهن ما همان تصاویر علمی‌تخیلی فیلم‌های هالیوودی را تداعی کنند. اما این کار کاملا هم فریبکاری نیست؛ اگر بخواهیم دست‌ودل‌بازی به خرج دهیم، می‌توان گفت این شرکت‌ها قصد دارند بگویند درست است که تا رسیدن به هوش مصنوعی قوی راه درازی در پیش داریم، اما AI ضعیف کنونی را هم نباید دست‌کم گرفت، چون به‌مراتب از چند سال پیش، قوی‌تر شده است که خب، این حرف کاملاً درست است.

آنچه از هوش مصنوعی تابه‌حال دیده‌ایم از نوع هوش مصنوعی ضعیف است

در برخی زمینه‌ها، تغییرات شگرفی در توانایی ماشین‌ها صورت گرفته و آن هم به‌خاطر پیشرفت‌هایی است که در چند سال اخیر، در دو زمینه‌ی مرتبط با هوش مصنوعی، یعنی یادگیری ماشین و یادگیری عمیق به‌دست‌ آمده است. این دو اصطلاح را هم احتمالا بسیار شنیده‌اید و در ادامه درباره‌‌ی سازوکارشان توضیح خواهیم داد. اما پیش از آن، اجازه دهید کمی درباره‌ی تاریخچه‌ی جالب و خواندنی هوش مصنوعی با شما صحبت کنیم.

تاریخچه هوش مصنوعی

در نیمه‌ی اول قرن بیستم، داستان‌های علمی‌تخیلی، مردم را با مفهوم ربات‌های هوشمند آشنا کردند که اولین آن‌ها، شخصیت مرد حلبی در رمان «جادوگر شهر اُز» (۱۹۰۰) بود. تا اینکه در دهه‌ی ۱۹۵۰، نسلی از دانشمندان، ریاضیدانان و فیلسوفانی را داشتیم که ذهنشان با مفهوم هوش مصنوعی درگیر شد. یکی از این افراد، ریاضیدان و دانشمند کامپیوتر انگلیسی به‌نام آلن تورینگ (Alan Turing) بود که سعی داشت امکان دستیابی به هوش مصنوعی را با علم ریاضی بررسی کند.

تورینگ می‌گفت انسان‌ها از اطلاعات موجود و همچنین قدرت استدلال برای تصمیم‌گیری و حل مشکلات استفاده می‌کنند، پس چرا ماشین‌ها نمی‌توانند همین کار را انجام دهند؟ این دغدغه‌ی ذهنی درنهایت به نوشتن مقاله‌ی بسیار معروفی در سال ۱۹۵۰ انجامید که با پرسش جنجالی «آیا ماشین‌ها می‌توانند فکر کنند؟» شروع می‌شد. تورینگ در این مقاله به شرح چگونگی ساخت ماشین‌های هوشمند و آزمایش سطح هوشمندی آن‌ها پرداخت و با پرسش «آیا ماشین‌ها می‌توانند از بازی تقلید سربلند بیرون آیند؟»، آغازگر آزمون بسیار معروف «تست تورینگ» شد.

آیا ماشین‌ها می‌توانند فکر کنند؟

اما مقاله‌‌ی تورینگ تا چند سال در حد نظریه باقی ماند، چراکه آن زمان کامپیوترها از پیش‌نیاز کلیدی برای هوشمندی، بی‌بهره بودند؛ اینکه نمی‌توانستند دستورات را ذخیره کنند و فقط می‌توانستند آن‌ها را اجرا کنند. به‌عبارت دیگر، می‌شد به کامپیوترها گفت چه کنند، اما نمی‌شد از آن‌ها خواست کاری را که انجام داده‌اند، به‌خاطر بیاورند.

مشکل بزرگ دوم، هزینه‌های سرسام‌آور کار با کامپیوتر بود. اوایل دهه‌ی ۱۹۵۰، هزینه‌ی اجار‌ه‌ی کامپیوتر تا ۲۰۰ هزار دلار در ماه می‌رسید؛ به‌همین‌خاطر، فقط دانشگاه‌های معتبر و شرکت‌های بزرگ فناوری می‌توانستند به این حوزه وارد شوند. اگر آن‌روزها کسی می‌خواست برای پژوهش‌های هوش مصنوعی، فاند دریافت کند، لازم بود که ابتدا ممکن بودن ایده‌ی خود را اثبات می‌کرد و بعد،‌ از حمایت و تأیید افراد بانفوذ بهره‌مند می‌شد.

کنفرانس تاریخی DSRPAI که همه‌چیز با آن شروع شد

پنج سال بعد، سه پژوهشگر علوم کامپیوتر به‌نام‌های الن نیوول، کلیف شا و هربرت سایمون نرم‌افزار Logic Theorist را توسعه دادند که توانست ممکن بودن ایده‌ی هوش ماشینی تورینگ را اثبات کند. این برنامه که با بودجه‌ی شرکت تحقیق و توسعه‌ی RAND توسعه ‌داده شده بود، به‌گونه‌ای طراحی شده بود تا مهارت‌های حل مسئله‌ی انسان را تقلید کند.

اصطلاح «هوش مصنوعی» توسط جان مک‌کارتی در سال ۱۹۵۶ ابداع شد

بسیاری، Logic Theorist را اولین برنامه‌ی هوش مصنوعی می‌دانند. این برنامه در پروژه‌ی تحقیقاتی تابستانی کالج دارتموث در زمینه‌ی هوش مصنوعی (DSRPAI) به میزبانی جان مک‌کارتی (John McCarthy) و ماروین مینسکی (Marvin Minsky) در سال ۱۹۵۶ ارائه شد.

جان مک‌کارتی
جان مک‌کارتی به‌عنوان پدر هوش مصنوعی شناخته می‌شود

در این کنفرانس تاریخی، مک‌کارتی پژوهشگران برتر در حوزه‌‌های مختلف را برای بحث آزاد در مورد هوش مصنوعی(اصطلاحی که خود مک‌کارتی در همان رویداد ابداع کرد)، دور هم جمع کرد، با این تصور که با همکاری جمعی دستیابی به هوش مصنوعی ممکن می‌شد. اما کنفرانس نتوانست انتظارات مک‌کارتی را برآورده کند، چراکه هیچ هماهنگی بین پژوهشگران نبود؛ آن‌ها به دلخواه خود می‌آمدند و می‌رفتند و در مورد روش‌های استاندارد برای انجام پژوهش‌های هوش مصنوعی به هیچ توافقی نرسیدند. بااین‌حال، تمام شرکت‌کنندگان از صمیم قلب این حس را داشتند که هوش مصنوعی قابل دستیابی است.

اهمیت کنفرانس DSRPAI غیرقابل‌وصف است؛ چراکه ۲۰ سال پژوهش حوزه‌ی هوش مصنوعی برمبنای آن صورت گرفت.

ترن هوایی موفقیت‌ها و شکست‌های هوش مصنوعی

از سال‌های ۱۹۵۷ تا ۱۹۷۴، به‌عنوان دوران شکوفایی هوش مصنوعی یاد می‌شود. در این دوره، کامپیوترها سریع‌تر، ارزان‌تر و فراگیرتر شدند و می‌توانستند اطلاعات بیشتری را ذخیره کنند. الگوریتم‌های یادگیری ماشین نیز بهبود یافتند و افراد، بهتر می‌دانستند کدام الگوریتم را برای حل کدام مشکل به کار برند.

نمونه‌ برنامه‌های کامپیوتری اولیه مانند General Problem Solver نیوول و سایمون یا نرم‌افزار ELIZA که سال ۱۹۶۶ توسط جوزف وایزن‌بام طراحی شده و اولین چت‌باتی بود که توانست آزمون تورینگ را با موفقیت پشت سر بگذارد، به‌ترتیب، دانشمندان را چند قدم به اهداف «حل مسئله» و «تفسیر زبان گفتاری» نزدیک‌تر کرد.

در این زمان پژوهشگران به آینده‌ هوش مصنوعی بسیار خوش‌بین بودند

این موفقیت‌ها همراه‌با حمایت پژوهشگران برجسته‌ای که در کنفرانس DSRPAI شرکت کرده بودند، سرانجام سازمان‌های دولتی مانند آژانس پروژه‌های تحقیقاتی پیشرفته دفاعی آمریکا (دارپا) را متقاعد کرد تا بودجه‌ی لازم برای پژوهش‌های هوش مصنوعی را در چندین موسسه تأمین کنند. دولت آمریکا به‌ویژه به توسعه‌ی ماشینی علاقه‌مند بود که بتواند هم زبان گفتاری و هم پردازش داده‌ها را با توان عملیاتی بالا رونویسی و ترجمه کند.

در این زمان، پژوهشگران به آینده‌ی این حوزه بسیار خوش‌بین بودند و سطح توقعاتشان حتی از میزان خوش‌بینی‌شان هم بالاتر بود؛ به‌طوری که در سال ۱۹۷۰، ماروین مینسکی به مجله لایف گفت: «سه تا هشت سال آینده، ما به ماشینی با هوش عمومی یک انسان عادی دست خواهیم یافت.» با این حال، اگرچه امکان رسیدن به هوش مصنوعی برای همه اثبات شده بود، هنوز راه بسیار درازی تا دستیابی به اهداف نهایی پردازش زبان طبیعی، تفکر انتزاعی و خویشتن‌آگاهی در ماشین‌ها باقی مانده بود.

موانع زیادی سر راه تحقق این اهداف قرار داشت که بزرگ‌ترینشان، نبود قدرت رایانشی کافی برای انجام پروژه‌ها بود. کامپیوترهای آن زمان نه جای کافی برای ذخیره‌ی حجم عظیمی از اطلاعات داشتند و نه سرعت لازم برای پردازش آن‌ها. هانس موراوک، دانشجوی دکترای مک‌کارتی در آن زمان، گفت که «کامپیوترها آن موقع میلیون‌ها بار ضعیف‌تر از آن بودند که بتوانند هوشی از خود نشان دهند». وقتی کاسه‌ی صبر پژوهشگران لبریز شد، بودجه‌‌های دولتی نیز کاهش یافت و تا ده سال، سرعت پژوهش‌های هوش مصنوعی به‌شدت کند شد.

تا اینکه در دهه‌ی ۱۹۸۰، دو عامل جان دوباره‌ای به پژوهش‌های هوش مصنوعی بخشیدند؛ بهبود چشمگیر در الگوریتم‌ها و از راه رسیدن بودجه‌های جدید.

بهبود چشمگیر در الگوریتم‌ها جان دوباره‌ای به پژوهش‌های هوش مصنوعی بخشید

جان هاپفیلد (John Hopfield) و دیوید روملهارت (David Rumelhart) تکنیک‌های «یادگیری عمیق» (Deep Learning) را گسترش دادند که به کامپیوترها اجازه می‌داد خودشان با تجربه کردن، چیزهای جدید یاد بگیرند. از آن طرف هم، دانشمند آمریکایی علوم کامپیوتر، ادوارد فاین‌باوم (Edward Feigenbaum)، «سیستم‌های خبره» (Expert Systems) را معرفی کرد که فرایند تصمیم‌گیری افراد متخصص را تقلید می‌کردند. این سیستم از افراد خبره‌ در زمینه‌های مختلف می‌پرسید که در موقعیتی خاص، چه واکنشی نشان می‌دهند و بعد پاسخ‌های آن‌ها را در اختیار افراد غیرمتخصص قرار می‌داد تا آن‌ها از برنامه یاد بگیرند.

از سیستم‌های خبره به‌طور گسترده در صنایع استفاده شد. دولت ژاپن به‌عنوان بخشی از پروژه‌ی نسل پنجم کامپیوتر (FGCP)، سرمایه‌گذاری کلانی در سیستم‌های خبره و دیگر پروژه‌های هوش مصنوعی انجام داد. از سال ۱۹۸۲ تا ۱۹۹۰، ژاپن ۴۰۰ میلیون دلار برای ایجاد تحول در پردازش‌های کامپیوتری، اجرای برنامه‌نویسی منطقی و بهبود هوش مصنوعی هزینه کرد.

متاسفانه، اکثر این اهداف بلندپروازانه محقق نشد؛ اما می‌توان این طور به قضیه نگاه کرد که پروژه‌ی FGCP ژاپن به‌طور غیرمستقیم الهام‌بخش نسلی از مهندسان و دانشمندان جوان شد تا به دنیای هوش مصنوعی قدم بگذارند. درنهایت، بودجه‌ی FGCP هم روزی به سر رسید و هوش مصنوعی بار دیگر از کانون توجه خارج شد.

شکست قهرمان شطرنج دنیا دربرابر دیپ‌بلو؛ اولین گام بزرگ به سمت توسعه AI با قابلیت تصمیم‌گیری

از قضا، هوش مصنوعی در نبود بودجه‌ی دولتی و هیاهوی تبلیغاتی، فرصت دیگری برای رشد پیدا کرد. در طول دهه‌های ۱۹۹۰ و ۲۰۰۰، بسیاری از اهداف مهم هوش مصنوعی محقق شد. در سال ۱۹۹۷، ابرکامپیوتر شطرنج‌بازی به نام دیپ بلو (Deep Blue) ساخته شرکت IBM توانست گری کاسپارف، استاد بزرگ و قهرمان شطرنج جهان را شکست دهد. در این مسابقه که با هیاهوی رسانه‌ای بزرگی همراه بود، برای نخستین بار در تاریخ، قهرمان شطرنج جهان در برابر کامپیوتر شکست خورد و از آن به‌عنوان اولین گام بزرگ به‌سوی توسعه‌ی برنامه‌ی هوش مصنوعی با قابلیت تصمیم‌گیری یاد می‌شود.

در همان سال، نرم‌افزار تشخیص گفتار شرکت Dragon System روی ویندوز پیاده‌سازی شد. این هم گام بزرگ دیگری در حوزه‌ی هوش مصنوعی، اما در جهت اهداف تفسیر زبان گفتاری بود. این‌طور به نظر می‌رسید که دیگر مسئله‌ای وجود ندارد که ماشین‌ها نتوانند از پس آن برآیند. حتی پای احساسات انسانی هم به ماشین‌ها باز شد؛ ربات کیزمت (Kismet) که در دهه‌ی ۱۹۹۰ توسط سینتیا بریزیل (Cynthia Breazeal) در دانشگاه MIT ساخته شد، می‌توانست احساسات را درک و حتی آن‌ها را به نمایش بگذارد.

زمان؛ مرهم تمام زخم‌ها

دانشمندان هنوز از همان روش‌های چند دهه‌ی پیش برای برنامه‌نویسی هوش مصنوعی استفاده می‌کنند؛ اما چه شد که حالا به دستاوردهای چشمگیری مثل چت‌بات ChatGPT و مولد تصویر Dall-E و Midjourney رسیدیم؟

پاسخ این است که مهندسان سرانجام موفق شدند مشکل محدودیت ذخیره‌سازی کامپیوترها را حل کنند. قانون مور (Moore’s Law) که تخمین می‌زند حافظه و سرعت کامپیوترها هر سال دوبرابر می‌شود، بالاخره توانست به وقوع بپیوندد و حتی در بسیاری از موارد، از این حد هم فراتر برود.

دلیل شکست انسان‌ها از هوش مصنوعی؛ افزایش سرعت و حافظه‌ کامپیوترها

درواقع، دلیل شکست گری کاسپارف در سال ۱۹۹۷ و شکست قهرمان بازی تخته‌ای گو، که جی (Ke Jie) در سال ۲۰۱۷ دربرابر برنامه‌ی AlphaGo گوگل به همین افزایش سرعت و حافظه‌ی کامپیوترها برمی‌گردد. این قضیه، روند پژوهش‌های هوش مصنوعی را کمی توضیح می‌دهد؛ اینکه ما قابلیت‌های هوش مصنوعی را تا سطح قدرت محاسباتی فعلی (از نظر سرعت پردازش و حافظه‌ی ذخیری‌سازی) توسعه می‌دهیم و بعد منتظر می‌مانیم تا قانون مور دوباره به ما برسد.

ما اکنون در عصر «کلان‌داده» زندگی می‌کنیم؛ عصری که در آن توانایی جمع‌آوری حجم عظیمی از اطلاعات را داریم که پردازش تمام آن‌ها توسط انسان‌ها بی‌نهایت دشوار و وقت‌گیر است. استفاده از هوش مصنوعی در صنایع مختلفی ازجمله تکنولوژی، بانکداری، مارکتینگ و سرگرمی، این دشواری را تاحدود زیادی حل کرده است. مدل‌های زبانی بزرگ که در چت‌بات ChatGPT به کار رفته‌اند، به ما نشان دادند که حتی اگر الگوریتم‌ها پیشرفت چندانی نداشته باشند، کلان‌داده و محاسبات عظیم می‌توانند به هوش مصنوعی کمک کنند که خودش یاد بگیرد و عملکردش را بهتر کند.

سال

رویداد/اختراع

شخصیت کلیدی/سازمان

اهمیت

۱۹۵۰

پیشنهاد آزمون تورینگ

آلن تورینگ

ارائه معیاری برای سنجش هوش ماشین

۱۹۵۶

کنفرانس دارتموث

جان مک‌کارتی و دیگران

تولد رسمی رشته هوش مصنوعی و ابداع این اصطلاح

۱۹۶۴

چت‌بات ELIZA

جوزف وایزنبام (MIT)

اولین برنامه کامپیوتری که قادر به مکالمه با انسان بود

۱۹۷۴-۱۹۸۰

اولین زمستان هوش مصنوعی

جامعه تحقیقاتی

دوره کاهش بودجه و علاقه به دلیل عدم تحقق وعده‌ها

۱۹۹۷

شکست گری کاسپاروف توسط Deep Blue

IBM

اثبات برتری ماشین بر انسان در یک بازی استراتژیک پیچیده

۲۰۰۲

عرضه Roomba

iRobot

ورود هوش مصنوعی به محصولات خانگی و مصرفی

۲۰۱۱

پیروزی Watson در مسابقه Jeopardy!

IBM

نمایش توانایی هوش مصنوعی در درک زبان طبیعی و دانش عمومی

۲۰۱۲

موفقیت AlexNet در تشخیص تصویر

جفری هینتون و دیگران

نقطه عطفی که انقلاب یادگیری عمیق را آغاز کرد

۲۰۱۶

شکست لی سدول توسط AlphaGo

Google DeepMind

تسلط هوش مصنوعی بر بازی «گو» که بسیار پیچیده‌تر از شطرنج است

۲۰۲۲

عرضه عمومی ChatGPT

OpenAI

همه‌گیر شدن هوش مصنوعی مولد و آغاز رونق فعلی

شاید شواهدی وجود داشته باشد که نشان می‌دهد سرعت قانون مور، به‌ویژه در دنیای تراشه‌ها، کند شده است، اما افزایش حجم اطلاعات با سرعت سرسام‌آوری در حال پیشروی است. پیشرفت‌هایی که در علوم کامپیوتر، ریاضیات یا علوم اعصاب به دست می‌آیند همگی می‌توانند بشر را از تنگای محدودیت قانون مور عبور دهند. و این یعنی، پیشرفت بشر در تکنولوژی هوش مصنوعی به این زودی‌ها به پایان نخواهد رسید.

انواع هوش مصنوعی

اولین و رایج‌ترین روش برای دسته‌بندی هوش مصنوعی، نگاه کردن به قابلیت‌ها و عمومیت هوش آن است. در این طیف، ما سه سطح کاملاً متمایز از هوش ماشینی را می‌بینیم.

پایین‌ترین و در عین حال فراگیرترین سطح، هوش مصنوعی محدود (ANI) نام دارد که گاهی از آن با عنوان «هوش مصنوعی ضعیف» نیز یاد می‌شود. تمام سیستم‌های هوش مصنوعی که امروز در زندگی روزمره با آن‌ها سروکار داریم، از این نوع هستند. یک سیستم ANI برای انجام یک وظیفه بسیار خاص یا مجموعه‌ای محدود از وظایف طراحی شده است. این سیستم‌ها می‌توانند در حوزه تخصصی خود عملکردی فوق‌العاده و حتی فراتر از انسان داشته باشند، اما دانش آن‌ها قابل تعمیم به حوزه‌های دیگر نیست.

مرحله بعدی در این طیف، مفهومی است که هدف نهایی بسیاری از تحقیقات امروزی محسوب می‌شود: هوش مصنوعی عمومی (AGI) یا «هوش مصنوعی قوی» یا «انسان‌گونه». این دسته به ماشین‌هایی اشاره دارد که دارای توانایی‌های شناختی در سطح یک انسان متوسط هستند.

یک سیستم AGI واقعی قادر خواهد بود هر وظیفه فکری را که یک انسان می‌تواند انجام دهد، بفهمد، یاد بگیرد و به کار گیرد. برخلاف همتای محدود خود، AGI می‌تواند دانشی را که در یک حوزه کسب کرده، به حوزه‌ای کاملاً متفاوت منتقل کند و خود را با چالش‌های جدید، بدون نیاز به برنامه‌ریزی مجدد توسط انسان، سازگار سازد. AGI در حال حاضر یک مفهوم کاملاً نظری است و ما هنوز به هیچ نمونه واقعی از آن دست نیافته‌ایم.

در انتهای این طیف، مفهومی فرضی قرار دارد که هوش مصنوعی برتر (ASI) نام گرفته است. ASI مرحله‌ای است که در آن، هوش یک ماشین از هوش بهترین و درخشان‌ترین مغزهای انسانی در تقریباً هر زمینه‌ای، از جمله خلاقیت علمی، خرد عمومی و حتی مهارت‌های پیچیده اجتماعی، پیشی می‌گیرد. این نوع از هوش، کاملاً در قلمرو گمانه‌زنی‌ها قرار دارد و طبیعتاً موضوع بحث‌های فلسفی و اخلاقی بسیار عمیقی در میان دانشمندان و متفکران است.

نردبان آگاهی: چهار پله از واکنش تا خودآگاهی

چارچوب دوم برای فهم هوش مصنوعی، طبقه‌بندی آن براساس عملکرد و نحوه تعامل با محیط است. این دیدگاه که توسط آرند هینتز، محقق هوش مصنوعی ارائه شده، سیستم‌ها را در چهار نوع یا پله از یک نردبان تکاملی قرار می‌دهد. دو نوع اول در حال حاضر وجود دارند و دو نوع آخر، اهداف آینده و نظری هستند.

پله اول، ماشین‌های واکنشی (Reactive Machines) هستند. این‌ها ابتدایی‌ترین نوع هوش مصنوعی محسوب می‌شوند. ویژگی اصلی این ماشین‌ها نداشتن حافظه است؛ آن‌ها نمی‌توانند از تجربیات گذشته برای تصمیم‌گیری‌های آینده استفاده کنند. یک ماشین واکنشی صرفاً به محرک‌های فعلی واکنش نشان می‌دهد و برای هر ورودی یکسان، همیشه یک خروجی یکسان تولید خواهد کرد؛ مثل سیستم فیلترکردن ایمیل‌های اسپم.

پله دوم نردبان، جایی است که بیشتر سیستم‌های هوش مصنوعی امروزی در آن قرار دارند: حافظه محدود (Limited Memory). این ماشین‌ها یک گام از همتایان واکنشی خود فراتر رفته‌اند و می‌توانند اطلاعات گذشته را برای مدت زمانی کوتاه ذخیره کرده و از آن برای تصمیم‌گیری‌های آنی استفاده کنند. این داده‌ها در حافظه بلندمدت به عنوان «تجربه» ذخیره نمی‌شوند، بلکه صرفاً برای اطلاع‌رسانی به مدل در لحظه به کار می‌روند. خودروهای خودران و بسیاری از چت‌بات‌ها یک مثال عالی از این نوع هستند.

دو پله بعدی این نردبان، هنوز در قلمرو آینده و تئوری قرار دارند. پله سوم، نظریه ذهن (Theory of Mind) نام دارد. این یک مرحله نظری بسیار پیشرفته در تکامل هوش مصنوعی است. ماشین‌هایی که به این سطح می‌رسند، قادر خواهند بود افکار، احساسات، باورها و نیات موجودات دیگر (اعم از انسان یا ماشین‌های دیگر) را درک کنند. این سطح از درک به آن‌ها اجازه می‌دهد تا رفتار خود را براساس تعاملات اجتماعی و عاطفی پیچیده تنظیم کنند و صرفاً به ورودی‌های منطقی پاسخ ندهند. در حال حاضر، هیچ هوش مصنوعی به این سطح نرسیده است، هرچند گام‌های بسیار اولیه‌ای در ربات‌هایی مانند Kismet و Sophia برداشته شده که می‌توانند حالات چهره انسان را تشخیص داده و پاسخی شبیه‌سازی‌شده به آن بدهند.

پله چهارم و نهایی، اوج فرضی تکامل هوش مصنوعی است: خودآگاه (Self-Aware). این پله به سیستمی اطلاق می‌شود که دارای آگاهی، هوشیاری و درک کامل از وجود خود است. یک هوش مصنوعی خودآگاه نه‌تنها می‌تواند احساسات دیگران را (مانند پله سوم) درک کند، بلکه دارای احساسات، نیازها، باورها و خودآگاهی مختص به خود خواهد بود. این مفهوم در حال حاضر کاملاً در حوزه علمی‌تخیلی قرار دارد. دلیل آن هم ساده است: ما انسان‌ها هنوز درک کاملی از مکانیزم‌های دقیق آگاهی در مغز خود نداریم تا بتوانیم آن را در یک ماشین شبیه‌سازی کنیم.

هوش مصنوعی چگونه کار می‌کند؟

وقتی هوش مصنوعی تصویری شگفت‌انگیز خلق می‌کند، زبانی را روان ترجمه می‌کند یا در یک بازی پیچیده بر قهرمان جهان پیروز می‌شود، ممکن است به نظر برسد که با نوعی قدرت جادویی روبرو هستیم. اما در پشت پرده، هیچ جادویی در کار نیست. آنچه هست، یک اکوسیستم پیچیده با سه ستون اصلی است: داده‌های عظیم، الگوریتم‌های هوشمند و قدرت محاسباتی بالا. هوش مصنوعی در هسته خود، فرآیندی است برای شناسایی الگوها و روابط پنهان در میان حجم وسیعی از داده‌‌ها. و ما این فرایند را با نام «یادگیری ماشین» می‌شناسیم.

یادگیری ماشین (Machine Learning)

یادگیری ماشین زیرمجموعه‌ای حیاتی از هوش مصنوعی است که به سیستم‌ها اجازه می‌دهد بدون اینکه برای هر وظیفه به طور صریح برنامه‌ریزی شوند، مستقیماً از داده‌ها بیاموزند و عملکرد خود را بهبود بخشند. این فرآیند شباهت شگفت‌انگیزی به نحوه یادگیری در انسان دارد.

برای مثال، وقتی می‌خواهیم به یک کودک تشخیص گربه را یاد بدهیم، به جای ارائه مجموعه‌ای از قوانین سفت و سخت (مانند «گربه سبیل دارد» یا «گربه گوش‌های نوک‌تیز دارد»)، هزاران عکس مختلف از گربه‌ را به او نشان می‌دهیم. کودک به تدریج الگوهای بصری مشترک را می‌آموزد و مدلی ذهنی می‌سازد. یادگیری ماشین نیز دقیقاً به همین شکل عمل می‌کند؛ با تحلیل داده‌های نمونه، مدل‌های پیش‌بینی‌کننده می‌سازد.

این فرآیند یادگیری به سه شکل اصلی رخ می‌دهد. در یک سناریو که به آن یادگیری نظارت‌شده (Supervised Learning) می‌گویند، الگوریتم مانند دانش‌آموزی است که با داده‌های «برچسب‌گذاری‌شده» آموزش می‌بیند. یعنی هر ورودی با خروجی صحیح متناظرش همراه است (مثلاً تصویری از یک گربه که برچسب «گربه» دارد). الگوریتم یاد می‌گیرد که ورودی‌ها را به خروجی‌های صحیح نگاشت کند. کاربردهای رایج آن شامل تشخیص اسپم در ایمیل‌ها و طبقه‌بندی تصاویر است.

اما اگر داده‌ها برچسبی نداشته باشند چه؟ در این حالت، یادگیری نظارت‌نشده (Unsupervised Learning) وارد میدان می‌شود. در اینجا، الگوریتم با داده‌های بدون برچسب کار می‌کند و وظیفه‌اش یافتن الگوها و ساختارهای پنهان در خود داده‌هاست. این مانند کاوشگری است که در سرزمینی ناشناخته به دنبال خوشه‌های مشابه می‌گردد. دسته‌بندی مشتریان براساس رفتار خرید یا تشخیص ناهنجاری‌های امنیتی در یک شبکه، نمونه‌هایی از این روش هستند.

درنهایت، روش سوم یادگیری تقویتی (Reinforcement Learning) نام دارد که از طریق آزمون و خطا عمل می‌کند. در این مدل، یک «عامل» (Agent) در یک محیط قرار می‌گیرد (مانند یک ربات در یک اتاق یا یک هوش مصنوعی در یک بازی). این عامل برای انجام اقدامات صحیح «پاداش» و برای اقدامات نادرست «جریمه» دریافت می‌کند. هدف نهایی عامل، به حداکثر رساندن پاداش کلی است که در طول زمان کسب می‌کند. این روش در رباتیک و توسعه هوش مصنوعی برای بازی‌های استراتژیک کاربرد فراوانی دارد.

یکی از دلایلی که یادگیری ماشین در چند سال اخیر تا این اندازه محبوب شده، افزایش چشمگیر حجم داده در اینترنت است؛ دلیل دیگر به نحوه‌ی استفاده از این داده‌ها مربوط می‌شود. در بحث یادگیری ماشین، به جز داده، دو سوال مرتبط دیگر نیز مطرح می‌شود:

۱) چطور چیزی را که یاد گرفتم، به خاطر بسپارم؟ ۲) چطور فرایند یادگیری را انجام دهم؟ به‌عبارت دیگر، چیزی که دارد از این همه داده، یاد می‌گیرد دقیقا چیست؟

در یادگیری ماشین انتخاب نوع مدل بسیار مهم است

در یادگیری ماشین، به نمایش کامپیوتری چیزهای یاد گرفته شده و ذخیره شده، «مدل» می‌گویند. اینکه از چه مدلی استفاده کنید، بسیار مهم است، چون این مدل است که روش یادگیری هوش مصنوعی، نوع داده‌هایی که می‌تواند از آن بیاموزد و نوع سوال‌هایی را که می‌توان از آن پرسید، مشخص می‌کند.

بیایید این موضوع را با یک مثال ساده روشن‌تر کنیم. فرض کنید برای خرید انجیر به میوه‌فروشی رفته‌ایم و می‌خواهیم به‌کمک یادگیری ماشین بفهمیم کدام انجیرها رسیده‌اند. کار آسانی باید باشد، چون می‌دانیم هرچه انجیر نرم‌تر باشد، رسیده‌تر و شیرین‌تر خواهد بود. می‌توانیم چند نمونه انجیر رسیده و کال را انتخاب کرده، میزان شیرینی آن‌ها را مشخص کنیم و بعد اطلاعاتشان را روی نمودار خطی قرار دهیم. این خط همان «مدل» ما است. اگر دقت کنید، همین خط ساده، ایده‌ی «هرچه نرم‌تر باشد، شیرین‌تر است» را بدون اینکه لازم باشد ما چیزی بنویسیم،‌ نشان می‌دهد. هوش مصنوعی نوپای ما هنوز چیزی درباره میزان قند یا چگونگی رسیده شدن میوه‌ها نمی‌داند، اما می‌تواند میزان شیرینی آن‌ها را با فشار دادن و اندازه‌گیری نرمی پیش‌بینی کند.

نمودار خطی مثال یادگیری ماشین
مدل هوش مصنوعی خطی برای انجیرهای رسیده؛ هرچه نرم‌تر، رسیده‌تر
نمودار خطی مثال یادگیری ماشین
با اضافه شدن داده‌های جدید، مدل پیچیده‌تر می‌شود

همان‌طور که در تصویر سمت راست می‌بینید، هوش مصنوعی ساده‌ی ما بدون اینکه چیزی درباره‌ی میزان شیرینی بداند یا اینکه میوه‌ها چطور رسیده می‌شوند، می‌تواند پیش‌بینی کند که با فشردن میوه و تشخیص نرمی آن، چقدر شیرین است.

برای بهبود مدل، می‌توان نمونه‌های بیشتری جمع‌آوری کرد و خط دیگری را برای پیش‌بینی دقیق‌تر کشید(مانند تصویر سمت چپ).

اما مشکلات بلافاصله خودشان را نشان می‌دهند. ما تا اینجا داشتیم AI انجیرمان را براساس انجیرهای دست‌چین مغازه آموزش می‌دادیم؛ اگر بخواهیم آن را وسط باغ انجیر ببریم چه؟ حالا علاوه‌بر انجیرهای تازه، انجیرهای گندیده هم خواهیم داشت که بااینکه نرم هستند، اما نمی‌توان آن‌ها را خورد.

چه کار می‌شود کرد؟ خب این یک مدلِ یادگیری ماشین است، پس می‌توان با اضافه کردن داده‌های جدید درباره انجیرهای گندیده، آن را بهتر کرد، مگرنه؟

راستش داستان به این سادگی‌ها نیست. همانطور که در تصویر زیر می‌بینید، با اضافه کردن داده‌های مربوط به انجیرهای گندیده، کل نمودار خطی به هم می‌ریزد و این یعنی ما باید سراغ مدل دیگری، مثلا نمودار سهمی برویم.

نمودار خطی مثال یادگیری ماشین
خب مثل اینکه نمودار خطی مدل مناسبی برای نمایش AI پیچیده نیست
نمودار سهمی مثال یادگیری ماشین
مدل سهمی بهتر نتیجه‌ای را که می‌خواهیم نشان می‌دهد

البته این مثال مسخره‌ای است، اما به‌ خوبی نشان می‌دهد نوع مدلی که برای یادگیری ماشین انتخاب می‌کنیم، نوع و محدودیت یادگیری آن را تعیین می‌کند. به‌عبارت ساده‌تر، اگر می‌خواهید چیز پیچیده‌تری را یاد بگیرید، باید سراغ مدل‌های پیچیده‌تری بروید.

چالش اصلی یادگیری ماشین، ایجاد و انتخاب مدل مناسب برای حل مسئله است

با این حساب، چالش اصلی یادگیری ماشین، ایجاد و انتخاب مدل مناسب برای حل مسئله است. ما به مدلی نیاز داریم که به‌قدری پیچیده باشد که بتواند روابط و ساختارهای بسیار پیچیده را نشان دهد و در عین حال به قدری ساده باشد که بتوانیم با آن کار کنیم و آموزشش بدهیم. برای همین، اگرچه اینترنت، گوشی‌های هوشمند و چیزهایی از این دست، دسترسی به حجم عظیمی از داده را ممکن کرده‌اند، ما هنوز برای استفاده از این داده‌ها باید سراغ مدل‌های مناسب برویم.

و این دقیقا جایی است که ما به نوع دیگر هوش مصنوعی، یعنی یادگیری عمیق نیاز پیدا می‌کنیم.

یادگیری عمیق (Deep Learning)

یادگیری عمیق در واقع نوعی از یادگیری ماشین است که از شبکه‌های عصبی با تعداد بسیار زیادی لایه پنهان استفاده می‌کند. کلمه «عمیق» در این عبارت، صرفاً به تعداد زیاد این لایه‌ها اشاره دارد. این عمق زیاد به مدل اجازه می‌دهد تا الگوهای بسیار پیچیده، ظریف و انتزاعی را در داده‌ها بیاموزد؛ الگوهایی مانند تشخیص چهره یک فرد خاص در میان هزاران تصویر یا درک مفاهیم ظریف و کنایه‌ها در زبان انسان.

شبکه‌های عصبی نوعی مدل یادگیری ماشین هستند که از ساختاری مشابه نورون‌های مغز انسان برای انجام محاسبات و پیش‌بینی استفاده می‌کنند. نورون‌ها در شبکه‌های عصبی در لایه‌های مختلف طبقه‌بندی می‌شوند و هر لایه یک سری محاسبات ساده انجام می‌دهد و پاسخ آن را به لایه‌ی بعدی منتقل می‌کند. هر چه تعداد لایه‌ها بیشتر باشد، می‌توان محاسبات پیچیده‌تری انجام داد.

شبکه‌های عصبی عمیق به‌خاطر تعداد زیاد لایه‌های نورونی «عمیق» نامیده می‌شوند

اما به جز تعداد لایه، عامل دیگری نیز باعث موفقیت شبکه‌های عصبی شده و آن آموزش است.

وقتی از «حافظه» مدل صحبت می‌کنیم، منظورمان مجموعه‌ای از پارامترهای عددی است که بر نحوه‌ی پاسخ‌دهی مدل به سوالات،‌ نظارت می‌کند. از این رو، وقتی از آموزش مدل حرف می‌زنیم، منظورمان تغییر و تنظیم این پارامترها به‌گونه‌ای است که مدل بهترین پاسخ ممکن را به سوالات ما بدهد.

مثلا با مدل انجیرها، ما سعی داشتیم معادله‌ای برای رسم یک خط بنویسیم که یک مسئله‌ی رگرسیون ساده است و فرمول‌هایی وجود دارند که می‌توانند تنها در یک مرحله، جواب سوال ما را پیدا کنند. اما مدل‌های پیچیده‌تر طبیعتا به مراحل بیشتری نیاز دارند. یک شبکه‌ی عصبی عمیق می‌تواند میلیون‌ها پارامتر داشته باشد و مجموعه داده‌ای که براساس آن آموزش دیده ممکن است با میلیون‌ها مثال رو‌به‌رو شود؛ برای این مدل، هیچ‌ راه‌حل یک‌مرحله‌ای وجود ندارد.

می‌توان کار را با یک شبکه عصبی ناقص شروع و در ادامه آن را بهتر کرد

خوشبختانه برای این چالش، یک ترفند عجیب وجود دارد؛ اینکه می‌توان کار را با یک شبکه‌ی عصبی ضعیف و ناقص شروع کرد و بعد با انجام تغییرات، آن را بهبود بخشید. آموزش مدل‌های یادگیری ماشین با این روش شبیه این است که از دانش‌آموزان مرتب امتحان بگیریم. هر بار جوابی را که مدل فکر می‌کند صحیح است با جوابی که واقعا صحیح است، مقایسه می‌کنیم و به آن نمره‌ می‌دهیم. بعد سعی می‌کنیم مدل را بهتر کرده و دوباره از آن امتحان بگیریم.

فرایند تپه‌نوردی
روش تپه‌نوردی؛ اینقدر امتیاز مدل بهتر می‌شود تا به قله می‌رسد

اما از کجا بدانیم چه پارامترهایی را باید تغییر دهیم و میزان این تغییرات چقدر باشد؟ شبکه‌های عمیق یک ویژگی جالب دارند که به‌موجب آن، نه تنها می‌توانیم برای بسیاری از انواع مسائل، نمره‌ی آزمون به‌دست آوریم، بلکه می‌توانیم به‌طور دقیق حساب کنیم با تغییر هر پارامتر، نمره‌ی آزمون چقدر تغییر می‌کند. بدین‌ترتیب، آنقدر پارامترها را تغییر می‌دهیم تا بالاخره به نمره‌ی کامل ۲۰ برسیم و مدل دیگر جایی برای بهبود نداشته باشد. به این کار اغلب تپه‌نوردی (Hill Climbing) گفته می‌شود، چون اگر همین‌طور به بالا رفتن از تپه ادامه دهید، سرانجام به نوک قله می‌رسید و صعود بیشتر ممکن نیست.

برای بهبود شبکه عصبی از روش «تپه‌نوردی» استفاده می‌کنند

علاوه‌براین، به کمک روش «تپه‌نوردی»‌ می‌توان از یک شبکه‌ی عصبی آموزش دیده برای یک منظور خاص، برای هدف دیگری استفاده کرد. مثلا اگر هوش مصنوعی خود را برای تشخیص تصویر گربه آموزش داده باشید، می‌توانید خیلی راحت آن را برای تشخیص تصویر سگ یا زرافه تعلیم دهید.

انعطاف‌پذیری شبکه‌های عصبی، حجم انبوه داده‌های اینترنتی، رایانش موازی و GPUهای قدرتمند رویای هوش مصنوعی را محقق کرده است

انقلاب یادگیری عمیق که امروز شاهد آن هستیم، نتیجه‌ی تصادفی نیست، بلکه حاصل همگرایی سه عامل کلیدی است: الگوریتم‌های هوشمند (یعنی همین شبکه‌های عصبی)، دسترسی به حجم عظیمی از داده‌ها (Big Data) و ظهور سخت‌افزارهای پردازش موازی بسیار قدرتمند، به ویژه واحدهای پردازش گرافیکی (GPUs).

جالب اینکه خود الگوریتم‌های شبکه عصبی برای دهه‌ها وجود داشتند، اما داده‌های کافی و قدرت محاسباتی لازم برای آموزش مؤثر مدل‌های «عمیق» (با لایه‌های زیاد) تا همین اواخر دردسترس نبود. این همگرایی توضیح می‌دهد که چرا رونق انفجاری هوش مصنوعی دقیقاً اکنون در حال وقوع است. این موضوع همچنین بر نقش حیاتی شرکت‌هایی تأکید می‌کند که این منابع کلیدی را کنترل می‌کنند؛ شرکت‌هایی مانند انویدیا در حوزه سخت‌افزار، و غول‌هایی مانند گوگل و متا در حوزه داده.

بدین‌ترتیب، تمام کارهایی که انجامشان در زمان آلن تورینگ تقریباً غیرممکن بود، حالا به‌راحتی امکان‌پذیر است.

LLM در برابر SLM

وقتی این آموزش کامل شد، چیزی که در انتهای آن به دست می‌آید، یک «مدل» آموزش‌دیده است. این مدل‌ها می‌توانند بسیار بزرگ باشند (LLM با صدها میلیارد پارامتر که به مزارع عظیم GPU نیاز دارند). اما اخیراً تلاش‌های زیادی برای ساخت «مدل‌های زبان کوچک» (Small Language Models) یا SLM نیز در حال انجام است. این مدل‌ها جذابیت زیادی دارند، زیرا ممکن است فقط چند میلیارد پارامتر داشته باشند و بتوان آن‌ها را به صورت محلی روی لپ‌تاپ یا حتی گوشی هوشمند اجرا کرد.

کاربردهای هوش مصنوعی

حالا که با انواع هوش مصنوعی و سازوکار آن‌ها آشنا شدیم، سوال بعدی این است که در حال حاضر با آن چه کاری می‌توانیم بکنیم؟ کاربرد هوش مصنوعی به‌طور کلی در چهار زمینه‌ تعریف می‌شود: تشخیص اجسام، تشخیص چهره، تشخیص صدا و شبکه‌های مولد.

تشخیص اجسام (Object Recognition)

شاید بتوان گفت حوزه‌ای که یادگیری عمیق بیشترین و سریع‌ترین تاثیر را در آن داشته، بینایی ماشین (Computer Vision)، به‌ویژه در تشخیص اجسام مختلف در تصاویر است. همین چند سال پیش، وضعیت پیشرفت هوش مصنوعی در زمینه‌ی تشخیص اجسام به ‌قدری اسفبار بود که در کاریکاتور زیر به‌خوبی نمایش داده شده است.

کاریکاتوری درباره وضعیت هوش مصنوعی در تشخیص اجسام
در علوم کامپیوتر، توضیح تفاوت کار آسان با کار تقریباً غیرممکن دشوار است

مرد: می‌خوام که وقتی کاربر عکس می‌گیره، اپلیکیشن بتونه تشخیص بده که عکس مثلا تو پارک ملی گرفته شده…

زن: حله. فقط کافیه یه نگاهی به جی‌آی‌اس بندازم. یه چند ساعت بیشتر وقت نمی‌بره.

مرد: ...و اینکه مثلا توی عکس پرنده هم بوده یا نه.

زن: خب واسه این یه تیم پژوهشی لازم دارم با پنج سال زمان.

امروزه، تشخیص پرنده‌ها و حتی نوع خاصی از پرنده در عکس آنقدر کار آسانی است که حتی یک دانش‌آموز دبیرستانی هم می‌تواند آن را انجام دهد. یعنی در این چند سال چه اتفاقی افتاده است؟

ایده‌ی تشخیص اشیا توسط ماشین را می‌توان به راحتی توصیف کرد، اما اجرای آن دشوار است. اجسام پیچیده از مجموعه‌هایی از اجسام ساده‌تر ساخته شده‌اند که آن‌ها نیز خود از شکل‌ها و خطوط ساده‌تری ایجاد شده‌اند. مثلا چهره‌ی افراد از چشم و بینی و دهان تشکیل شده که خود این‌ها هم از دایره و خطوط و غیره تشکیل شده‌اند. پس برای تشخیص چهره لازم است که الگوهای اجزای چهره را تشخیص داد.

هر جسم پیچیده‌ای از مجموعه‌ای از اجسام و الگوهای ساده‌تری ساخته شده است؛ الگوریتم‌ها به دنبال این الگوها هستند

به این الگوها ویژگی (Feature) می‌گویند و تا پیش از ظهور یادگیری عمیق، لازم بود آن‌ها را دستی ایجاد کرد و کامپیوترها را طوری آموزش داد تا بتوانند آن‌ها را پیدا کنند. مثلا، الگوریتم تشخیص چهره‌ی معروفی به نام «ویولا-جونز» (Viola-Jones) وجود دارد که یاد گرفته ابرو و بینی معمولا از اعماق چشم روشن‌تر هستند؛ درنتیجه، الگوی ابرو و بینی شبیه یک طرح T شکل روشن با دو نقطه‌ی تاریک برای چشم‌ها است. الگوریتم هم برای تشخیص چهره‌ در تصاویر دنبال این الگو می‌گردد.

الگوریتم ویولا-جونز خیلی خوب و سریع کار می‌کند و قابلیت تشخیص چهره‌ی دوربین‌های ارزان مبتنی بر همین الگوریتم است. اما بدیهی است که تمام چهره‌ها از این الگوی ساده پیروی نمی‌کنند. چندین تیم از پژوهشگران برجسته مدت‌ها روی الگوریتم‌های بینایی ماشین کار کردند تا آن‌ها را تصحیح کنند؛ اما آن‌ها نیز همچنان ضعیف و پر از باگ بودند.

تا اینکه پای یادگیری ماشین، به‌ویژه نوعی شبکه‌ی عصبی عمیق به اسم «شبکه‌ی عصبی پیچشی» (Convolutional Neural Network) معروف به CNN به میان آمد و انقلاب بزرگی در الگوریتم‌های تشخیص اجسام به وجود آورد.

شبکه‌های عصبی پیچشی یا همان CNN‌ها، ساختار خاصی دارند که از روی قشر بینایی مغز پستانداران الهام گرفته شده است. این ساختار به CNN اجازه می‌دهد تا به جای اینکه تیم‌های متعددی از پژوهشگران بخواهند سال‌ها صرف پیدا کردن الگوهای درست بکنند، خودش با یادگیری مجموعه خطوط و الگوها، اشیای حاضر در تصاوری را تشخیص دهد.

الگوریتم‌های بینایی ماشین
الگوریتم‌های بینایی قدیمی (چپ) به الگوهای دست‌چین وابسته بودند اما شبکه‌های عصبی عمیق (راست) خودشان الگوها را پیدا می‌کنند

شبکه‌های CNN برای استفاده در بینایی ماشین فوق‌العاده‌اند و خیلی زود پژوهشگران توانستند آن‌ها را برای تمام الگوریتم‌های تشخیص بصری، از گربه‌های داخل تصویر گرفته تا عابران پیاده از دید دوربین‌ خودروهای خودران، آموزش دهند.

علاوه‌براین، قابلیت CNNها به‌خاطر سازگاری بی‌دردسر با هر مجموعه داده باعث فراگیری و محبوبیت سریع آن‌ها شده است. فرایند تپه‌نوردی را به خاطر دارید؟ اگر دانش‌آموز دبیرستانی ما بخواهد الگوریتمش نوع خاصی از پرنده را تشخیص دهد، تنها کافی است یکی از چندین شبکه‌ی بینایی ماشین را که به‌صورت متن‌باز و رایگان دردسترس است، انتخاب کرده و بعد آن را براساس مجموعه داده‌ی خودش آموزش دهد، بدون آنکه لازم باشد از ریاضی و فرمول‌های پشت پرده‌ی این شبکه سر در بیاورد.

تشخیص چهره (Face Recognition)

فرض کنید می‌خواهیم شبکه‌ای را آموزش دهیم که نه تنها بتواند چهره‌ها را به‌طور کلی تشخیص دهد(یعنی بتواند بگوید در این عکس، انسان وجود دارد)، بلکه بتواند تشخیص دهد که این چهره دقیقا متعلق به کیست.

برای این کار، شبکه‌ای را که قبلا برای تشخیص کلی چهره‌ی انسان آموزش دیده است، انتخاب می‌کنیم. بعد، خروجی را عوض می‌کنیم. یعنی به جای اینکه از شبکه بخواهیم چهره‌ای خاص را در میان جمعیت تشخیص دهد، از آن می‌خواهیم توصیفی از آن چهره را به‌صورت صدها عددی که ممکن است فرم بینی یا چشم‌ها را مشخص کند، به ما نشان دهد. شبکه از آنجایی که از قبل می‌داند اجزای تشکیل‌دهنده‌ی چهره چیست، می‌تواند این کار را انجام دهد.

مدل هوش مصنوعی برای تشخیص چهره
تغییر شبکه عصبی از «تشخیص» چهره (چپ) به «توصیف» چهره (راست)
مدل هوش مصنوعی برای تشخیص چهره
حالا می‌توان چهره‌ها را براساس توصیف‌های شبکه تشخیص داد

البته که ما این کار را به طور مستقیم انجام نمی‌دهیم؛ بلکه شبکه را با نشان‌ دادن مجموعه‌ای از چهره‌ها و بعد مقایسه‌ی خروجی‌ها با یکدیگر آموزش می‌دهیم. همچنین می‌توانیم به شبکه یاد دهیم چطور چهره‌های یکسانی را که شباهت زیادی به هم دارند و چهره‌های متفاوتی را که اصلا شبیه هم نیستند، توصیف کند.

حالا تشخیص چهره آسان می‌شود؛ ابتدا، تصویر چهره‌ی اول را به شبکه می‌دهیم تا آن را برایمان توصیف کند. بعد، تصویر چهره‌ی دوم را به شبکه می‌دهیم و توصیف آن را با توصیف چهره‌ی اول مقایسه می‌کنیم. اگر دو توصیف به هم نزدیک باشد، می‌گوییم که این دو چهره یکی هستند. بدین‌ترتیب، از شبکه‌ای که فقط می‌توانست یک چهره را تشخیص دهد به شبکه‌ای رسیدیم که می‌تواند هر چهره‌ای را تشخیص دهد!

شبکه‌های عصبی عمیق به‌طرز فوق‌العاده‌ای انعطاف‌پذیر هستند

شبکه‌های عصبی عمیق دقیقا به‌خاطر همین ساختار منعطف به‌شدت کاربردی هستند. به کمک این تکنولوژی، انواع بسیار زیادی از مدل‌های یادگیری ماشین برای بینایی کامپیوتر توسعه یافته‌‌اند و اگرچه کاربرد آن‌ها متفاوت است، بسیاری از ساختارهای اصلی آن‌ها براساس شبکه‌های CNN اولیه نظیر Alexnet و Resnet ساخته شده است.

جالب است بدانید برخی افراد از شبکه‌های تشخیص چهره حتی برای خواندن خطوط نمودارهای زمانی استفاده کرده‌اند! یعنی به جای اینکه بخواهند برای تجزیه‌وتحلیل داده، یک شبکه‌ی سفارشی ایجاد کنند، شبکه‌ی عصبی متن‌بازی را طوری آموزش می‌دهند تا بتواند به شکل خطوط نمودارها هم شبیه چهره‌ی انسان‌ها نگاه کند و الگوها را توصیف کند.

این انعطاف‌پذیری عالی است، اما بالاخره جایی کم می‌آورد. برای همین، حل برخی مسائل به نوع دیگری از شبکه نیاز دارد که در ادامه با آن‌‌ها آشنا می‌شوید.

تشخیص گفتار (Speech Recognition)

شاید بتوان گفت تکنیک تشخیص گفتار به‌نوعی شبیه تشخیص چهره است، به این صورت که سیستم یاد می‌گیرد به چیزهای پیچیده به‌ شکل مجموعه‌ای از ویژگی‌های ساده‌تر نگاه کند. در مورد گفتار، شناخت جمله‌ها و عبارات از شناخت کلمات حاصل می‌شود که آن‌ها هم خود به دنبال تشخیص هجاها یا به‌عبارت دقیق‌تر، واج‌ها می‌آیند. بنابرین وقتی می‌شنویم کسی می‌گوید «باند، جیمز باند» درواقع ما داریم به دنباله‌ای‌ از صداهای متشکل از BON+DUH+JAY+MMS+BON+DUH گوش می‌دهیم.

در حوزه‌ی بینایی ماشین، ویژگی‌ها به‌صورت مکانی سازماندهی می‌شوند که ساختار CNN هم قرار است همین مکان‌ها را تشخیص دهد. اما درمورد تشخیص گفتار، ویژگی‌ها به‌صورت زمانی دسته‌بندی می‌شوند. افراد ممکن است آهسته یا سریع صحبت کنند، بی‌آنکه نقطه‌ی شروع یا پایان صحبت‌شان معلوم باشد. ما مدلی می‌خواهیم که مثل انسان‌ها بتواند به صداها در همان لحظه که ادا می‌شوند، گوش دهد و آن‌ها را تشخیص دهد؛ به‌جای اینکه منتظر بماند تا جمله کامل شود. متاسفانه برخلاف فیزیک، نمی‌توانیم بگوییم مکان و زمان یکی هستند و داستان را همین‌جا تمام کنیم.

اگر با دستیار صوتی گوشی‌‌تان کار کرده باشید، احتمالا زیاد پیش آمده که Siri یا گوگل اسیستنت به‌خاطر شباهت هجاها، حرف شما را اشتباه متوجه شده باشد. مثلا به گوگل اسیستنت می‌گویید «what's the weather»، اما فکر می‌کند از او پرسیده‌اید «what's better». برای اینکه این مشکل حل شود، به مدلی نیاز داریم که بتواند به دنباله‌ی هجاها در بستر متن توجه کند. اینجا است که دوباره پای یادگیری ماشین به میان می‌آید. اگر مجموعه‌ی کلمات ادا شده به‌اندازه کافی بزرگ باشد، می‌توان یاد گرفت که محتمل‌ترین عبارات کدام‌ها هستند و هرچه تعداد مثال‌ها بیشتر باشد، پیش‌بینی مدل بهتر می‌شود.

برای این کار، از شبکه‌ عصبی بازگشتی یا همان RNN استفاده می‌شود. در اکثر شبکه‌های عصبی مانند شبکه‌های CNN که برای بینایی کامپیوتر به کار می‌روند، اتصالات نورون‌ها تنها در یک جهت و از سمت ورودی به خروجی جریان دارد. اما در یک شبکه‌ی عصبی بازگشتی، خروجی نورون‌ها را می‌توان به همان لایه که در آن قرار دارند یا حتی به لایه‌های عمیق‌تر فرستاد. بدین‌ترتیب، شبکه‌های RNN می‌توانند صاحب حافظه شوند.

شبکه CNN یک‌طرفه است، اما شبکه RNN حافظه داخلی دارد

شبکه‌ی CNN یک‌طرفه است؛ به آن یک تصویر به‌عنوان ورودی بدهید تا توصیف تصویر را به‌صورت خروجی به شما تحویل دهد. اما شبکه‌ی RNN به نوعی حافظه‌ی داخلی دسترسی دارد و یادش می‌ماند که قبلا چه تصاویری به‌صورت ورودی به آن داده شده و می‌تواند پاسخ‌هایش را هم مرتبط با چیزی که دارد می‌بیند و هم با چیزهایی که قبلا دیده، ارائه دهد.

شبکه عصبی برگشتی
شبکه عصبی بازگشتی می‌تواند ورودی‌های قبلی را هم به‌یاد آورد و با ورودی جدید ترکیب کند

حافظه‌ی RNN باعث می‌شود این شبکه نه‌تنها به تک‌تک هجاها به محض ادا شدن «گوش دهد»، بلکه می‌تواند یاد بگیرد که چه نوع هجاهایی کنار هم می‌نشینند تا یک کلمه را تشکیل دهند و همین‌طور می‌تواند پیش‌بینی کند که چه نوع عبارات و جمله‌هایی محتمل‌تر هستند. درنتیجه، شبکه RNN به دستیار صوتی یاد می‌دهد که گفتن «what's the weather» از «what's better» محتمل‌تر است و متناسب با همین پیش‌بینی، به شما پاسخ می‌دهد.

به کمک RNN می‌توان به‌خوبی گفتار انسان را تشخیص داد و آن را به متن تبدیل کرد؛ عملکرد این شبکه‌ها به‌قدری بهبود یافته که از نظر دقت تشخیص حتی از انسان‌ها هم بهتر عمل می‌کنند. البته دنباله‌ها فقط در صدا نمایان نمی‌شوند. امروزه از شبکه‌های RNN برای تشخیص دنباله‌‌‌ی حرکات در ویدیوها نیز استفاده می‌شود.

دیپ‌فیک و شبکه‌های مولد (Deepfakes and Generative AI)

تا اینجای مطلب فقط داشتیم درباره‌ی مدل‌های یادگیری ماشینی صحبت می‌کردیم که برای تشخیص به کار می‌روند؛ مثلا از مدل می‌خواستیم به ما بگوید در این تصویر چه می‌بیند یا چیزی را که گفته شده، درک کند. اما این مدل‌ها قابلیت‌های بیشتری دارند. همان‌طور که احتمالا از کار کردن با چت‌بات‌ها و پلتفرم Dall-E متوجه شدید، مدل‌های یادگیری عمیق این روزها می‌توانند برای تولید محتوا هم به کار روند!

حتما نام دیپ‌فیک (Deep Fake) را زیاد شنیده‌اید؛ ویدیوهای جعلی که در آن افراد مشهور چیزهایی می‌گویند یا کارهایی می‌کنند که به نظر واقعی می‌رسد، اما این‌طور نیست. دیپ‌فیک هم نوع دیگری از هوش مصنوعی مبتنی‌بر یادگیری عمیق است که در محتوای صوتی و تصویری دست می‌برد و آن‌ را به‌دلخواه تغییر می‌دهد تا نتیجه‌ی نهایی چیزی کاملا متفاوت از محتوای اولیه باشد.

دیپ فیک DeepFake

به این ویدیوی دیپ‌فیک نگاه کنید؛ مدلی که در ساخت این دیپ‌فیک به‌کار رفته می‌تواند ویدیوی رقص یک فرد را تجزیه‌وتحلیل کند و بعد با پیدا کردن الگوها، همان حرکات موزون را در ویدیوی دوم روی فرد دیگری پیاده کند؛ طوری که فرد حاضر در ویدیوی دوم دقیقا شبیه ویدیوی اول به رقص درمی‌آید.

با تمام تکنیک‌هایی که تا اینجا توضیح دادیم، آموزش شبکه‌ای که تصویر یک فرد در حال رقص را دریافت کند و بتواند بگوید دست‌ها و پاهایش در چه موقعیت مکانی‌ای قرار دارند، کاملا شدنی‌ است. این شبکه همچنین یاد گرفته که چطور پیکسل‌های یک تصویر را به موقعیت قرار گرفتن دست‌ها و پاها مربوط کند. با توجه به اینکه برخلاف مغز واقعی، شبکه‌ی نورونی هوش مصنوعی صرفا داده‌هایی هستند که در یک کامپیوتر ذخیره شده‌اند، بی‌شک این امکان وجود دارد که این داده را برداشته و برعکس این فرایند عمل کنیم؛ یعنی از مدل بخواهیم از موقعیت دست و پا، پیکسل‌ها را به دست آورد.

به مدل‌های یادگیری ماشین که می‌توانند دیپ‌فیک بسازند یا مثل Dall-E و Midjourney، متن توصیفی را به تصویر تبدیل کنند، مدل مولد (Generative) می‌گویند. تا بدین‌جا، از هر مدلی که حرف زدیم از نوع تمیزدهنده (Discriminator) بود؛ به این معنی که مدل به مجموعه‌ای از تصاویر نگاه می‌کند و تشخیص می‌دهد کدام تصویر گربه و کدام‌ گربه نیست؛ اما مدل مولد همان‌طور که از نامش پیدا است، می‌تواند از توصیف متنی گربه، تصویر گربه تولید کند.

مدل‌های مولد هوش مصنوعی

مدل‌های مولدی که برای «به‌تصویر کشیدن» اجسام ساخته شده‌اند، از همان ساختار CNN به کار رفته در مدل‌های تشخیص همان اجسام استفاده می‌کنند و می‌توانند دقیقا به همان روش مدل‌های یادگیری ماشین دیگر آموزش ببینند.

چالش ساخت مدل مولد تعریف سیستم امتیازدهی برای آن است

اما نکته‌ی چالش‌برانگیز آموزش مدل‌های مولد، تعریف سیستم امتیازدهی برای آن‌ها است. مدل‌های تمیزدهنده با پاسخ درست و نادرست آموزش می‌بینند؛ مثلا اگر تصویر سگ را گربه تشخیص دهند، می‌توان به آن‌ها یاد داد که پاسخ نادرست است. اما چطور می‌توان به مدلی که تصویر گربه‌ای را کشیده، امتیاز داد؟ مثلا اینکه چقدر نقاشی‌اش خوب است یا چقدر به واقعیت نزدیک است؟

اینجا جایی است که برای افراد بدبین به آینده و تکنولوژی، منظورم آن‌هایی است که معتقدند دنیا قرار است به دست ربات‌های قاتل نابود شود، داستان واقعا ترسناک می‌شود. چراکه بهترین روشی که برای آموزش شبکه‌های مولد فعلا در اختیار داریم این است که به جای اینکه ما خودمان آن‌ها را آموزش دهیم، اجازه دهیم شبکه‌ی عصبی دیگری آن‌ها را آموزش دهد؛ یعنی دو هوش مصنوعی رو در روی هم!

برای افرادی که به آینده ربات‌های قاتل اعتقاد دارند، شبکه GAN داستان را ترسناک می‌کند

اسم این تکنیک، «شبکه‌ مولد رقابتی» (Generative Adversarial Networks) یا GAN است. در این روش، دو شبکه‌ی عصبی داریم که ضد یکدیگر عمل می‌کنند؛ از یک سمت شبکه‌ای داریم که سعی دارد ویدیوی فیک بسازد (مثلا موقعیت مکانی دست و پاهای فرد در حال رقص را بردارد و روی فرد دیگری پیاده کند) و در سمت دیگر، شبکه‌ی دیگری است که آموزش دیده تا با استفاده از مجموعه‌ای از نمونه رقص‌های واقعی، تفاوت بین ویدیوی واقعی و جعلی را تشخیص دهد.

در مرحله‌ی بعدی، این دو شبکه در نوعی بازی رقابتی مقابل همدیگر می‌گیرند که کلمه‌ی «رقابتی» (Adversarial) از همین‌جا می‌آید. شبکه‌ی مولد سعی می کند فیک‌های قانع‌کننده‌ای بسازد و شبکه‌ی تمیزدهنده سعی می‌کند تشخیص دهد که چه چیزی واقعی و چه چیزی جعلی است.

شبکه مولد رقابتی
شبکه‌های مولد رقابتی دو شبکه را مقابل هم می‌گذارند؛ یکی تصاویر فیک ایجاد می‌کند و یکی سعی می‌کند آن را تشخیص دهد
شبکه مولد رقابتی
درنهایت، فقط از شبکه مولد تصاویر فیک برای خروجی گرفتن استفاده می‌شود

در هر دور آموزش، مدل‌ها بهتر و بهتر می‌شوند. مثل این می‌ماند که یک جعل‌کننده‌ی جواهر را در برابر یک کارشناس باتجربه قرار دهیم و حالا هر دو بخواهند با بهتر و هوشمند‌تر شدن، حریف خود را شکست دهند. درنهایت، وقتی هر دو مدل به‌اندازه‌ی کافی بهبود پیدا کردند، می‌توان مدل مولد را به‌صورت مستقل استفاده کرد.

مدل‌های مولد در تولید محتوا، چه تصویری، چه صوتی، چه متنی و ویدیویی فوق‌العاده‌اند؛ مثلا همین چت‌بات ChatGPT که این‌روزها حسابی سروصدا به‌پا کرده، از مدل زبانی بزرگ مبتنی‌بر مدل مولد استفاده می‌کند و می‌تواند تقریبا به تمام درخواست‌های کاربران، از تولید شعر و فیلم‌نامه گرفته تا نوشتن مقاله و کد، در عرض چند ثانیه پاسخ دهد؛ آن‌هم به‌گونه‌ای که نمی‌توان تشخیص داد پاسخ را انسان ننوشته است.

استفاده از شبکه‌های GAN از این جهت ترسناک است (البته برای افراد خیلی شکاک و بدبین!) که نقش انسان‌ها در آموزش مدل‌ها در حد ناظر است و تقریبا تمام فرایند یادگیری و آموزش برعهده‌ی هوش مصنوعی است.

نمونه‌های​ هوش مصنوعی

این روزها هوش مصنوعی را می‌توان تقریبا در هر چیزی دید؛ از دستیارهای صوتی مثل Siri گرفته تا الگوریتم‌های پیشنهاد فیلم و آهنگ در نتفلیکس و اسپاتیفای و خودروهای خودران و ربات‌هایی که در خط تولید مشغول به کارند. اما در چند وقت اخیر، عرضه‌ی برخی از نمونه‌های هوش مصنوعی، صحبت درباره‌ی این حوزه‌ از تکنولوژی را سر زبان‌ها انداخته‌اند که در ادامه به‌طور مختصر به آن‌ها اشاره می‌کنیم.

چت‌جی‌پی‌تی

عکس لپتاپ در وبسایت OpenAI صفحه ChatGPT

این چت‌بات، که اکنون توسط مدل‌های پیشرفته‌تری مانند GPT-4o (با قابلیت‌های چندوجهی) و حتی مدل‌های جدیدتر مانند GPT-5 پشتیبانی می‌شود، در حال حاضر یک دستیار «همه‌منظوره» محسوب می‌شود که می‌تواند به‌طور یکپارچه متن، صدا و تصویر را درک و تحلیل کند. از چت‌جی‌پی‌تی برای تحلیل داده‌های پیچیده، کدنویسی پیشرفته، تولید محتوای خلاقانه و دستیار صوتی هوشمند استفاده می‌شود.

جمنای

جمنای (Gemini) پیشرفته‌ترین مدل هوش مصنوعی گوگل تا به امروز است که به عنوان جایگزین مدل قبلی یعنی «بارد» و رقیب ChatGPT معرفی شد. این پلتفرم هم مانند ChatGPT می‌تواند به صورت همزمان متن، تصویر، صدا، ویدیو و کدهای برنامه‌نویسی را درک، ترکیب و پردازش کند.

درحال‌حاضر، جدیدترین نسل این هوش مصنوعی سری جمنای ۳ است که شامل نسخه‌های مختلفی از جمله Pro (برای استدلال‌های پیچیده) و Flash (برای سرعت و کارایی بالا) می‌شود. ویژگی متمایز نسخه ۳، «پنجره محتوایی» بسیار وسیع آن است که به مدل اجازه می‌دهد حجم عظیمی از اطلاعات،‌ مانند ساعت‌ها ویدیو، چندین کتاب کامل یا هزاران خط کد را به یکباره دریافت کرده و با دقت بالا تحلیل کند.

نانو بنانا

نانو بنانا (Nano Banana) مولد تصویر گوگل است که پیشرفته‌ترین نسخه‌ی آن مبتنی‌بر جمنای ۳ در اواخر سال ۲۰۲۵ معرفی شد.

نقطه قوت نانو بنانا، «ثبات شخصیت» و قابلیت ویرایش دقیق است. برخلاف بسیاری از مدل‌ها که با تغییر دستور، چهره سوژه را کاملا عوض می‌کنند، نانو بنانا می‌تواند هویت یک کاراکتر را در تصاویر و زاویه‌های مختلف ثابت نگه دارد. علاوه بر این، این مدل توانایی بالایی در نوشتن صحیح متن‌ها داخل تصویر دارد و به کاربران اجازه می‌دهد با زبانی ساده، تغییرات پیچیده‌ای مثل تغییر لباس یا محیط را بدون به هم ریختن کل عکس اعمال کنند.

مایکروسافت کوپایلت

مایکروسافت کوپایلت تکامل‌یافته‌ترین دستیار هوش مصنوعی این شرکت است که ریشه در پروژه «بینگ چت» دارد. این سرویس حاصل سرمایه‌گذاری کلان مایکروسافت در شرکت OpenAI است و از همان ابتدا بر پایه مدل‌های GPT بنا شد.

نقطه قوت کوپایلت، یکپارچگی عمیق آن با اکوسیستم کاری مایکروسافت است. این هوش مصنوعی در نرم‌افزارهایی مثل ورد، اکسل و پاورپوینت حضور دارد. نسخه تخصصی کوپایلت گیت‌هاب به عنوان دستیار هوشمندی برای برنامه‌نویسان شناخته می‌شود.

سورا

سورا (Sora) مدل هوش مصنوعی شرکت OpenAI برای تولید ویدیو است که اولین بار در اوایل سال ۲۰۲۴ به عنوان یک پروژه تحقیقاتی معرفی شد. رونمایی اولیه آن با ویدیوهایی از «قدم زدن زنی در خیابان‌های نئونی توکیو» یا «موجودات پشمالوی بامزه»، شوک بزرگی به دنیای فناوری وارد کرد؛ چرا که تا پیش از آن، مدل‌های ویدیویی کیفیت پایین و پرش‌های تصویری زیادی داشتند.

درحال‌حاضر، جدیدترین و قدرتمندترین نسخه این خانواده Sora 2 است. این نسخه جهش بزرگی نسبت به مدل اولیه داشته و اکنون نه تنها ویدیو، بلکه «صدا» را نیز همزمان با تصویر تولید می‌کند.

چه شرکت‌هایی آینده هوش مصنوعی را می‌سازند؟

انقلاب هوش مصنوعی توسط تعداد انگشت‌شماری از شرکت‌های غول‌پیکر فناوری هدایت می‌شود. این شرکت‌ها با سرمایه‌گذاری‌های میلیارد دلاری، جذب بهترین استعدادهای جهان و دسترسی انحصاری به منابع محاسباتی و داده‌های عظیم، در حال شکل دادن به آینده این حوزه هستند؛ از سازندگان سخت‌افزارهایی که این ماشین‌ها را روشن می‌کنند گرفته تا توسعه‌دهندگان مدل‌های زبانی و ارائه‌دهندگان پلتفرم‌های ابری.

سازندگان مدل: معماران مغز دیجیتال

در خط مقدم توسعه‌ی هوش مصنوعی، شرکت‌هایی قرار دارند که مستقیما بر روی تحقیق و توسعه مدل‌های زبان بزرگ (LLMs) و سایر مدل‌های مولد تمرکز کرده‌اند. در میان این پیشگامان، OpenAI با عرضه محصولاتی مانند ChatGPT، به شهرت جهانی رسید. این شرکت با سرمایه‌گذاری مایکروسافت، توانست منابع لازم برای آموزش مدل‌های عظیم و دسترسی به بازاری گسترده را برای خود فراهم کند.

در کنار آن، گوگل از طریق آزمایشگاه تحقیقاتی دیپ‌مایند، همواره به عنوان یک نیروگاه تحقیقاتی شناخته شده است. گوگل با پروژه‌هایی مانند AlphaGo، که توانست قهرمان جهان در بازی پیچیده «گو» را شکست دهد، و خانواده مدل‌های چندوجهی و قدرتمند جمنای، پیوسته مرزهای دانش هوش مصنوعی را جابجا کرده است. استراتژی اصلی گوگل، ادغام عمیق هوش مصنوعی در تمام محصولات خود، از جستجو و یوتیوب گرفته تا اندروید و خدمات ابری است.

متا (شرکت مادر فیسبوک و اینستاگرام) رویکرد متفاوتی را در پیش گرفته است. این شرکت با عرضه خانواده مدل‌های LLaMA به صورت متن‌باز، به جامعه تحقیقاتی و توسعه‌دهندگان مستقل اجازه داده تا بر پایه مدل‌های متا، نوآوری کنند. هوش مصنوعی متا در حال حاضر در چت‌بات‌های فیسبوک و اینستاگرام و همچنین در عینک‌های هوشمند Ray-Ban به کار گرفته شده است.

شرکت

ارزش بازار (تقریبی)

نقش اصلی در هوش مصنوعی

پروژه(های) شاخص

انویدیا

۴٫۴۶ تریلیون دلار

رهبر سخت‌افزار (GPU)

پردازنده‌های سری H100/B100، پلتفرم CUDA

مایکروسافت

۳٫۸۱ تریلیون دلار

پلتفرم ابری و نرم‌افزار سازمانی

Microsoft Copilot، Azure OpenAI Service

آلفابت‌ (گوگل)

۳٫۰۶ تریلیون دلار

تحقیق و توسعه، اکوسیستم یکپارچه

Gemini، Google DeepMind، TensorFlow

متا

۱٫۸۰ تریلیون دلار

مدل‌های متن‌باز، داده‌های اجتماعی

مدل‌های LLaMA، Meta AI

تسلا

۱٫۴۶ تریلیون دلار

کاربردهای واقعی (خودروهای خودران)

Autopilot/FSD، ابرکامپیوتر Dojo

اوپن‌ای‌آی

(خصوصی)

پیشگام مدل‌های زبان بزرگ

ChatGPT، GPT-4، DALL-E، Sora

آنتروپیک

(خصوصی)

تمرکز بر ایمنی هوش مصنوعی

خانواده مدل‌های Claude

شرکت آنتروپیک در سال ۲۰۲۱ توسط گروهی از پژوهشگران سابق OpenAI تأسیس شد. دلیل اصلی جدایی این گروه از OpenAI، نگرانی‌های آن‌ها درباره سرعت بالای تجاری‌سازی و خطرات بالقوه هوش مصنوعی بود. محصول پرچمدار این شرکت، خانواده مدل‌های زبانی «Claude» است که بیش از هر چیز به خاطر توانایی فوق‌العاده در «برنامه‌نویسی و استدلال منطقی» شناخته می‌شود و و در بین توسعه‌دهندگان نرم‌افزار محبوبیت بسیار زیادی دارد.

اما موفقیت هیچ‌یک از این شرکت‌ها، بدون سخت‌افزارهای یک شرکت ممکن نبود: انویدیا. این شرکت با واحدهای پردازش گرافیکی (GPUs) خود، مانند سری‌های H100 و B100، و همچنین پلتفرم نرم‌افزاری انحصاری CUDA، به زیربنای بلامنازع صنعت هوش مصنوعی تبدیل شده است. تقریباً تمام مدل‌های زبان بزرگ و پیچیده‌ای که امروز می‌شناسیم، با سخت‌افزارهای انویدیا آموزش داده و اجرا می‌شوند.

خطرات هوش مصنوعی

هوش مصنوعی شبیه شخصیت‌های خاکستری داستان‌ها، نه صددرصد پلید است و نه صددرصد فرشته‌ی نجات و ابرقهرمان. در همان حال که زندگی بشر را ساده‌تر و تکنولوژی‌های پیچیده و گران‌قیمت را دردسترس‌تر می‌کند، می‌تواند خطرات و چالش‌هایی نیز به دنبال داشته باشد که در ادامه به برخی از آن‌ها اشاره می‌کنیم:

از بین رفتن برخی مشاغل به‌خاطر اتوماسیون؛ از سال ۲۰۰۰ تاکنون، هوش مصنوعی و سیستم‌های اتوماسیون ۱٫۷ میلیون شغل در حوزه‌ی تولید را کنار گذاشته‌اند. با‌توجه به «گزارش ۲۰۲۰ آینده‌ی مشاغل»‌ مجمع جهانی اقتصاد، انتظار می‌رود تا سال ۲۰۲۵، هوش مصنوعی جای ۸۵ میلیون شغل در سراسر جهان را بگیرد. مشاغلی مثل تجزیه‌وتحلیل داده، تله‌مارکتینگ و خدمات مشتری، کدنویسی، حمل‌ونقل و خرده‌فروشی در خطر جایگزینی کامل با هوش مصنوعی هستند.

دستکاری اجتماعی از طریق الگوریتم‌ها؛ هوش مصنوعی می‌تواند از طریق پلتفرم‌های آنلاین نظیر شبکه‌های اجتماعی، رسانه‌های خبری و حتی فروشگاه‌های آنلاین، نظرات، رفتارها و احساسات افراد را تحت‌تاثیر قرار دهد. هوش مصنوعی همچنین می‌تواند با تولید محتوای جعلی یا گمراه‌کننده مثل ویدیوهای دیپ‌فیک، به افراد آسیب برساند.

نظارت اجتماعی با هوش مصنوعی؛ دولت‌ها و شرکت‌ها به‌کمک فناوری تشخیص چهره، ردیابی مکان و داده‌کاوی که همگی مبتنی‌بر هوش مصنوعی است، می‌توانند به نظارت گسترده از شهروندان و کارمندان بپردازند. این موضوع، حریم خصوصی، امنیت و آزادی‌های مدنی افراد را تهدید می‌کند.

تعصبات ناشی از هوش مصنوعی؛ هوش مصنوعی می‌تواند تعصبات انسانی را در داده‌ها یا طراحی خود به ارث برده یا تقویت کند. این تعصبات می‌تواند منجر به نتایج ناعادلانه یا تبعیض‌آمیز برای گروه‌های خاصی از مردم از نظر نژادی، جنسیت، سن و غیره شود.

گسترش نابرابری اجتماعی‌اقتصادی؛ هوش مصنوعی می‌تواند بین افرادی که به مزایای آن دسترسی دارند و افرادی که از آن‌ها بی‌بهره‌اند، شکاف دیجیتالی ایجاد کند. هوش مصنوعی همچنین می‌تواند شکاف بین افراد ثروتمند و فقیر را با تمرکز ثروت و قدرت در دست عده‌ای که کنترل سیستم‌های هوش مصنوعی را به‌عهده دارند، افزایش دهد.

جنگ‌افزارهای خودمختار؛ هوش مصنوعی می‌تواند در توسعه‌ی سلاح‌های مرگ‌بار خودمختاری به‌کار می‌رود که به اهداف بدون دخالت انسان شلیک کنند. درحالی‌که عده‌ای می‌گویند با جایگزین کردن سربازهای انسان با ربات‌ها، آمار تلفات کشور دارنده‌ی این سلاح‌ها کم می‌شود، در اختیار داشتن ارتشی که تلفات جانی روی دست کشور پیشرفته‌تر نمی‌گذارد، انگیزه‌ی بیشتری به آن کشور برای آغاز جنگ می‌دهد.

آینده هوش مصنوعی

این‌طور که پیدا است، هوش مصنوعی، مهم‌ترین تکنولوژی آینده است و سناریوهای زیادی برای پیشرفت آن تعریف شده‌اند؛ ازجمله:

هوش مصنوعی بیشتر با هوش انسانی ادغام می‌شود و توانایی‌های ما را افزایش می‌دهد؛ مثلا رابط‌های مغز و کامپیوتر، پردازش زبان طبیعی و بینایی ماشین می‌توانند ارتباطات، یادگیری و ادراک ما را تقویت کنند.

هدف نهایی تمام پروژه‌های هوش مصنوعی رسیدن به AGI است

هوش مصنوعی خودمختارتر و با محیط‌های پیچیده سازگارتر می‌شود؛ مثلا خودروهای خودران، خانه‌های هوشمند و دستیارهای رباتیک می‌توانند با حداقل نظارت یا دخالت انسان کار کنند.

هوش مصنوعی در تولید محتوا یا ارائه‌ی راه‌حل‌های جدید، خلاقانه‌تر خواهد شد؛ مثلا شبکه‌های مولد رقابتی، الگوریتم‌ها و تولید زبان طبیعی می‌توانند تصاویر، آثار هنری، موسیقی یا متن واقع‌گرایانه‌ای تولید کنند.

هوش مصنوعی با عوامل دیگر، چه انسانی چه ماشینی، وارد همکاری بیشتری می‌شود. مثلا، سیستم‌های چندعاملی (MAS)، هوش گروهی (swarm intelligence) و یادگیری تقویتی می‌توانند تصمیم‌گیری‌، حل مسئله و هماهنگی‌های جمعی را ممکن کنند.

و البته هوش مصنوعی در بحث منابع داده، اصول طراحی، کاربردها و تاثیراتش متنوع‌تر و جامع‌تر خواهد شد. مثلا می‌توان به پیشرفت‌هایی در هوش مصنوعی مسئولانه، هوش مصنوعی درون‌نما (explainable AI) که درون الگوهای پیچیده‌ی یادگیری هوشمند را برای انسان‌ها آشکار می‌کند و هوش مصنوعی منصفانه و هوش مصنوعی قابل‌اعتماد،‌ اشاره کرد.

اما هدف نهایی تمام افرادی که در حوزه‌ی هوش مصنوعی کار می‌کنند، رسیدن به هوش مصنوعی قوی یا همان هوش انسان‌گونه است که بتواند در تمام فعالیت‌ها از قابلیت‌های فکری انسان جلو بزند. یعنی چیزی شبیه همان ربات‌های خودآگاهی که در فیلم‌ها می‌بینیم. البته تا رسیدن به چنین سطحی از هوش مصنوعی زمان زیادی باقی مانده؛ اگر نظر کارمندان OpenAI را بپرسید، به شما خواهند گفت تا ۱۳ سال آینده به هوش مصنوعی قوی می‌رسند، اما اکثر متخصصان این حوزه روی ۵۰ سال شرط بسته‌اند.

آیا هوش مصنوعی بشر را نابود می‌کند؟

خب با تمام این حرف‌ها و پیشرفت‌های چشمگیری که در حوزه هوش مصنوعی صورت گرفته، آیا باید تا چند وقت دیگر انتظار ظهور ربات‌های قاتل مثل اسکای‌نت در فیلم‌های ترمیناتور یا هال ۹۰۰۰ در فیلم ادیسه فضایی را داشته باشیم؟

اگر اهل تماشای مستندهای حیات‌وحش باشید، احتمالا به این موضوع دقت کرده‌اید که در پایان تمام آن‌ها، افرادی هستند که درباره‌ی اینکه چطور این همه زیبایی باشکوه قرار است به ‌زودی به‌دست انسان‌ها نابود شود، صحبت می‌کنند. به همین‌خاطر هم فکر می‌کنم هر بحث مسئولانه‌ای که درباره‌ی هوش مصنوعی صورت می‌گیرد، باید در مورد محدودیت‌ها و پیامدهای اجتماعی آن نیز صحبت کند.

موفقیت هوش مصنوعی به‌شدت به مدل‌هایی بستگی دارد که برای آموزش آن‌ها انتخاب می‌کنیم

ابتدا بیایید بار دیگر بر محدودیت‌های کنونی هوش مصنوعی تاکید کنیم؛ اگر فقط یک نکته باشد که امیدوارم از خواندن این مطلب به آن رسیده باشید،‌ این است که موفقیت یادگیری ماشین یا هوش مصنوعی به‌شدت به مدل‌هایی بستگی دارد که ما برای آموزش آن‌ها انتخاب می‌کنیم. اگر انسان‌ها این شبکه‌ها را بدون رعایت استانداردها و اصول اولیه بسازند یا از داده‌های اشتباه و گمراه‌کننده برای آموزش هوش مصنوعی استفاده کنند، آن‌وقت این مشکلات می‌تواند تاثیرات ناگواری به‌همراه داشته باشند.

هوش مصنوعی و جنگ

شبکه‌های عصبی عمیق بسیار انعطاف‌پذیر و قدرتمند هستند، اما معجزه و جادویی نیستند. باوجود اینکه ممکن است از شبکه‌های عصبی عمیق هم برای RNN و هم CNN استفاده کرد، باید توجه داشت که ساختار زیربنایی این دو شبکه بسیار متفاوت است و تا این‌لحظه نیاز بوده که انسان‌ها آن‌ها را از پیش تعریف کنند. بنابراین، اگرچه می‌توان CNNای را که برای تشخیص خودرو آموزش دیده، برای تشخیص پرندگان از نو آموزش داد، اما نمی‌توان این مدل را برای درک گفتار به کار برد.

به‌عبارت ساده‌تر، مثل این است که ما متوجه شده‌ایم که قشر بینایی و قشر شنوایی چطور کار می‌کنند، اما مطلقا هیچ ایده‌ای نداریم که قشر مغز چطور کار می‌کند و اینکه اصلا برای فهم آن باید از کجا شروع کرد. و این یعنی ما احتمالا به این زودی‌ها به هوش مصنوعی انسان‌گونه به سبک فیلم‌های هالیوودی دست نخواهیم یافت. البته این به این معنی نیست که هوش مصنوعی فعلی نمی‌تواند تاثیرات اجتماعی منفی به‌دنبال داشته باشد. برای همین، آشنایی با مفاهیم اولیه‌ی هوش مصنوعی شاید حداقل کاری باشد که بتوان برای پیدا کردن راهی برای حل مشکلات هوش مصنوعی (و جلوگیری از نابودی زمین!) انجام داد.

تبلیغات
در حال مطالعه لیست مطالعاتی هستی
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
تبلیغات

نظرات

هوش مصنوعی چیست | از تاریخچه تا کاربردهای آن به زبان ساده - زومیت