مقایسه PaLM 2 گوگل با جی‌پی‌تی‌۴ OpenAI

هوش مصنوعی PaLM 2 دربرابر GPT-4؛ وقتی گوگل در زمین خودی در جا می‌زند!

سه‌شنبه ۳۰ خرداد ۱۴۰۲ - ۲۱:۳۰
مطالعه 10 دقیقه
بدون شبکه‌ی عصبی ترنسفورمر گوگل الان از چت‌بات ChatGPT خبری نبود؛ اما حالا گوگل از رقیبان خود در حوزه‌ی هوش مصنوعی عقب افتاده است.
تبلیغات

رابطه‌ی گوگل و هوش مصنوعی داستان عجیبی است؛ از آن مدل داستان‌ها که دقیقاً نمی‌دانی قهرمان قرار بوده از این شخصیت‌های به‌اصطلاح آندرداگی باشد که باید به‌‌دلیل ضعیف‌بودنش دربرابر رقبا دل بسوزانی و پیروزی نهایی‌اش را جشن بگیری یا از این شخصیت‌های باابهت دارای قدرت‌های ماورائی است که احتمالاً در پایان معلوم می‌شود که آدم‌بده‌‌ی داستان بوده است!

تاریخچه‌ی تولد هوش مصنوعی به سال ۱۹۵۰، یعنی ۷۳ سال پیش و انتشار مقاله‌ی بسیار معروف آلن تورینگ برمی‌گردد که با سؤال جنجالی «آیا ماشین‌ها می‌توانند فکر کنند؟» شروع می‌شد؛ اما این‌ روزها اکثر افراد هوش مصنوعی را بیشتر به‌لطف چت‌بات ChatGPT و مولدهای تصویر Dall-E و Midjourney می‌شناسند.

شرکت مرموز OpenAI که قصد دارد زودتر از هر شرکت دیگری به هوش‌ مصنوعی انسان‌گونه‌ی شبیه فیلم‌های علمی‌تخیلی برسد، با عرضه‌ی عمومی چت‌جی‌پی‌تی به شهرت جهانی رسید. سپس، مایکروسافت این شرکت را ازآنِ خود کرد و با آوردن مدل زبانی به‌کار‌رفته در ChatGPT به بینگ، جان تازه‌ای به موتور جست‌وجوی بخت‌برگشته‌ی خود بخشید. حالا هم که می‌خواهد با «کوپایلت»، هوش مصنوعی را به ویندوز بیاورد.

گوگل خیلی دیر به این بازی پیوست. شرکتی که خودش در ایجاد شبکه‌ای‌ که مدل‌های زبانی بزرگ نظیر GPT برپایه‌ی آن توسعه یافته‌اند، نقش مهمی ایفا و بیشتر از هر شرکت دیگری در حوزه‌ی هوش مصنوعی سرمایه‌گذاری کرده بود (نزدیک ۴ میلیارد دلار)، حالا چنان از رقیبانش عقب مانده بود که حتی عرضه‌ی چت‌بات بارد (Bard)، آن‌هم با جنجال‌های خطای علمی و سرقت ادبی، نتوانست اهالی مانتین‌ویو را به گرد پای رقیب ردمونی‌شان برساند.

گوگل بیش از هر شرکتی در هوش مصنوعی سرمایه‌گذاری کرده است

تا اینکه چند وقت پیش، کنفرانس Google I/O از راه رسید و فرصتی شد تا گوگل تمام برگ‌های هوش‌ مصنوعی خودش را یک‌ جا رو کند. گل سرسبد این رونمایی‌ها، مدل زبانی PaLM 2 بود که در شماری از سرویس‌های گوگل، ازجمله جیمیل و گوگل داکس استفاده می‌شود؛ هرچند به‌نظر نمی‌آید چت‌بات بارد هنوز به این نسخه ارتقا یافته باشد.

مدل زبانی PaLM (مخفف Pathways Language Model) سال ۲۰۲۲ معرفی شد؛ اما گوگل آن را در هیچ محصولی به‌کار نبرد. پالم ۵۴۰ میلیارد پارامتر داشت و GPT-3 که سال ۲۰۲۰ در فاز بتا عرضه شد و نسخه‌ی کمی بهبود‌یافته از آن در ChatGPT به‌کار رفته بود؛ فقط ۱۷۵ میلیارد پارامتر.

در حوزه‌ی مدل‌های زبانی بزرگ، پارامتر به قدری اشاره می‌کند که مدل می‌تواند به‌صورت مستقل و با دریافت آموزش بیشتر آن را تغییر دهد و تا همین‌ چند وقت پیش، اساس بر این بود که هرچه تعداد پارامترها بیشتر باشد، قدرت و سرعت عمل مدل در تولید پاسخ بیشتر است.

بااین‌حال، وقتی ChatGPT مبتنی‌بر GPT-3.5 و بارد مبتنی‌بر PaLM را رو‌به‌روی هم قرار دادم، چت‌بات OpenAI در بسیاری از تست‌ها عملکرد بهتری از خود نشان داد. حالا هر دو شرکت از اعلام تعداد پارامترهای GPT-4 و PaLM 2 سر باز می‌زنند؛ اما از بهبودهای چشمگیر درمقایسه‌با مدل‌های قبلی صحبت می‌کنند.

گوگل می‌گوید PaLM 2 براساس داده‌های چندزبانه‌ی متشکل از بیش از ۱۰۰ زبان آموزش دیده است و می‌تواند معنی اصطلاحات و اشعار و معماهای زبانی را در زبان‌های مختلف ازجمله فارسی متوجه شود.

برای مثال، می‌تواند معنی ضرب‌المثل «نابرده رنج گنج مسیر نمی‌شود» را به همان زبان فارسی توضیح دهد (بینگ‌چت مبتنی‌بر GPT-4 هم می‌تواند همین کار را انجام دهد). این در حالی است که PaLM اولیه فقط با داده‌های انگلیسی آموزش داده شده بود و اگر همین‌حالا به بارد سر بزنید، می‌بینید که از درک زبان فارسی ناتوان است.

مدل زبانی palm 2 گوگل - ضرب‌المثل فارسی
پالم فقط از زبان انگلیسی پشتیبانی می‌کرد؛ اما پالم ۲ حتی فارسی را هم متوجه می‌شود

گوگل همچنین می‌گوید توانایی استدلال منطقی PaLM 2 بیش‌از‌پیش شده و چون با بیش از ۲۰ زبان برنامه‌نویسی آموزش دیده است، مهارت کدنویسی‌اش به‌طرز چشمگیری بهبود یافته است. از‌لحاظ قدرت پردازشی هم بهینه‌تر شده و مثلاً کوچک‌ترین نسخه‌ی این مدل به‌ نام Gecko آن‌قدر سبک است که می‌تواند حتی در حالت آفلاین روی گوشی‌های هوشمند اجرا شود.

به‌گفته‌ی گوگل، PaLM 2 قوی‌تر از GPT-4 نیست

تمام این ادعاها در گزارش فنی ۹۲ صفحه‌ای PaLM 2 آمده‌ است؛ گزارشی که قدرت بهترین مدل زبانی گوگل را در حوزه‌های ترجمه، کدنویسی، استدلال، خلاقیت و پاسخ به پرسش‌های مختلف به‌رخ می‌کشد. در اینکه PaLM 2 در تمام حوزه‌ها از نسخه‌ی قبلی خود بهتر است، شکی نیست؛ اما آیا این مدل توانسته است GPT-4 را هم کنار بزند؟

راستش را بخواهید، نه آن‌طورکه گوگل دوست دارد باور کنیم و نه آن‌طور‌که از شرکتی در حدواندازه‌ی گوگل انتظار داریم.

اگر فرصت داشتید، نگاهی به گزارش گوگل بیندازید. با نگاهی گذرا به جدول نتایج، این‌طور به‌نظر می‌رسد که PaLM 2 توانسته است در برخی تست‌ها، عملکرد بهتری از رقیب اصلی خود، GPT-4، نشان دهد؛ اما چقدر می‌‌توان به این نگاه گذرا اطمینان کرد؟

PaLM 2 در‌برابر GPT-4؛ رقابت در کدنویسی

بیایید عملکرد این دو چت‌بات را در بخش کدنویسی بررسی کنیم. برای مثال، در تست HumanEval که مربوط به تست کد پایتون است، می‌بینیم مدل PaLM 2-S که حتی مدل پایه هم نیست و با پلاگین‌های مخصوص کدنویسی بهبود یافته، امتیازهای ۳۷٫۶ و ۸۸٫۴ را به‌دست آورده است.

بالای امتیاز ۳۷٫۶، عبارت pass@1 را می‌بینیم. این یعنی اولین پاسخ مدل به سؤال درست بوده است؛ اما برای امتیاز ۸۸٫۴ که در‌ادامه خواهیم دید از امتیاز GPT-4 در این آزمون به‌مراتب بیشتر است، عبارت pass@100 نوشته شده است. این یعنی از بین ۱۰۰ پاسخی که مدل به سؤال داده، یکی از آن‌ها درست بوده است.

جدول امتیازهای palm 2 در تست کد پایتون
امتیازهای PaLM 2 در آزمون کد پایتون (HumanEval)

وقتی امتیاز ۸۸٫۴ مدل زبانی گوگل را دربرابر امتیاز ۶۷ مدل زبانی GPT-4 قرار می‌دهیم، به‌نظر می‌رسد PaLM 2 مدل بهتری برای کدنویسی است؛ اما امتیازی که واقعاً باید در این مقایسه در نظر گرفته شود، ۳۷٫۶ است؛ یعنی تنها زمانی‌که مدل در اولین تلاش به پاسخ درست می‌رسد. البته بازهم یادآوری می‌کنم که این امتیاز برای PaLM 2-S است که با توکن‌های مربوط به کدنویسی بازطراحی شده است.

حالا بیایید نگاهی به امتیاز کدنویسی به زبان پایتون این مدل‌ها در وب‌سایت paperswithcode بیندازیم که درواقع بنچمارکی از امتیاز عملکرد مدل‌های زبانی مختلف است.

همان‌طور‌که می‌بینید، جایگاه نخست با بیشترین امتیاز به مدل‌ زبانی Reflextion تعلق دارد که مبتنی‌بر GPT-4 است؛ اما با داده‌ها و قابلیت‌های بیشتری آموزش دیده است. حتی Parsel که در جایگاه دوم قرار دارد، مبتنی‌بر مدل زبانی GPT-4 و CodeT است که هر دو را OpenAI توسعه داده است. خودِ مدل GPT-4 هم با امتیاز ۶۷ در جایگاه سوم قرار گرفته است. نکته‌ی عجیب اینکه جایگاه GPT-3.5 که در چت‌جی‌پی‌تی به‌کار رفته، هم از PaLM-2 (نسخه‌ی آموزش‌دیده با توکن‌های کدنویسی) بالاتر است.

مقایسه امتیازهای gpt-4 و palm-2 در تست کدنویسی پایتون
امتیاز تست کدنویسی چند مدل زبانی مطرح؛ به عبارات pass@1 و zero-shot دقت کنید

شاید برایتان سؤال شده است که چرا رتبه‌ی PaLM 2-S با امتیاز ۸۸٫۴ از GPT-4 با امتیاز ۶۷ کمتر است. نکته این‌جا است که امتیاز GPT-4 در شرایط «pass@1» و «zero-shot» به‌دست ‌آمده است؛ یعنی در شرایطی که هیچ نمونه و مثالی به مدل نشان داده نشده و باید خودش بدون هیچ کمکی به جواب درست می‌رسیده است. این در حالی است که امتیاز PaLM 2-S در شرایط «pass@1» و «few-shot» (مدل با چند نمونه برای رسیدن به جواب آشنا شده)، ۳۷٫۶ است و فقط در حالت «pass@100» توانسته است به امتیاز ۸۸٫۴ برسد.

جالب است مدل CODE-T شرکت OpenAI که در سال ۲۰۲۲ توسعه یافته، در شرایط «pass@10»، یعنی تنها با ۱۰ بار تلاش، توانسته است امتیازی را به‌دست آورد که PaLM 2-S با ۱۰۰ بار تلاش به آن رسیده است.

PaLM 2 در‌برابر GPT-4؛ قابلیت پرسش زنجیره‌ فکر

بیایید سراغ مقایسه‌ی دیگری برویم؛ چیزی که احتمالاً گوگل دوست دارد بیشتر روی آن تمرکز کنیم. در این مقایسه، گوگل نشان می‌دهد که PaLM 2 در سه تست MATH (مسائل ریاضی چالشی المپیادی)، GSM8K (مسائل ریاضی دبستانی به انگلیسی) و MGSM (مسائل ریاضی دبستانی به زبان‌های مختلف) پیشرفت چشمگیری درمقایسه‌با نسخه‌ی اولیه کرده و حتی در یکی‌‌دو مورد امتیاز بیشتری از GPT-4 به‌دست آورده است؛ هرچند از قراردادن امتیاز MGSM رقیب، خودداری کرده است.

جدول امتیازهای Palm 2 و GPT-4 با قابلیت پرسش زنجیره فکر

این جدول دقیقاً مقایسه‌ی یک‌به‌یک را ارائه نمی‌دهد. در این گزارش، می‌خوانیم که گوگل برای بهبود عملکرد PaLM 2 از دو قابلیت خاص استفاده کرده است: یکی پرسش زنجیره‌ی فکر (chain-of-thought prompting) و دیگری خودسازگاری (self-consistency).

خودسازگاری یعنی مدل چندین پاسخ مختلف تولید می‌کند و بعد می‌بیند کدام پاسخ بیشتر تکرار شده است تا آن را به‌عنوان پاسخ درست انتخاب کند. برای مثال، اگر پاسخ اول بگوید A و پاسخ دوم بگوید B و پاسخ سوم بگوید A، مدل می‌گوید A فراوانی بیشتری داشته است؛ پس همین را به‌عنوان پاسخ درست انتخاب می‌کنم.

زنجیره‌ی فکر هم از مدل می‌خواهد به پاسخ‌هایش قدم‌به‌قدم فکر کند. در بسیاری از پژوهش‌های اخیر، تأثیر استفاده از زنجیره‌ی فکر بر بهبود عملکرد مدل‌های زبانی نشان داده شده است. برای مثال، وب‌سایت Khan Academy که از هوش مصنوعی OpenAI استفاده می‌کند، برای پاسخ بهتر به سؤالات ریاضی کاربران از همین فرایند زنجیره‌ی فکر بهره می‌برد. به ‌این‌ صورت که حتی قبل از اینکه مربیان هوش مصنوعی این پلتفرم سؤالی از کاربر بکنند، تمام مراحل رسیدن به جواب را یک‌ بار برای خود تولید کرده‌اند تا وقتی کاربر جواب می‌دهد، بتوانند با استفاده از «حافظه‌»ی خود او را مرحله‌به‌مرحله به رسیدن به جواب درست همراهی کنند.

جدول مقایسه‌ی امتیازهای گزارش گوگل دقیقاً یک‌به‌یک نیست

با این‌ توضیح، برویم سراغ بررسی امتیازها. گوگل می‌گوید با استفاده از پرسش زنجیره‌ی فکر توانسته است عملکرد PaLM 2 را درمقایسه‌با PaLM در تمام تست‌ها افزایش دهد. این موضوع به‌ویژه درباره‌ی امتیاز تست MATH جالب است که افزایش بیش از ۴ برابری عملکرد را در مدل مجهز به پرسش زنجیره‌ی فکر و افزایش بیش از ۶ برابری را در مدل مجهز به قابلیت خودسازگاری نشان می‌دهد.

باوجوداین، گوگل در حالی امتیاز PaLM 2 را با رقیب خود مقایسه کرده است که براساس گزراش GPT-4، شرکت OpenAI تنها در تست GSM-8K از قابلیت پرسش زنجیره‌ی فکر استفاده کرده است و به امتیاز ۹۲٫۲ رسیده که همچنان از PaLM 2 بیشتر است. مقایسه‌ی این امتیاز با مدل Flan-PaLM 2 هم مقایسه‌ی درستی نیست؛ چون این مدل با داده‌های تخصصی مربوط به تست آموزش دیده است. بگذریم که گوگل از قرار‌دادن امتیاز تست MGSM برای GPT-4 به‌دلایلی خودداری کرده است.

چرا گوگل از برنامه‌هایش برای افزایش امنیت هوش مصنوعی حرفی نمی‌زند؟

نکته‌ی جالب دیگر درباره‌ی گزارش فنی گوگل، صحبت‌نکردن درباره‌ی دغدغه‌های این‌ روزهای مردم و صنایع مختلف درباره‌ی هوش مصنوعی است؛ دغدغه‌هایی مثل جایگزین‌شدن انسان‌ها با هوش مصنوعی در محیط کار، استفاده از هوش مصنوعی در جنگ‌افزارها، مسائل مربوط به کپی‌رایت و کلاً امنیت استفاده از هوش مصنوعی برای نسل بشر.

بخش زیادی از گزارش گوگل به «هوش مصنوعی مسئولانه» (Responsible AI) اختصاص دارد؛ اما محوریت صحبت‌های این غول دنیای فناوری استفاده از ضمایر درست در ترجمه است. این موضوع به‌ویژه از این جهت نظر مرا به خود جلب کرد که چند وقت پیش، جفری هینتون، پدرخوانده‌ی هوش مصنوعی‌، پس از ۱۰ سال گوگل را ترک کرد تا از خطرهای هوش مصنوعی برای شغل‌ها و حتی خود انسان‌ها بگوید.

این در حالی است که OpenAI زمانی‌که دارد در گزارش GPT-4 درباره‌ی امنیت مدل زبانی‌اش می‌گوید، نمونه‌هایی را نشان می‌دهد که در آن چت‌بات به درخواست‌های غیرقانونی یا خطرناک مثل ساخت بمب پاسخ نمی‌دهد.

شرکت OpenAI در پایان گزارش خود می‌گوید که با پژوهشگران مستقل در حال همکاری است تا تأثیرات احتمالی هوش مصنوعی را بهتر درک و ارزیابی کند و بتواند برای قابلیت‌های خطرناکی برنامه‌ریزی کند که ممکن است در سیستم‌های آینده بروز کنند. سؤالی که مطرح می‌شود، این است که گوگل برای امنیت هوش مصنوعی چه برنامه‌هایی دارد؟ چرا فعلاً ترجیح داده است مشکلات هوش مصنوعی را به مسائل مربوط به ترجمه محدود کند؟

آیا گوگل در حوزه‌ی هوش مصنوعی به پای رقیبان خواهد رسید؟

آنچه در این میان عجیب به‌نظر می‌رسد، این است که چطور گوگل با آن همه منابع و میلیاردها دلاری که پای تحقیق‌و‌توسعه‌ی هوش مصنوعی صرف کرده و اینکه حتی زودتر از رقبا به این حوزه وارد شده، همچنان از شرکت به‌مراتب کوچکتری چون OpenAI عقب است؟

بدون شبکه‌ی عصبی ترنسفورمر گوگل الان از ChatGPT خبری نبود

این گوگل بود که در سال ۲۰۱۷ با انتشار مقاله‌ی «Attention Is All You Need» (توجه تنها چیزی است که به آن نیاز دارید)، شبکه‌ی عصبی ترنسفورمر را معرفی کرد؛ شبکه‌ای که اصلاً ظهور مدل‌های زبانی بزرگ را ممکن کرد و بدون آن ساخت چت‌بات ChatGPT ممکن نبود.

جالب است بدانید از ۸ نویسنده‌ی این مقاله، فقط یک نفر همچنان در گوگل باقی مانده است و بقیه سراغ راه‌اندازی استارتاپ‌های هوش مصنوعی خود رفته‌اند؛ ازجمله Adept AI Lab و Air Street Capital و البته OpenAI. حتی شایعه شده است که برخی از پژوهشگران هوش مصنوعی گوگل در حال ترک این شرکت هستند؛ چون گوگل متهم شده است که چت‌بات بارد را بدون اجازه با داده‌های ChatGPT آموزش داده است.

استارتاپ‌های هوش مصنوعی
۷ نفر از ۸ نویسنده‌ مقاله‌ی ترنسفورمر گوگل سراغ راه‌اندازی استارتاپ خودشان رفتند

البته حالا گوگل پنهان‌کارتر شده است و مقالات زیادی درباره‌ی نوآوری‌هایش در حوزه‌ی هوش مصنوعی منتشر نمی‌کند. شاید از انتشار مقاله‌ی Attention Is All You Need پشیمان است و از کجا معلوم، شاید همین‌حالا در حال توسعه‌ی مدل‌های قدرتمندتری است که تا پیش از عرضه، چیزی از آن‌ها نخواهیم فهمید. شاید رؤیای رسیدن به هوش مصنوعی انسان‌گونه نه در OpenAI و مایکروسافت، بلکه در آزمایشگاه‌های گوگل به‌حقیقت بپیوندد.

بااین‌حال، تا آن روز و اگر واقعاً داستان این‌چنین باشد، چیزی که مشخص است، آن است که PaLM-2 با اینکه مدل زبانی بسیار قدرتمندی است و عملکردش از نسخه‌ی اول به‌مراتب قوی‌تر شده، هنوز در بسیاری از تست‌ها از GPT-4 جا می‌ماند.

رویکرد به‌شدت محافظه‌کارانه‌ی گوگل دربرابر استفاده از سیستم‌های هوش مصنوعی در سرویس‌هایش نیز کمکی به جبران این عقب‌ماندگی نمی‌کند. برای مثال، یکی از مشکلات مهم بارد پشتیبانی‌نکردن از زبان‌های دیگر بود؛ ولی حالا که PaLM 2 از ۱۰۰ زبان از‌جمله فارسی پشتیبانی می‌کند، چرا هنوز نمی‌توان با این چت‌بات به زبان فارسی حرف زد؟

به‌قول زوبین قهرمانی، معاون پژوهشی گوگل، PalM 2 به پیشرفت چشمگیری درمقایسه‌با مدل‌های قبلی گوگل دست پیدا کرده است؛ اما هنوز برای حل معضلات هوش مصنوعی «راه درازی در پیش دارد».

تبلیغات
در حال مطالعه لیست مطالعاتی هستی
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

نظرات

تبلیغات