آتش‌بازی OpenAI؛ هوش مصنوعی GPT-4 با قابلیت تفسیر هم‌زمان متن و تصویر معرفی شد

سه‌شنبه ۲۳ اسفند ۱۴۰۱ - ۲۱:۵۰
مطالعه 3 دقیقه
لوگو OpenAI در پشت یک فرد با گوشی
هوش مصنوعی GPT-4 با توانایی تفسیر همزمان متن و تصویر، معرفی شد. مایکروسافت تأیید کرده که بینگ جدید مبتنی‌بر مدل GPT-4 است.
تبلیغات

پس از ماه‌ها شایعه و گمانه‌زنی، شرکت OpenAI (خالق ChatGPT) سرانجام مدل هوش مصنوعی GPT-4 را معرفی کرد. GPT-4 جدیدترین نمونه از مدل‌های زبانی است، ابزارهایی که از آن‌ها برای ساخت سرویس‌هایی مثل ChatGPT و نسخه‌ی جدید بینگ استفاده می‌شود.

بر اساس گزارش ورج، OpenAI می‌گوید مدل هوش مصنوعی جدیدش «نوآورتر و مشارکتی‌تر از همیشه است» و می‌تواند «مسائل سخت را با دقت بالاتر حل کند.» مدل زبانی GPT-4 برخلاف نسخه‌ی قبل می‌تواند افزون‌بر ورودی‌های متنی، ورودی‌های تصویری را نیز تجزیه‌و‌تحلیل کند، اما صرفا از طریق متن پاسخ می‌دهد.

OpenAI می‌گوید با چند شرکت نظیر Duolingo و Stripe و Khan Academy وارد همکاری شده است تا مدل زبانی جدیدش را وارد سرویس‌های آن‌ها کند. کاربران سرویس اشتراکی ChatGPT Plus که ماهانه ۲۰ دلار قیمت دارد، می‌توانند به مدل زبانی جدید دسترسی پیدا کنند. مایکروسافت در بیانیه‌ای جداگانه تأیید کرده که نسخه‌ی جدید بینگ مبتنی‌بر GPT-4 است. OpenAI قصد دارد به‌زودی API مدل زبانی GPT-4 را در دسترس توسعه‌دهندگان قرار دهد.

بر اساس گفته‌ی OpenAI، تفاوت بیت GPT-4 و GPT-3.5 در گفت‌و‌گوهای عادی، «نامحسوس» است. GPT-3.5 همان مدلی است که از آن برای توسعه‌ی ChatGPT استفاده شده. سم آلتمن، مدیرعامل OpenAI، در توییتی می‌گوید GPT-4 «هنوز ناقص و محدود است» و در برخورد اول تأثیرگذارتر از حالتی ظاهر می‌شود که مدتی با آن کار می‌کنید.

تفاوت‌های GPT-4 با مدل قبل بیشتر در آزمون‌هایی مثل آزمون وکالت، آزمون اجرایی حقوق و آزمون ریاضی SAT به چشم می‌آید. GPT-4 موفق شده است در شماری از آزمون‌ها امتیازی در صدک هشتادوهشتم و بالاتر ثبت کند.

آزمون‌ شبیه‌سازی‌شده

GPT-4

GPT-3.5

Uniform Bar Exam (MBE+MEE+MPT)

۴۰۰ / ۲۹۸ (صدک ۹۰)

۴۰۰ / ۲۱۳ (صدک ۱۰)

LSAT

۱۶۳ (صدک ۸۸)

۱۴۹ (صدک ۴۰)

SAT Evidence-Based Reading & Writing

۸۰۰ / ۷۱۰ (صدک ۸۹)

۸۰۰ / ۵۹۰ (صدک ۷۰)

SAT Math

۸۰۰ / ۷۰۰ (صدک ۸۹)

۸۰۰ / ۵۹۰ (صدک ۷۰)

Graduate Record Examination (GRE) Quantitative

۱۷۰ / ۱۶۳ (صدک ۸۰)

۱۷۰ / ۱۴۷ (صدک ۲۵)

Graduate Record Examination (GRE) Verbal

۱۷۰ / ۱۶۹ (صدک ۹۹)

۱۷۰ / ۱۵۴ (صدک ۶۳)

Graduate Record Examination (GRE) Writing

۶ / ۴ (صدک ۶۴)

۶ / ۴ (صدک ۵۴)

USABO Semifinal Exam 2020

۱۵۰ / ۸۷ (صدک ۹۹ تا ۱۰۰)

۱۵۰ / ۴۳ (صدک ۳۱ تا ۳۳)

USNCO Local Section Exam 2022

۶۰ / ۳۶

۶۰ / ۲۴

Codeforces Rating

۳۹۲ (زیر صدک ۵)

۲۶۰ (زیر صدک ۵)

AP Art History

۵ (صدک ۸۶ تا ۱۰۰)

۵ (صدک ۸۶ تا ۱۰۰)

AP Biology

۵ (صدک ۸۵ تا ۱۰۰)

۴ (صدک ۶۲ تا ۸۵)

AP Calculus BC

۴ (صدک ۴۳ تا ۵۹)

۱ (صدک صفر تا ۷)

در یک سال اخیر شایعه‌های زیادی با محوریت مدل زبانی GPT-4 منتشر شد و بسیاری از تحلیلگران اعتقاد داشتند که GPT-4 قرار است جهش بزرگی نسبت‌به نسخه‌ی فعلی مدل زبانی GPT تجربه کند؛ با این‌حال بر اساس آنچه در بیانیه‌ی OpenAI می‌بینیم، GPT-4 در حد و اندازه‌ای که فکرش را می‌کردیم متحول نشده است.

هفته‌ی گذشته یکی از مدیران مایکروسافت در مصاحبه‌ با رسانه‌ای آلمانی تأیید کرده بود که مدل زبانی GPT-4 این هفته معرفی می‌شود. در آن زمان گفته شد که GPT-4 افزون‌بر محتوای متنی از محتوای تصویری نیز پشتیبانی می‌کند. بسیاری از پژوهشگران حوزه‌ی هوش مصنوعی معتقدند مدل‌های چندحالته که متن، صدا و ویدیو را ترکیب می‌کنند، بهترین راهکار برای ساخت ابزارهای هوش مصنوعی فوق پیشرفته هستند.

همانطور که مدیر مایکروسافت گفته بود، GPT-4 واقعا مدلی چندحالته است،‌ اما تعداد فرمت‌های تحت پشتیبانی این مدل هوش مصنوعی کمتر از آن چیزی است که فکرش را می‌کردیم. GPT-4 می‌تواند متن و تصویر را دریافت کند و خروجی متنی ارائه دهد. توانایی GPT-4 در تجزیه‌و‌تحلیل همزمان متن و تصویر، به این مدل هوش مصنوعی امکان می‌دهد ورودی‌های پیچیده‌تری را تفسیر کند. در نمونه‌های زیر می‌توانید ببینید که GPT-4 چگونه میم‌ها و تصاویر غیرمعمول را توصیف می‌کند:

قابلیت‌هایی که GPT-4 ارائه می‌دهد، یک‌شبه ساخته نشده‌اند. OpenAI و تمامی شرکت‌های فعال در صنعت هوش مصنوعی سال‌ها است که سیستم‌های پیشرفته‌ای توسعه می‌دهند و میلیاردها دلار سرمایه‌گذاری می‌کنند. ثمره‌ی این تلاش‌های طولانی‌مدت را اواخر سال ۲۰۲۲ دیدیم، زمانی که هوش مصنوعی به‌لطف انتشار عمومی ChatGPT به یک فناوری مین‌استریم تبدیل شد.

اولین مقاله‌ای که مدل زبانی GPT را توصیف می‌کرد، در سال ۲۰۱۸ منتشر شد. مدل زبانی GPT-2 در سال ۲۰۱۹ از راه رسید و OpenAI یک سال بعد سراغ معرفی GPT-3 رفت. این مدل‌ها بر پایه‌ی دیتاست عظیمی از متن تعلیم داده می‌شوند. بخش قابل‌توجهی از این متن‌ها، از اینترنت استخراج شده‌اند.

OpenAI انتشار عمومی مدل‌های GPT را به دلیل ترس از سوءاستفاده‌ی افراد سودجو، به تأخیر انداخته بود، با این‌حال در اواخر سال ۲۰۲۲ شاهد انتشار عمومی ChatGPT بودیم، چت‌بات پرحاشیه‌ای که در ماه‌های اخیر بارها به تیتر یک رسانه‌های فناوری تبدیل شده است. زمان زیادی نگذشته بود که فناوری پیشرفته‌تر از ChatGPT به موتور جست‌و‌جوی بینگ اضافه شد.

OpenAI می‌گوید ۶ ماه تلاش کرده است تا ایمنی GPT-4 را افزایش دهد. بر اساس آزمون‌های داخلی این شرکت، احتمال این‌که GPT-4 به سؤالات غیرمجاز پاسخ دهد، ۸۲ درصد کمتر از GPT-3.5 است. همچنین مدل هوش مصنوعی جدید با احتمال ۴۰ درصد بیشتر، پاسخ‌هایی با صحت علمی تولید می‌کند.

تبلیغات
داغ‌ترین مطالب روز

نظرات

تبلیغات