موفقیت هوش مصنوعی بایدو در درک زبان طبیعی

دوشنبه ۹ دی ۱۳۹۸ - ۱۴:۰۰

مطالعه 7 دقیقه

بایدو با هوش مصنوعی زبانی خود ERNIE موفق به کسب رتبه‌ای فراتر از ۹۰ در درک عملکرد زبان انسانی شد.

تبلیغات

اوایل ماه جاری، بایدو، غول فناوری چینی، موفق شد بیشترین پتنت در حوزه‌ی هوش مصنوعی را ثبت کند و مایکروسافت و گوگل را در رقابت تنگاتنگ در این حوزه پشت‌سر گذاشت. بایدو که برخی آن را همتای چینی گوگل می‌دانند، بیشترین ثبت اختراع و رقابت را در حوزه‌ی ارزشیابی درک زبان عمومی داشته است که به‌اختصار GLUE خوانده می‌شود.

مقاله‌های مرتبط:

موفقیت هوش مصنوعی مایکروسافت در درک زبان طبیعی

OpenAI نسخه کامل هوش مصنوعی تولیدکننده‌ی متن GPT-2 را منتشر کرد

هوش مصنوعی چیست؟ هر آنچه باید درباره تکنولوژی ChatGPT و Dall-E بدانیم

GLUE بنچمارک شناخته‌شده‌ و مقبولی در حوزه‌ی مطالعات زبانی است که مشخص می‌کند هر سیستم هوش مصنوعی چقدر می‌تواند زبان انسانی را درک کند. این بنچمارک شامل ۹ تکلیف درک زبان طبیعی شامل نامیدن اسامی افراد و سازمان‌ها در جمله و تشخیص مرجع ضمایری چون «آن» در جملات است که مشخص کند به کدام‌یک از چندین اسم مشخص در جمله بازمی‌گردد. مدل زبانی‌ای که در جدول رده‌بندی GLUE بیشترین امتیاز را دارد، می‌تواند ازپس متنوع‌ترین تکالیف درک مطلب زبانی نیز برآید. عملکرد درک زبان انسانی GLUE نمره‌ی ۸۷ از ۱۰۰ را کسب کرده است؛ اما اکنون بایدو با مدل زبانی خود به‌نام ERNIE اولین‌ تیمی است که موفق شده از نمره‌ی ۹۰ فراتر رود.

جدول رده‌بندی GLUE دائما در حال تغییر است و جای تعجب نخواهد بود اگر تیم دیگری به‌زودی جای بایدو را در مقام اول جدول ازآنِ خود کند. نکته‌ی درخورتوجه درباره‌ی موفقیت بایدو این است که نشان می‌دهد چگونه تحقیقات هوش مصنوعی از تنوع مشارکت‌کنندگان سود می‌برد. بنابراین، پژوهشگران هوش مصنوعی بایدو تکنیکی را به‌طور خاص برای زبان چینی به‌نام «بازنمود پیشرفته ازطریق یکپارچه‌سازی دانش» ساخته‌اند که به‌اختصار ERNIE خوانده می‌شود. این تکنیک به‌طور خاص برای زبان چینی طراحی شده است؛ اما همین تکنیک باعث عملکرد بهتر درک زبان انگلیسی نیز شده است.

تاریخچه‌ی ERNIE

ERNIE پیشرفت خود را باید قدردان مدل زبانی هوش مصنوعی گوگل به‌نام BERT باشد که با الهام از این مدل زبانی شکل گرفته است. گفتنی است ERNIE و BERT هر دو با‌ نام شخصیت‌های Sesame Street نام‌گذاری شده‌اند. قبل از ایجاد مدل زبانی BERT، یعنی «بازنمود رمزگذار دوسویه‌ی زبانی از ترنسفورمرها (مبدل‌ها)»، در اواخر سال ۲۰۱۸، مدل‌های زبان طبیعی چندان حرفی برای گفتن نداشتند.

مقاله‌های مرتبط:

سامسونگ تراشه‌ جدید مبتنی بر هوش مصنوعی بایدو را می‌سازد

چگونه OpenAI هوش مصنوعی GPT-2 را توسعه داد؟

مدل‌های زبانی قبلی در پیش‌بینی کلمه‌ی بعدی در یک جمله عملکرد خوبی داشتند؛ بنابراین، برای اپلیکیشن‌هایی چون Autocomplete مناسب بودند؛ اما آن‌ها حتی نمی‌توانستند مفهوم عبارتی کوتاه را در متنی کوچک حفظ کنند. دلیل این ضعف بزرگ آن بود که مدل‌های زبانی قبلی توانایی درک معنا را نداشتند؛ بنابراین، هنگامی که با ضمیری مثل «آن» مواجه می‌شدند، نمی‌توانستند تشخیص دهند این ضمیر به کدام اسم مشخص در جمله اشاره می‌کند.

در مدل زبانی BERT همه‌چیز تغییر کرد. مدل‌های قبلی زبانی، آموزش دیده بودند تا بتوانند معنای واژه‌ی درون بافت و ساختار جمله را باتوجه‌به واژه‌ی قبل یا بعد از آن پیش‌بینی یا تفسیر کنند؛ ولی هرگز نمی‌توانستند به‌صورت هم‌زمان این کار را انجام دهند؛ بنابراین، به آن‌ها مدل زبانی تک‌سویه (Unidirectional Language Model) گفته می‌شد.

این در حالی است که مدل زبانی BERT در ساختار متنی می‌تواند قبل و بعد از واژه‌ را به‌طور هم‌زمان بررسی کند که به آن مدل زبانی دوسویه (Bidirectional Language Model) گفته می‌شود. این عمل در مدل زبانی دوسویه با تکنیکی به‌نام Masking انجام می‌شود. در بخش معینی از هر متن، BERT به‌طور تصادفی ۱۵ درصد از کلمات را مخفی و سپس سعی می‌کند باتوجه‌به مفهوم و معنا، کلمات مخفی‌شده را از باقی متن پیش‌بینی کند. چنین توانایی‌ای به BERT این امکان را می‌دهد تا پیش‌بینی‌های دقیق‌تری انجام دهد؛ زیرا دوبرابر بیشتر از آنچه تصورش را کنید، سرنخ دراختیار خواهد داشت. برای نمونه، در جمله‌ای چون «آن مرد برای خرید شیر به ...... رفت»، واژگانی که در آغاز و پایان جمله وجود دارند، حاوی سرنخ‌هایی برای کلمه‌ی صحیح جای‌ خالی هستند؛ یعنی سرنخ‌ها اشاره می‌کنند واژه‌ی مناسب جای‌ خالی باید نام مکانی باشد که می‌توان به آنجا رفت و شیر خرید. گفتنی است ترجمه‌ی جمله به‌دلیل ساختار متفاوت قرارگرفتن فعل و مفعول در فارسی به این شکل نوشته شده است و ترجمه‌ی واژه‌به‌واژه‌ی جمله‌ی مذکور در زبان انگلیسی به‌صورت «آن مرد به رفت ..... برای خرید شیر» است.

استفاده از تکنیک Masking یکی از مهم‌ترین نوآوری‌ها درپس پیشرفت‌های چشمگیر تکالیف زبان طبیعی بوده است؛ به‌طوری‌که حتی دلیل موفقیت سیستم هوش مصنوعی تولیدکننده‌ی متن لابراتور تحقیقاتی OpenAI به‌نام GPT-2 نیز در همین امر است که می‌تواند بدون انحراف معنایی متون بسیار قانع‌کننده و صحیحی تولید کند.

از زبانی انگلیسی به چینی و دوباره برعکس

هنگامی ‌ه پژوهشگران بایدو توسعه‌ی مدل زبانی خود را شروع کردند، قصد داشتند مدل زبانی خود را برپایه‌ی تکنیک Masking ایجاد کنند؛ اما متوجه شدند خودشان باید این تکنیک را متناسب با زبان چینی تغییر دهند.

در زبان انگلیسی، واژه به‌عنوان واحد معنایی عمل می‌کند؛ به‌طوری‌که اگر حتی واژه‌ای را کاملا از متن بیرون بکشیم، همچنان معنی‌دار است؛ درحالی‌که در زبان چینی این‌طور نیست. زبان چینی الفبا ندارد و به‌جای آن حاوی بیش از ۸۰ هزار نویسه است. زبان چینی کاملا نقاشی‌ای ‌است که به خط تبدیل شده، برای همین به زبان «اندیشه‌نگار» یا «مفهوم‌گرا» نیز معروف است. در زبان چینی، برخی نویسه‌های خاص مانند آتش (火, huŏ) و آب (水, shuĭ) و چوب (木, mù) معنای ذاتی و مستقل دارند؛ اما بیشتر نویسه‌ها تا زمانی‌که با دیگر نویسه‌ها ادغام و هم‌نشین نشوند، معنای ذاتی و مستقلی ندارند. برای نمونه، نویسه‌ی چینی 灵) líng) باتوجه‌به هم‌نشینی‌اش با نویسههای دیگر می‌تواند به‌معنای باهوش (机灵, jīlíng) یا روح (灵魂, línghún) باشد. حتی نویسههای موجود در اسامی خاص مانند بوستون (波士顿, bōshìdùn) یا ایالات متحده (美国, měiguó) نیز به همان معنایی نیستند که یک‌بار جداگانه استفاده شدند.

بنابراین، پژوهشگران مدل زبانی ERNIE را با نسخه‌ی جدیدی از تکنیک masking آموزش دادند تا بتواند رشته‌ای از نویسهها را به‌جای یک نویسه مخفی ‌کند. آن‌ها همچنین ERNIE را آموزش دادند بین رشته‌های معنادار و تصادفی تفاوت قائل شود تا بتواند ترکیب نویسه‌ی مناسب را براساس تکنیک Masking تشخیص دهد؛ درنتیجه، مدل زبانی ERNIE درک بیشتری از نحوه‌ی رمزگذاری اطلاعات در زبان چینی و پیش‌بینی بسیار دقیق‌تری در قطعات گمشده (جای‌ خالی در جملات) به‌دست آورد. چنین دستاوردی برای اپلیکیشن‌هایی در حوزه‌هایی مانند ترجمه و بازیابی اطلاعات از سند متنی مفید خواهد بود.

افزون‌براین، پژوهشگران به‌سرعت دریافتند دراصل این رویکرد برای زبان انگلیسی نیز عملکرد بسیار بهتری دارد؛ چراکه در زبان انگلیسی نیز مانند زبان چینی، اما به‌‌قطع نه به‌اندازه‌ی زبان چینی، مواردی وجود دارد که هم‌نشینی رشته‌ای (تعدادی) از واژگان باهم معنای متفاوت و جداگانه‌ای از معنای تک‌تک واژگان انتقال می‌دهند. برای نمونه، با درک معنای تک‌تک کلمات در اسامی خاصی چون Harry Potter (هری پاتر) و عبارات و اصطلاحاتی مانند chip off the old block (‌به مامان یا باباش رفته) نمی‌توان معنای اصلی را تجزیه‌و‌تحلیل کرد. بنابراین، برای جمله‌ی «هری پاتر مجموعه‌ای از رمان‌های سبک خیال‌پردازی و فانتزی است که توسط جی.کی. رولینگ یا نوشته شده است»، مدل زبانی BERT براساس تکنیک Masking، ممکن است آن را به‌ این صورت تحلیل کند: «[mask] پاتر مجموعه‌ای [mask] رمان‌های خیال‌پردازی و فانتزی [mask] توسط جی [mask] رولینگ». درحالی‌که مدل زبانی ERNIE بر اساس تکنیک Masking، این جمله را به‌ این صورت تحلیل می‌کند: «هری پاتر هست [mask] [mask] [mask] رمان‌های فانتزی توسط [mask] [mask] [mask]». بنابراین، مشخص است که ERNIE پیش‌بینی‌های قوی‌تری براساس معنا به‌جای استفاده از الگوهای آماری کلمات یاد گرفته است.

ایده‌های متنوع

آخرین نسخه‌ی مدل زبانی ERNIE از چندین تکنیک آموزش دیگر نیز بهره‌مند شده است. به‌عنوان مثال، ترتیب جملات و فواصل قرارگرفتن بین آن‌ها (یعنی جمله‌ی «الف» باتوجه‌به معنا بعد از چند جمله‌ی دیگر برای تکمیل معنای پاراگراف بعد از جمله‌ی «ب» باید آورده شود) را برای درک پیشرفت منطقی پاراگراف در نظر می‌گیرد. از همه‌ی این‌ها مهم‌تر، مدل زبانی ERNIE از روشی به‌نام آموزش مداوم بهره می‌برد که به آن امکان می‌دهد آموزش روی داده‌های جدید و تکالیف جدید زبانی را بدون فراموش‌کردن مواردی فراگیرد که قبلا آموخته است. این امر به ERNIE این امکان را می‌دهد تا در انجام طیف وسیعی از تکالیف زبانی با گذشت زمان و صرف حداقل مداخله‌های انسانی عملکرد بهتری داشته باشد.

هدف بایدو، غول موتور جست‌وجوی چینی، از ارتقای مدل زبانی ERNIE ارائه‌ی نتایج جست‌وجوی کاربردی‌تر به کاربران و حذف مطالب تکراری در فید خبرنامه‌ی خود و بهبود توانایی دستیار هوش مصنوعی‌اش، یعنی Xiao Du، در پاسخ‌گویی دقیق به درخواست‌ها است. همچنین، جدیدترین معماری مدل زبانی ERNIE در قالب مقاله‌ای در کنفرانس سال آینده‌ی انجمن پیشرفت‌های هوش مصنوعی ارائه خواهد شد. پژوهشگران امیدوار هستند همان‌گونه که تیمشان در ساخت مدل زبانی BERT گوگل موفق بوده، دیگران نیز از نتایج و دستاوردهای کار با مدل زبانی ERNIE بهره‌مند شوند.

هائو تیان، معمار اصلی تحقیقات بایدو گفت:

وقتی اولین‌بار این کار را شروع کردیم، به‌طور خاص فقط روی پیاده‌سازی نویسههای زبان چینی فکر می‌کردیم؛ اما به‌سرعت دریافتیم فراتر از آن نیز اجراشدنی است.

مقاله رو دوست داشتی؟

نظرت چیه؟

فاطمه سعادت پور

تبلیغات

داغ‌ترین مطالب روز

مقاله رو دوست داشتی؟

نظرت چیه؟

فاطمه سعادت پور

نظرات