هوش مصنوعی شناسایی دست خط GBoard اکنون ۴۰ درصد خطای کمتری دارد

یک‌شنبه ۱۹ اسفند ۱۳۹۷ - ۱۲:۳۰
مطالعه 4 دقیقه
در نسخه‌ی جدید صفحه‌کلید جی‌بورد گوگل، هوش مصنوعی مورد استفاده در این اپلیکیشن در تشخیص دست‌خط کاربر نسبت به قبل تا ۴۰ درصد خطای کم‌تری دارد.
تبلیغات

گوگل درحال ارتقای سیستم تشخیص دست‌خط در اپلیکیشن صفحه‌کلید جی‌بورد است. جی‌بورد هم‌اکنون برای دو سیستم‌عامل موبایلی آی‌اواس و اندروید ارائه شده و بیش از ۵۰۰ زبان دنیا را پشتیبانی می‌کند. حالا نسخه‌ی جدید این کیبورد با بهره بردن از هوش‌ مصنوعی سریع‌تر نسبت به قبل بین ۲۰ تا ۴۰ درصد خطای کم‌تری در تشخیص دست‌خط کاربر دارد. در نسخه‌های قبلی این صفحه‌کلید از مدل‌های یادگیری ماشینی برای تشخیص دست‌خط استفاده شده بود. این جزئیات توسط محققانی که در بخش هوش‌ مصنوعی گوگل کار می‌کنند، در قالب یک پست در بلاگ این شرکت شرح شده است.

ساندرو فوز و پِدرو گونتی از مهندسان ارشد نرم‌افزاری گوگل می‌گویند:

فرآیندهای موجود در یادگیری ماشینی باعث شده تا مدل‌های معماری و روش‌های آموزشی جدیدی در دسترس قرار گیرد و این مورد به ما امکان می‌دهد تا به‌جای استفاده از یک مدل که به‌عنوان ورودی کلی عمل می‌کند، در راه‌کارهای اولیه‌مان تجدیدنظر کنیم.در ابتدای سال جاری، ما مدل‌های جدید را برای همه‌ی زبان‌های مبتنی بر لاتین در اپلیکیشن جی‌بورد معرفی کردیم. 

همان‌طور که فوز و گونتی توضیح داده‌اند، اکثر سرویس‌های تشخیص دست‌خط از نقاط لمسی برای شناسایی و انجام عملیات روی کاراکترهای دست‌نویس‌شده استفاده می‌کنند. جی‌بورد ابتدا مختصات نقاط لمس‌شده را به حالت عادی درآورده تا اطمینان حاصل کند که این نقاط با نرخ نمونه‌سازی lojgt و دقت لازم روی دستگاه باقی می‌ماند و سپس آن‌ها را به یک توالی از منحی‌های مکعبی Bézier تبدیل می‌کند. Bézier منحنی‌های پارامتریکی هستند که استفاده از آن‌ها در گرافیک رایانه‌ای رایج است. به‌گفته‌ی فوز و گونتی، مزیت اصلی توالی‌های مذکور، کوچک‌تر بودن آن‌ها از توالی پایه‌ایِ نقاط ورودی است. درنهایت هر منحنی با یک (بیان متغیرها و ضرایب) تعریف چندجمله‌ای توسط نقاط شروع، نقاط پایان و نقاط کنترل نمایش داده می‌شود. به‌عنوان مثال کلمه‌ی «GO» شاید شامل ۱۸۶ نقطه باشد که با استفاده از توالی چهار منحنی (و دو نقطه کنترل) Bézier برای حرف "G" و نیز سه توالی منحنی برای حرف «O» نمایش داده می‌شود.

تشخیص دست خط در جی بورد

این توالی‌ها به‌عنوان ورودی به یک شبکه عصبی ارسال می‌شوند تا روش شناساسی کاراکترهای دست‌نویس را بیاموزد و به‌طور دقیق‌تر یک نسخه‌ی دوطرفه از شبکه‌های عصبی شبه تجربی (QRNN) و یک شبکه با قابلیت موازی‌سازی بهینه و بنابراین عملکرد خوب در پیش‌بینی، به‌دست خواهد آمد. مهم‌تر اینکه QRNN تعداد وزن‌ها (دوام ارتباطات بین توابع ریاضی یا گره‌ها) را نگه‌ می‌دارد و همین مورد باعث می‌شود تا شبکه به‌طور نسبی کوچک‌‌تر و حجم‌ فایل کاهش یابد.

اما مدل هوش مصنوعی چگونه می‌تواند منحنی‌ها را درک کند؟ با ایجاد یک ماتریکس از ستون‌ها و سطرها در جایی که هر ستون با یک منحنی ورودی مطابقت دارد و هر سطر نیز با یکی از حروف الفبا منطبق است. این خروجی شبکه با مدل زبان مبتنی بر کاراکتر ترکیب شده و دو نتیجه در پی خواهد داشت؛ نتیجه مثبت اینکه توالی مناسب کاراکترهای رایج در یک زبان ایجاد می‌شوند و نتیجه منفی اینکه یک‌سری توالی‌های غیررایج نیز ایجاد خواهد شد. توالی‌های به‌دست‌آمده از نقاط لمسی هم به‌طور جداگانه به یک ترکیب کوتاه‌ترِ مرتبط و نهایتا به یک منحنی تبدیل می‌شود. در پایان تشخیص‌دهنده‌ی مبتنی بر QRNN با دریافت توالی منحی‌ها، یکسری توالی از احتمالات کاراکترها به‌عنوان خروجی ارائه می‌کند.

سیستم جدید تشخیص دست‌خط کیبورد جی‌بورد گوگل یک شاهکار است که با تبدیل مدل‌های شناسایی (که در فرم‌ورک یادگیری ماشینی TensorFlow گوگل آموزش دیده) به مدل‌های سبک TensorFlow به‌دست آمده است. استفاده از نسخه‌ی لایت به‌جای نسخه‌ی کامل TensorFlow به تیم توسعه‌دهنده سیستم مذکور اجازه می‌دهد تا عملیات مورد نظر را در زمان کم‌تری اجرا کرده و علاوه‌براین میزان استفاده از حافظه را توسط جی‌بورد کاهش دهند. فوز و گونتی در بخش دیگری از پست بلاگی خود می‌گویند:

ما در تلاش هستیم تا شناسایی زبان‌های مبتنی بر لاتین را همواره بهبود دهیم. تیم تشخیص دست‌خط قبلا برای اضافه کردن مدل‌های تشخیص دست‌خط در همه‌ی زبان‌هایی که در کیبورد جی‌بورد پشتیبانی می‌کنیم، راه سختی را پیموده است.

نظر شما در مورد سیستم جدید تشخیص دست‌خط با استفاده از هوش مصنوعی چیست؟ لطفا دیدگاه خود را با زومیت و سایر کاربران به اشتراک بگذازید.

تبلیغات
داغ‌ترین مطالب روز

نظرات

تبلیغات