شبکه‌ی عصبی گوگل، قادر به خواندن پلاک منازل از روی تصاویر ثبت شده توسط Street View است

شنبه 21 دی 1392 - 23:13

مطالعه 3 دقیقه

مطمئنا شما نیز به‌عنوان یکی از کاربران اینترنت، تا حال هزاران بار مجبور به وارد کردن کپچا (کدهایی متشکل از حروف و اعداد برای تشخیص کاربر انسانی از روبات‌ها و در واقع برنامه‌های‌هوشمند است) شده‌اید. گوگل برای کدهای خود، از تصاویری استفاده می‌کند که در نمونه آنرا در ادامه مطلب مشاهده خواهد کرد ملاحظه می‌کنید؛ اما آیا گوگل فقط برای استفاده از کپچا از این تصاویر بهره می‌برد؟

تبلیغات

پاسخ این سوال خیر است، چراکه گوگل در حال توسعه‌ی مکانیزمی است تا با استفاده از آن، پلاک خانه‌ها در StreetView و همچنین متون کتب در پروژه‌ی Google Books را بصورت هوشمند درک کند. براساس اسناد منتشر شده، گوگل موفق به توسعه و آموزش یک شبکه‌ی عصبی شده است که قادر است تا شماره‌ی پلاک میلیون‌ها منزل را از روی تصویر، بدون دخالت عامل انسانی بخواند.

شبکه‌های عصبی نوعی از شبکه‌های هوشمند هستند که در آن از الگوی ساخت و تصمیم‌گیری مغز انسان الهام گرفته شده است؛ در واقع می‌توان این فناوری را شبیه‌سازی مغز انسان نامید که سعی دارد خاصیت یادگیری و تصمیم‌گیری موازی را در سیستم‌های رایانه‌ای هوشمند به کارگیرد. این سیستم با پردازش تصاویر ضبط شده توسط خودروهای StreetView کار کرده و روش کار آن بسیار شبیه به مغز انسان است. این روش به‌جای تقسیم‌بندی تصویر به قطعات مختلف و شناخت اعداد، با بررسی تصویر در حالت کلی، اعداد را شناسایی می‌کند.

زمانی که شما در حال جست‌جوی آدرسی در گوگل هستید، انتظار دارید تا آدرس ساختمان مورد نظر به‌درستی برای شما نمایش داده شود. شاید با نمایش محدوده‌ی آدرس مورد نظر، در مکان‌هایی که پلاک‌ها به‌ترتیب توزیع شده‌اند، بتوان مکان مورد نظر را براحتی یافت؛ اما درصورتی که پلاک‌ها به‌ترتیب نباشند، کار سخت خواهد شد، از این‌رو گوگل تصمیم به توسعه‌ی این سیستم گرفته است که با استفاده از آن می‌توان پلاک منازل را نیز بصورت هوشمند ثبت کرد که منجر به ارائه‌ی آدرس دقیق می‌شود.

برای آموزش این سیستم، گوگل از اطلاعات موجود برای پلاک‌های منازلی که در پروژه‌ی StreetView گوگل ثبت شده، استفاده کرده است. این اطلاعات دیتاستی را که شامل 200,000 آدرس است، تشکیل داده است. تصاویر حاصل از این آدرس‌ها شامل 600,000 قطعه عکس از پلاک خانه‌ها شده که برای آموزش شبکه‌ی عصبی مورد نظر به کار گرفته شده است.

گوگل برای تسهیل خواندن تصاویر توسط شبکه‌ی عصبی مورد نظر، محدودیت‌ها یا به‌بیان بهتر قوانینی را برای تصاویر نمایش داده شده به این سیستم، وضع کرده است. تصاویر موردنظر باید بصورت خودکار شناسایی شده و بخش مربوط به اعداد به شکلی باشد که یک سوم عرض کل تصویر را از آن خود کند. همچنین اعداد خوانده شده توسط سیستم باید حداکثر پنج رقم باشد که برای بسیاری از مناطق کاربردی است.

صحت خواندن اطلاعات و شماره‌ها از روی تصاویر ذخیره شده توسط نیروس انسانی، 98 درصد است که گوگل نیز این مقدار را برای آستانه‌ی کارایی شبکه‌ی عصبی در نظر گرفته است. این عدد به معنی 98 درصد از کل تصاویر موجود نیست نخواهد بود؛ بلکه منظور 98 درصد از کل تصاویری است که حائز شرایط خوانده شدن توسط شبکه‌ی عصبی باشند. براساس ادعای گوگل، اطلاعات مربوط به 100 میلیون خیابان توسط این سیستم خوانده شده است.

به‌واقع این سیستم، بخشی از کار را که برعهده‌ی نیروی انسانی بوده است کاهش داده؛ اما هنوز تعداد بسیار زیادی از تصاویر وجود دارند که باید توسط انسان‌ها مورد برررسی قرار گیرند. محققان گوگل امیدوارند تا با توسعه‌ هرچه بیشتر این سیستم، شبکه‌ی عصبی آن‌ها قادر به خواندن اعداد و شماره‌تلفن‌های روی بیلبوردها نیز باشد.

مقاله رو دوست داشتی؟

نظرت چیه؟

حسین خلیلی صفا

نظرات