طراحی ماشین‌هایی با توانایی دید ماشینی در MIT برای شناسایی مستقل اشیاء

محققان MIT موفق به تولید سیستم دید ماشینی شده‌اند که می‌تواند اشیاء را شناسایی کرده و با آن‌ها تعامل داشته باشد.

شبکه‌ی متراکم اشیاء (Dense Object Nets) که به‌اختصار DON نامیده می‌شود، روشی نوین در زمینه‌ی دید ماشینی است. شبکه‌ی متراکم اشیاء در آزمایشگاه علوم رایانه و هوش مصنوعی انستیتوی فناوری ماساچوست (MIT) توسعه داده شده است. این شبکه، نقشه‌ای بصری را تشکیل می‌دهد که در عمل مجموعه‌ای از نقاط بصری است و به‌صورت چندین مختصات هماهنگ شده‌اند.

این سیستم، چندین مختصات منفرد را با یکدیگر هماهنگ می‌کند تا مجموعه‌ای بزرگتر از مختصات‌ها را ایجاد کند. چنین کاری شبیه به چسباندن چندین تصویر به‌یکدیگر برای ایجاد یک تصویر پانوراما است. این کار به شبکه‌ی متراکم اشیاء اجازه می‌دهد تا درک بهتر و آگاهانه‌تری از شکلِ اشیاء و کارکرد آن‌ها در محیط اطراف داشته باشد.

دید ماشینی / Machine Vision

لوکاس مانوئلی، دانشجوی دکترا و نویسنده‌ی مقاله‌ی مربوط به این پروژه می‌گوید:

در بالاترین و ساده‌ترین سطح، سیستم‌های دید رایانه‌ای صرفا اشیاء را شناسایی می‌کنند؛ اما در سطحی ثانویه و ظریف‌تر، دید رایانه‌ای برچسبی را به هر پیکسل الحاق می‌کند. بنابراین [رایانه] می‌تواند مشخص کند که تمام پیکسل‌ها بخشی از یک انسان، جاده یا پیاده‌رو هستند. همین دو سطح چیزی است که توسط بسیاری از سیستم‌های رانندگی خودکار مورد استفاده قرار می‌گیرد.

اما اگر واقعا در تلاش هستید تا به‌شکلی خاص (همچون برداشتن یک شئ به شکلی خاص یا برداشتن یک ماگ) با دید ماشینی تعامل داشته باشید، در این حالت داشتن چهارچوبی برای نشانه‌گذاری اشیاء یا ارتباط دادن پیکسل‌ها به ماگ کافی نخواهد بود. کار سیستم ما این است که به‌سطح ظریف‌تری از جرئیات اشیاء وارد می‌شود. اطلاعات [مورد استفاده در این سیستم] از آن دسته اطلاعاتی هستند که برای انجام کنترل‌های پیشرفته‌تر موردنیاز هستند.

شبکه‌ی متراکم اشیاء به ربات‌ها اجازه می‌دهد تا یک فنجان قهوه را پیدا کنند؛ خود را در جهت مناسب برای برداشتن فنجان قرار دهند و نسبت به این مسئله آگاه باشند که برای جلوگیری از ریخته‌شدن محتویات فنجان، قسمت پایینی آن باید همچنان رو به پایین بماند. علاوه‌بر این، این شبکه به ربات‌ها اجازه می‌دهد تا شئ خاصی را از میان مجموعه‌ای از اشیاء انتخاب کنند.

مانوئلی در مقاله‌ی خود می‌نویسد:

بسیاری از روش‌های کنترل [ربات‌ها] نمی‌توانند از زوایای مختلف بخش‌های خاصی از یک شئ را شناسایی کنند. برای مثال، الگوریتم‌های فعلی نمی‌توانند از دسته‌ی فنجان برای گرفتن‌ آن استفاده کنند؛ به‌ویژه اگر فنجان در جهت خاصی همچون معکوس یا به پهلو قرار گرفته باشد.

در این سیستم از حسگرهایی استفاده می‌شود که علاوه‌بر طیف نوری قرمز، سبز و آبی، عمق را نیز اندازه‌گیری می‌کنند. نکته‌ی جذاب‌تر این است که این سیستم می‌تواند به آموزش خود بپردازد. برای آموزش هوش مصنوعی در شبکه‌ی متراکم اشیاء نیازی نیست تا سیستم توسط صدها‌هزار تصویر از یک شئ تغذیه شود.

دید ماشینی / Machine Vision

اگر می‌خواهید این سیستم یک چکمه‌ی قهوه‌ای رنگ را شناسایی کند، کافی است برای مدتی چکمه‌ی قهوه‌ای و ربات را در یک اتاق قرار دهید. این سیستم به‌سادگی محل چکمه‌ی قهوه‌ای را مشخص کرده و تصاویرِ مرجع آن را ثبت می‌کند؛ از این تصاویر هم برای تولید مختصات مرجع استفاده می‌شود. پس از آن، یادگیری به‌صورت خودکار انجام می‌شود؛ علاوه‌بر این، فرایند یادگیری کمتر از یک ساعت زمان نیاز دارد.

مانوئلی می‌نویسد:

ربات‌های موجود در کارخانه‌ها برای اینکه به‌شکلی قابل‌اطمینان کار کنند، نیازمند اجزای تغذیه‌کننده‌ی پیچیده‌ای هستند که برای تغذیه‌ی قطعات مورد استفاده قرار می‌گیرند؛ اما جای چنین سیستمی که بتواند موقعیت فضایی اشیاء را تشخیص دهد، از آن‌ها تصویر تهیه کند و آن‌ها را برداشته و تنظیم کند در کارخانه‌ها خالی است.

البته این فناوری در مراحل اولیه‌ی توسعه است و نمی‌توانیم به این زودی‌ها منتظر ربات‌های خدمت‌کاری باشیم که می‌توانند ماشین‌ظرفشویی را برایمان خالی کنند. اما مانوئلی امیدوار است که با بهبود بینایی و توانایی شناسایی مکانی این ربات‌ها، در نهایت آن‌ها به عضوی از خانه‌ها و انبارها تبدیل شوند.

منبع engadget

از سراسر وب

  دیدگاه
کاراکتر باقی مانده

بیشتر بخوانید