الگوریتم ردیابی دست گوگل؛ نویدبخش تشخیص زبان اشاره
با اینکه میلیونها نفر از زبان اشاره برای برقراری ارتباط استفاده میکنند، پژوهشهایی با هدف تشخیص حرکات پیچیدهی دست در این زبان و تبدیل آن به گفتار تابهامروز موفقیت چندانی را شاهد نبودهاند. در این میان، شاید پیشرفتهای اخیر آزمایشگاههای هوش مصنوعی گوگل درزمینهی ردیابی زمان واقعی حرکات دست، مقدمه همان دستاورد بزرگی باشد که مدتها است در انتظار آن هستیم.
این تکنیک جدید با بهکارگیری چند روش میانبر هوشمندانه و بازدهی روبهرشد سیستمهای مبتنیبر یادگیری ماشین، بهصورت درلحظه (real-time) نقشهای از دست و تمام انگشتان آن را تنها با استفاده از گوشی هوشمند و دوربین آن ترسیم میکند.
در وبلاگ گوگل، مطلبی بهقلم والنتین بازارفسکی (Valentin Bazarevsky) و فن ژانگ (Fan Zhang)، پژوهشگران این پروژه، آمده است:
درحالیکه رویکردهای پژوهشی حاضر برای نتیجهگیری نهایی عمدتا نیازمند بهکارگیری سیستمهای رومیزی قدرتمند هستند، در این روش به عملکردی درلحظه صرفا با استفاده از گوشی هوشمند دست یافتهایم که حتی در مقیاس وسیعتر، میتواند برای تشخیص حرکات چند دست نیز بهکار رود. درک حرکات دست بهصورت درلحظه، قطعا از موضوعات چالشبرانگیز در حوزهی بینایی کامپیوتر است؛ چراکه هنگام حرکت، انگشتان اغلب کف دست را میپوشانند یا دستها روی یکدیگر قرار میگیرند و حرکات دست فاقد الگویی با کنتراست زیاد است.
علاوهبراین، ازآنجاکه حرکات دست اغلب سریع و جزئی هستند، تشخیص صحیح آنها کار آسانی نیست و سرعت زیاد موردنیاز در اپلیکیشن زمان واقعی، تشخیص صحیح را بهمراتب دشوارتر نیز خواهد کرد. حتی در سیستمهای چنددوربینهی مجهز به حسگرهای تشخیص عمق مشابه آنچه در پروژهی SignAll (پروژهای با هدف تشخیص زبان اشاره با بهرهگیری از هوش مصنوعی و بینایی کامپیوتر) استفاده شده است، ردگیری تمامی حرکات دست امکانپذیر نیست؛ هرچند این دشواریها باعث توقف پروژه نشده است.
بخشی از هدف پژوهشگران گوگل در این پروژه، کاستن از حجم دادههایی است که الگوریتم باید برای بررسی گزینش کند؛ چراکه دادهی کمتر بهمعنای پردازش کمتر و بهتبع آن، نتیجهگیری سریعتر است. بهعنوان مثال، آنها با صرفنظر از ایدهی الزام سیستم به تشخیص ابعاد و موقعیت کل دست، تنها کف دست را ملاک قرار دادند. بدینترتیب، علاوهبر آنکه ردیابی کف دست بهدلیل شکل ثابت و مشخصش چندان دشوار نخواهد بود، نگرانیای دربارهی ناتوانی سیستم در بررسی و پردازش تصاویر مستطیلشکل در ابعاد مختلف نیز وجود نخواهد داشت.
برای آموزشدادن سیستم یادگیری ماشینی، پژوهشگران ۲۱ نقطه را بهصورت دستی به حدود ۳۰ هزار تصویر مختلف از دست اضافه کردند
طبیعتا وقتی کف دست تشخیص داده شد، انگشتانی که از آن خارج شدهاند میتوانند بهصورت جداگانه تجزیهوتحلیل شوند. الگوریتمی مجزا محل قرارگیری بندها و سر انگشتان دست را تشخیص میدهد و در هر تصویر، مختصاتی به این ۲۱ نقطهی تخمینی نسبت میدهد. این مختصات فاصلهی تقریبی نقاط از محل عکسبرداری را نیز شامل میشود (الگوریتم با توجه به اندازه و زاویهی کف دست و دادههای دیگر، این فاصله را تخمین میزند).
در مرحلهی تشخیص انگشتان دست و بهمنظور جمعآوری داده برای فراگیری سیستم یادگیری ماشین، پژوهشگران ناچار بودند در ابتدا ۲۱ نقطه مذکور را بهصورت دستی به حدود ۳۰ هزار تصویر گرفتهشده از حالات مختلف دست در نورهای متفاوت اضافه کنند. مثل همیشه، هوش مصنوعی فقط با تکیه بر سختکوشی بشر قادر به پیشروی است.
وقتی حالت قرارگیری دست مشخص شد، با انبوهی از حالات شناختهشده در زبان اشاره مقایسه میشود و نتیجه، الگوریتم ردیابی دست سریع و دقیقی خواهد بود که نه الزاما روی کامپیوتر ارتقایافته یا سیستم ابری که در عمل کامپیوتر ارتقایافته شخص دیگری است؛ بلکه روی گوشی هوشمند معمولی هم اجراشدنی است. این اپلیکیشن تماما در فریمورک مدیاپایپ، فریمورک یادگیری ماشین با قابلیت ساخت اپلیکیشنهای چندسکویی (Cross Platform) با محوریت دادههای ویدئویی و صوتی، اجرا میشود.
تشخیص درلحظهی (real-time) دست در اپلیکیشن موبایل طراحیشده با استفاده از فریمورک مدیاپایپ. الگوریتم ارائهشده بهکمک یادگیری ماشین، ۲۱ نقطهی سهبعدی را در هر فریم تشخیص میدهد. بُعد سوم یا عمق نقاط (فاصلهی نقاط از دوربین)، بهصورت خاکستریمقیاس (grayscale) در تصویر مشاهده میشود. با نزدیکشدن نقاط به دوربین، رنگ آنها به سفید و با دورشدن از دوربین به سیاه متمایل میشود.
خوشبختانه دیگر پژوهشگران نیز قادر خواهند بود از نتایج این تحقیقات استفاده کنند و سیستمهای موجود را ارتقا بخشند که شاید برای اجرای روشهای دیگر تشخیص دست، به سختافزارهای قدرتمندی نیاز داشته باشند. بااینحال، تا تشخیص واقعی زبان اشاره که علاوهبر هر دو دست، از حالات چهره نیز برای برقراری ارتباط بهره میگیرد، راهی طولانی در پیش داریم. ازآنجاکه نتایج این تحقیقات تابهحال در هیچیک از محصولات گوگل استفاده نشده، امکان دسترسی به منبع پروژه در گیتهاب برای عموم فراهم است:
امیدواریم ارائه این عملکرد تشخیص دست به عموم توسعهدهندگان و محققان، مقدمهای برای استفادهی خلاقانه و یافتن کاربردهای جدید و هیجانانگیز برای آن باشد و پیدایش مسیرهای پژوهشی نوینی را سبب شود.
نظرات