مدل یادگیری ماشینی فیسبوک توانایی مشاوره‌ در زمینه‌ مد و پوشش را دارد

جمعه 24 آبان 1398 - 21:30

مطالعه 5 دقیقه

تحقیقی که فیسبوک در کنفرانس بین‌المللی Computer Vision (بینایی رایانه‌ای) ارائه کرده نشان می‌دهد سیستم جدید شرکت مذکور با تکیه بر یادگیری ماشینی، توانایی مشاوره‌ی معتبر در زمینه‌ی مد را دارد.

تبلیغات

آخرین تحقیقی که از فیسبوک منتشر شده، نشان می‌دهد وظایفی که مدل‌های یادگیری ماشینی شرکت مذکور انجام می‌دهند شاید برای انسان‌ها نسبتا معمولی باشد، اما برای کامپیوترها هنوز هم به‌غایت دشوار است. این پروژه‌ها با هدف ناشناس‌کردن چهره‌ی افراد، ایجاد توانایی شبیه‌سازی اعمال دست در ماشین‌های مجازی و شاید پیچیده‌تر از همه، مشاوره‌ی معتبر در زمینه‌ی مد راه‌اندازی شده‌اند.

این تحقیقات اخیرا در میان ده‌ها مقاله‌ی دیگر از فیسبوک در کنفرانس بین‌المللی Computer Vision (بینایی رایانه‌ای) ارائه شد. شرکت یادشده سرمایه‌گذاری عظیمی را روی تحقیقات هوش مصنوعی، به‌ویژه بینایی رایانه‌ای انجام داده‌ است. بینایی رایانه‌ای علمی میان رشته‌های مختلف است که با چگونگی دستیابی کامپیوترها به سطحی بالا از درکِ عکس‌ها و ویدئوهای دیجیتالی سروکار دارد. به بیان ساده‌تر بینایی رایانه‌ای کمک می‌کند تا کامپیوترها تصاویر و ویدئوها را همانند انسان تجزیه‌و‌تحلیل کنند.

مقاله‌های مرتبط:

فیسبوک از یادگیری ماشین بدون نظارت برای ترجمه استفاد می‌کند

اولین گام فیس بوک در مقوله‌ی خواندن افکار بشری

این روزها کاربران تغییر چهره در ویدئوها و تصاویر متحرک را به واسطه‌ی فناوری دیپ‌فیک و دیگر برنامه‌های ناهنجار شاهد هستند. اما تیم فیسبوک تصمیم گرفته تا به‌صورت بالقوه‌ای نوع بشردوستانه‌تری از فناوری یادشده را توسعه دهد. دیپ‌فیک با استفاده از درک دقیقی از نشانه‌ها و ویژگی‌های چهره که از قبل تعبیه شده، عبارات و حرکات یک شخص را روی چهره‌ای کاملا متفاوت شبیه‌سازی می‌کند. تیم فیسبوک از همان نشانه‌ها و ویژگی‌ها استفاده می‌کند اما به‌جای شبیه‌سازی چهره‌ی افراد، از‌ المان‌های یادشده استفاده کرده و با ایجاد اندکی تغییر در چهره‌ی کاربران، تصاویر را برای موتورهای جست‌و‌جویی که براساس تشخیص چهره‌ی اشخاص کار می‌کنند، غیر قابل تشخیص می‌کند.

افرادی که می‌خواهند در ویدئوها حضور داشته باشند اما فارغ از هر دلیلی به‌صورت عمومی شناسایی نشوند، با کمک فناوری جدید فیسبوک می‌توانند بدون استفاده از ماسک یا گریم‌های سنگین با خیال راحت در ویدئوها ظاهر شوند. با این فناوری چهره‌ی کاربران در ویدئوها و تصاویر به‌دست آمده اندکی شبیه به خودشان است، با اینکه تفاوت که برخی جزئیات دستخوش تغییر می‌شود. برای مثال چشم‌‌ها اندکی گشادتر شده، دهان کوچک‌تر شده و پیشانی کوتاه‌تر می‌شود.

سیستمی که فیسبوک ساخته به‌نظر خوب کار می‌کند، با این حال پیش از آن‌که به‌عنوان یک محصول پا به عرصه بگزارد، نیاز به اندکی بهینه‌سازی دارد. اما به‌راحتی می‌توان تصور کرد که فناوری مذکور تا چه حدی توانایی مفید‌بودن را دارد. قابلیت یادشده برای اشخاصی که در معرضِ خطر مجازات توسط ستم‌گران سیاسی هستند یا بنا به ترجیحاتی که برای حفظ حریم خصوصی خود دارند نمی‌خواهند شناسایی شوند، سودمند خواهد بود.

در فضای مجازی شناسایی اشخاص تا حدودی می‌تواند دشوار باشد. قسمتی از این دشواری به دلیل فقدان گزینه‌ی جست‌و‌جو براساس نشانه‌های غیر کلامی است که به‌صورت روزمره در زندگی شاهدشان هستیم. قسمت دیگر از تحقیق فیسبوک مربوط به ضبط، دسته‌بندی و بازتولید این حرکاتِ غیر کلامی یا حداقل مربوط به حرکاتی است که افراد با دستانشان انجام می‌دهند. شاید فکر کردن به این موضوع اندکی خنده‌دار به‌نظر آید، اما واقعا داده‌های زیادی وجود ندارد که نشان دهد کاربران هنگام صحبت‌کردن، چگونه دستانشان را حرکت می‌دهند. بنابراین محققان دقیقا ۵۰ ساعت از مکالمه‌ی افرادی که به‌صورت دو به دو مکالمه‌ای معمولی می‌کردند را ضبط کردند. مکالمه‌ی افراد باید آن‌قدر عادی می‌بود که مناسب برای ابزارهای بالارده‌ی ضبط مکالمه باشد.

مکالمات نسبتا طبیعیِ مذکور که با حرکات دست و بدن همراه بود، توسط مدل یادگیری ماشینی به کار گرفته شد. مدل یادشده چگونگی معاشرت‌کردن را آموخت. برای مثال هنگامی که افراد در حال مکالمه از عبارت «در آن زمان» استفاده می‌کردند، آن‌ها به پشت سرشان اشاره می‌کردند یا هنگام به کار‌گیری عبارت «همه‌جا-در همه‌جا» آن‌ها با بالا بردن دستشان با ژستی خاص فراگیر بودن عبارت را تأیید می‌کردند.

سیستم جدید فیسبوک با نام ++Fashion با کتابخانه‌ی عظیمی از تصاویری مانند کلاه، دامن و روسری و قابلیت مُدپذیری در مقیاس ذهنی، می‌تواند با نگاه‌کردن به سوژه‌ای، پیشنهاداتی را در رابطه با تغییر پوشش ارائه دهد.

سؤال این است که قابلیت یادشده چه کاربردی دارد؟ شاید یکی از موارد استفاده‌ی آن ایجاد مکالمات به‌ظاهر طبیعی در محیط‌های مجازی باشد. اما این امکان نیز فراهم است آن دسته از تولیدکنندگان انیمیشن که دوست دارند حرکات کاراکترهایشان ریشه در زندگی واقعی داشته باشد، بدون اینکه خودشان مجبور به ثبت حرکات باشند، از حرکاتی که فیسبوک به‌واسطه‌ی برنامه‌ی خود ثبت کرده استفاده کنند. به‌نظر می‌رسد پایگاه داده‌ی فیسبوک از نظر مقیاس و جزئیات بسیار بزرگ‌تر از فناوری‌های موجود است، از این رو می‌توان گفت سیستم مذکور در نوع خود ارزش بالایی دارد.

سیستم دیگری که در این تحقیقات به آن اشاره شده و همانند دو مورد قبلی بی‌همتا است، ه البته کارایی کمتری دارد. سیستم سوم به کاربران کمک می‌کند تا نوع پوشش و استایلشان را بهتر کنند. اگر قرار بر این باشد که در آینده آینه‌های هوشمندی داشته باشیم، درست نیست که آن‌ها قادر به ارائه‌ی پیشنهاد‌ها برای کاربرانشان باشند؟

سیستم یادشده با نام ++Fashion با کتاب‌خانه‌ی عظیمی از تصاویری با برچسب‌هایی مانند کلاه، دامن و روسری که در خود جای داده و قابلیت مُدپذیری در مقیاس ذهنی، می‌تواند با نگاه‌کردن به استایلِ سوژه‌ای که ورودی آن بوده است، پیشنهاداتی را در رابطه با تغییر پوشش و استایل ارائه دهد. تغییراتی که ++Fashion پیشنهاد می‌دهد پیچیده و کلی نبوده و تنها شامل اعمالی چون گزاشتن پیراهن زیر شلوار یا حذف یک لایه از لباس‌ها است.

این فناوری به اندازه‌ی یک دستیار دیجیتال در زمینه‌ی مد کارایی ندارد، اما تحقیق مذکور نشان می‌دهد ++Fashion توانسته در همین ابتدای کار با ارائه‌ی پیشنهاداتی برای سوژه‌های مختلف، نظر افراد در دنیای واقعی را به خود جلب کرده و حتی ایده‌ی خوبی به‌نظر آید. اینکه برنامه‌ی مذکور چگونه تا این حد از مدپذیری را دارد نشان‌دهنده‌ی حیرت‌انگیز بودن ++Fashion است.

تحقیقات ICCV فیسبوک نشان می‌دهد که شرکت مذکور و محققان آن در جست‌وجوی پاسخ نسبتا همه‌جانبه‌ای برای این سؤال هستند که بینایی رایانه‌ای توانایی انجام چه کارهایی را دارد؟ اینکه بتوان چهره‌ها را در یک عکس سریع‌تر و دقیق‌تر شناسایی کرد، همیشه ویژگی مثبتی بوده و به‌درد‌بخور است، اما مشخصا جنبه‌های مبهم و غافل‌گیرکننده‌ی دیگری در زندگی دیجیتال وجود دارد که می‌توانند با ذره‌ای هوش بصری، بهبودهای چشم‌گیری را شاهد باشند.

مقاله رو دوست داشتی؟

نظرت چیه؟

بهروز ادراكى

نظرات