گوگل دیتاست آموزش هوش مصنوعی با ۵ میلیون عکس منظره عرضه کرد

گوگل علاوه‌بر تحقیقات در حوزه‌ی هوش مصنوعی، ابزارهای مورد نیاز این صنعت همچون دیتاست‌‌ها را نیز برای علاقه‌مندان آماده‌سازی و ارائه می‌کند.

طراحی سیستم‌های هوش مصنوعی که توانایی تشخیص دقیق منظره‌ها از یکدیگر و شناسایی منظره‌ی مشابه در عکس‌های متعدد را داشته باشند، همیشه موضوع مهمی در زیرمجموعه‌ی تحقیقات هوش مصنوعی گوگل بوده است. چنین سیستم‌هایی به‌عنوان مثال می‌توانند آبشار نیاگارا را از آبشارهای عادی دیگر تشخیص دهند یا با دیدن عکس یک منظره در تصویری دیگر، یکسان بودن آن‌ها را بیان کنند.

غول موتور جست‌وجو سال گذشته Google-Landmarks را ارائه کرد؛ مجموعه‌ای از داده‌‌ی منظره‌ها که گوگل ادعای بزرگ‌ترین مجموعه‌ی جهان را روی آن داشت. به‌علاوه آن‌ها ۲ مسابقه به نام‌های Landmark Recognition 2018 و Landmark Retrieval 2018 هم برگزار کردند که بیش از ۵۰۰ محقق یادگیری ماشین در آن‌ها حضور یافتند.

گوگل اکنون در مسیر توسعه‌ی مدل‌های پیچیده‌تر بینایی کامپیوتری در حوزه‌ی تشخیص منظره‌ها، نسخه‌ی جدیدی از دیتاست مناظر را عرضه کرد. نسخه‌ی جدید که به‌نام Google-Landmarks-v2 عرضه شد، دوبرابر تصاویر بیشتر و هفت برابر مناظر بیشتر را در خود جای داده است. به‌علاوه، مسابقات یادگیری ماشین نیز در جامعه‌ی مجازی Kaggle گوگل اجرا شدند. درکنار این موارد، کد منبع و مدل فریمورک Detect-to-Retrieve هم ارائه شد که برای شناسایی منطقه‌ای تصاویر کاربرد دارد.

بینجی کائو و توبیاس ویاند، مهندسان نرم‌افزار هوش مصنوعی گوگل درباره‌ی ابزارهای جدید گفتند:

هر دو فرایند شناسایی تصویر و تشخیص شباهت‌ها نیازمند دیتاستی بسیار عظیم خواهد بود که هم تعداد عکس‌ها و هم تنوع منظره‌ها در آن‌ها بالا باشد. ما امیدوار هستیم که این دیتاست به پیشرفت فناوری‌های موجود در شناسایی تصاویر و تشخیص شباهت‌ها منجر شود.

دیتاست منظره

پراکندگی جغرافیایی مناظر موجود در دیتاست Landmark-V2

دیتاست‌های عظیم به توسعه‌ی بهتر یادگیری ماشین کمک می‌کنند

طبق ادعاهای مهندسان گوگل، Google Landmark V2 بیش از ۵ میلیون عکس از ۲۰۰ هزار منظره‌ی گوناگون دارد که از عکاسان سرتاسر جهان گردآوری شده است. عکاس‌های مورد نظر، عکس‌های خود را برچسب‌گذاری کرده‌اند. درنتیجه عکس‌ها شامل برچسب‌هایی همچون برج الخلیفه، پل گلدن گیت، برج پیزا و دیگر مناظر مشهور جهان بودند. محققان گوگل پس از دریافت عکس‌های برچسب‌گذاری شده، آن‌ها را با عکس‌های تاریخی و کمترشناخته‌شده از Wikimedia Commons تکمیل کردند. مخزن مذکور به بنیاد ویکی‌مدیا تعلق دارد و به‌عنوان مخزنی آنلاین برای عکس، صوت و هر نوع محتوای رسانه‌ای رایگان محسوب می‌شود.

مهندسان گوگل درباره‌ی فریمورک Detect-to-Retrieve هم توضیحاتی ارائه کردند. مدل منتشرشده که با استفاده از مجموعه‌ای ۸۰ هزار عددی از دیتاست اصلی آموزش داده شد، قابلیت ترسیم جعبه‌هایی پیرامون مناظر و موضوعات مورد نظر را ارائه می‌کند. چنین ابزاری، اهمیت مناطق چارچوب‌بندی‌شده را در بررسی یادگیری ماشین افزایش می‌دهد که منجر به افزایش دقت می‌شود.

شرکت در هر دو رقابت گوگل در حوزه‌ی یادگیری ماشین برای عموم آزاد است. مسابقه‌ی Landmark Recognition 2019 با هدف طراحی مدل‌های هوش مصنوعی تشخیص‌دهنده‌ی مناظر اجرا می‌شود. هدف مسابقه‌ی Landmark Retrieval 2019 نیز استفاده از سیستم هوش مصنوی برای پیدا کردن تصاویر یک منظره‌ی خاص بیان شد. مجموع جوایز مسابقات به ۵۰ هزار دلار می‌رسد. به‌علاوه برنده‌ها برای ارائه‌ی روش‌های خود به کارگاه Second Landmark Recognition Workshop دعوت می‌شوند که در حاشیه‌ی کنفرانس بینایی کامپیوتری و تشخیص الگوی ۲۰۱۹ در لانگ بیچ کالیفرنیا برگزار خواهد شد.

منبع venturebeat

از سراسر وب

  دیدگاه
کاراکتر باقی مانده
تبلیغات

بیشتر بخوانید