پلتفرم Maxine؛ راه جدید انویدیا برای ایجاد تغییر در تماس‌های ویدئویی

یک‌شنبه ۲ آذر ۱۳۹۹ - ۲۲:۰۰
مطالعه 10 دقیقه
انویدیا (Nvidia) سعی می‌کند با پلتفرم جدید Maxine، روش‌های جدیدی برای ایجاد تغییر در تماس‌های ویدئویی به‌وجود آورد.
تبلیغات

ماه گذشته، انویدیا پلتفرم جدیدی با نام Maxine معرفی کرد که از هوش مصنوعی (AI) برای افزایش کارایی نرم‌افزارهای ویدئوکنفرانس استفاده می‌کند. این نرم‌افزار با ایجاد شبکه‌ی عصبی فشرده سعی می‌کند تصویری فشرده از چهره‌ی افراد ایجاد کند. این تصویر می‌تواند ازطریق شبکه ارسال شود؛ یعنی به جایی که شبکه‌ی عصبی دوم تصویر اصلی را همراه تغییرات مفید بازسازی می‌کند.

انویدیا معتقد است استفاده از این روش می‌تواند در‌مقایسه‌با تکنیک‌های متداول فشرده‌سازی، نیاز به پهنای باند نرم‌افزارهای کنفرانس ویدئویی را حداکثر ۱۰ برابر کاهش و روش نمایش چهره‌ی افراد را هم تغییر دهد. به‌عنوان مثال، اگر به‌نظر برسد فردی به‌دلیل موقعیت دوربین خود در خارج از مرکز آن قرار دارد، نرم‌افزار می‌تواند صورت او را بچرخاند تا مستقیما مشاهده‌شدنی باشد. این پایان کار نیست و نرم‌افزار می‌تواند چهره‌ی واقعی کاربر را با آواتار متحرک هم جایگزین کند.

پلتفرم Maxine را می‌توان کیت توسعه‌ی نرم‌افزار توصیف کرد و آن را کالای مصرفی نباید به‌حساب آورد. انویدیا امیدوار است توسعه‌دهندگان نرم‌افزارهای شخص ثالث بتوانند از Maxine برای بهبود نرم‌افزارهای کنفرانس ویدئویی استفاده کنند. گفتنی است نرم‌افزار با محدودیت مهمی همراه است. برای مثال، دستگاه دریافت‌کننده‌ی جریان ویدئویی به پردازنده‌ی گرافیکی انویدیا با فناوری هسته تنسور (Tensor) احتیاج دارد. انویدیا به‌منظور پشتیبانی از دستگاه‌های فاقد کارت گرافیک مناسب توصیه می‌کند فریم‌های ویدئویی در فضای ابری تولید شوند؛ البته عملکرد مثبت و کامل این روش را هم نمی‌توان تضمین کرد.

اگر بخواهیم از هزینه‌ی مربوط به Maxine صرف‌نظر کنیم، به‌نظر می‌رسد این پلتفرم در آینده برای سرویس‌های پخش ویدئو ارزشمند خواهد بود. در مدت زمان نه‌چندان دور، بیشتر دستگاه‌های محاسباتی به قدرتی خواهند رسید که می‌توانند با استفاده از شبکه‌های عصبی Maxine و سایر پلتفرم‌های مشابه، در زمان واقعی محتواهای ویدئویی تولید کنند.

رقابت شبکه‌های عصبی

رقابت شبکه‌های عصبی

پلتفرم Maxine براساس تکنیک یادگیری ماشین ساخته شده است که اصطلاحا شبکه‌های مولد تخاصمی (Generative Adversarial Network) نامیده می‌شود. شبکه‌های مولد تخاصمی شبکه‌ای عصبی به‌حساب می‌آید و درحقیقت توابع پیچیده ریاضی است که ورودی‌های عددی را دریافت و خروجی‌های عددی را تولید می‌کند. معمولا ورودی شبکه عصبی در برنامه‌های بصری نمایش پیکسل‌به‌پیکسل تصویر است. به‌عنوان مثال، یکی از نمونه‌های مشهور این شبکه‌های عصبی سیستمی بود که در آن، از تصاویر به‌عنوان ورودی‌ها استفاده شد و شبکه تصویر خروجی را با کنارگذاشتن تعداد بسیاری از دسته‌ها، فقط به هزار دسته ازجمله سگ‌هایی با نژاد دالمیشن و قارچ‌ها محدود کرد.

شبکه‌های عصبی هزاران و گاه میلیون‌ها پارامتر تنظیم‌شدنی دارند. جالب است بدانید این شبکه با ارزیابی عملکرد خود دربرابر داده‌های دنیای واقعی آموزش می‌بیند. به‌عنوان مثال، این شبکه یک ورودی از دنیای واقعی (همانند تصویر سگ) را نمایش می‌دهد که طبقه‌بندی صحیح آن برای نرم‌افزار آموزش شناخته شده است. سپس نرم‌افزار آموزشی از تکنیکی با نام Back-Propagation برای بهینه‌سازی پارامترهای شبکه استفاده خواهد کرد. مقادیری که شبکه را به‌سوی پاسخ صحیح هدایت کرده‌اند، ارتقا داده خواهند شد و مقادیری که به دستیابی پاسخ اشتباه کمک کرده‌اند، مجددا بازخوانی می‌شوند. پس از تکرار این فرایند روی هزاران یا میلیون‌ها نمونه، امکان دارد شبکه برای نمونه‌های آموزش‌دیده کاملا کارآمد باشد.

نرم‌افزار آموزش باید پاسخ صحیح را برای هر ورودی بداند؛ به‌همین‌دلیل، پروژه‌های کلاسیک یادگیری ماشین معمولا مردم را وادار می‌کردند تا هزاران مثال را به‌صورت دستی برچسب‌گذاری کنند. در‌صورتی‌که روشی برای تولید خودکار داده‌های آموزشی وجود داشته باشد، می‌توان فرایند آموزش را تا حد زیادی سریع‌تر کرد. شبکه‌ی مولد تخاصمی (GAN) را می‌توان روش هوشمندانه‌ی آموزش شبکه‌ی عصبی آن هم بدون نیاز به انسان برای برچسب‌گذاری دانست.

همان‌طور‌که از نام این روش هم برمی‌آید، GAN در‌حقیقت دو شبکه است که با یکدیگر در حال رقابت هستند. شبکه‌ی اول را باید مولدی دانست که داده‌های تصادفی را به‌عنوان ورودی دریافت و سعی می‌کند تصویری واقع‌گرایانه ایجاد کند. شبکه‌ی دوم را می‌توان تفکیک‌کننده‌ای دانست که از یک تصویر استفاده و سعی می‌کند واقعی یا جعلی بودن تصویر ایجادشده‌ی شبکه اول را تشخیص دهد. هر دو شبکه به‌صورت هم‌زمان با برنامه‌ی آموزشی اجرا و نتیجه‌ی هر شبکه برای آموزش شبکه‌ی دیگر استفاده می‌شود:

  • از پاسخ‌های تفکیک‌کننده برای آموزش تولیدکننده استفاده می‌شود. هنگامی‌که تفکیک‌کننده تصاویر ایجاد‌شده‌ی تولیدکننده را به‌اشتباه طبقه‌بندی کند، بدان‌معنا است که کار تولیدکننده در ایجاد تصاویر واقع‌گرایانه رضایت‌بخش بوده است؛ بنابراین، پارامترهایی تقویت خواهند شد که به نتیجه ختم می‌شوند. همچنین، اگر تفکیک‌کننده تصویری را به‌عنوان تصویر جعلی شناسایی کند، نقصی برای تولیدکننده به‌حساب می‌آید.
  • در همین حال، نرم‌افزار آموزشی از میان تصاویر واقعی یا تصاویر تولیدی یکی را تصادفی انتخاب خواهد کرد. در‌صورتی‌که تفکیک‌کننده درست تشخیص دهد، موفقیت تلقی می‌شود و پارامترهای شبکه‌ی تفکیک‌کننده برای نمایش آن به‌روزرسانی خواهند شد.

در شروع آموزش، می‌توان عملکرد هر دو شبکه را نامطلوب توصیف کرد؛ اما پیشرفت با گذشت زمان رقم خواهد خورد. همان‌طورکه کیفیت تصاویر تولیدکننده بهبود خواهد یافت، فرایند تفکیک‌کننده به‌منظور شناسایی تصاویر جعلی هم پیچیده‌تر می‌شود. درحقیقت، هرچه تفکیک‌کننده حساس‌تر شود، شبکه‌ی مولد آموزش‌های لازم را برای ایجاد تصاویر واقعی‌تر دریافت می‌کند و نتایج به‌دست‌آمده می‌تواند چشمگیر باشد. وب‌سایت ThisPersonDoesNotExist.com دقیقا همان کاری را انجام می‌دهد که درباره‌اش در حال بحث هستیم. این وب‌سایت تصاویر واقع‌گرایانه‌ای از انسان‌ها ایجاد می‌کند که وجود ندارند.

این وب‌سایت با شبکه‌ی عصبی مولدی به‌نام StyleGAN ساخته شده و جالب آنکه محققان انویدیا آن را راه‌اندازی کرده‌اند. در دهه‌ی گذشته، از‌آنجاکه کارت گرافیک‌های انویدیا به‌ یکی از پردازنده‌های محبوب برای انجام محاسبه‌های شبکه عصبی تبدیل شده‌اند، این شرکت سرمایه‌گذاری هنگفتی هم برای تحقیقات دانشگاهی در زمینه‌ی تکنیک‌ها و توسعه‌ی شبکه عصبی کرد.

نخستین شبکه‌های مولد تخاصمی فقط تلاش کردند تصاویر تصادفی واقع‌گرایانه را در دسته‌ای گسترده همانند چهره‌های انسانی تولید کنند. این تصاویر به‌عنوان شبکه‌های مولد تخاصمی بدون قیدو‌شرط شناخته می‌شوند. به‌تازگی، محققان شبکه‌هایی تولید کرده‌اند که تصویر یا سایر داده‌ها را به‌عنوان ورودی دریافت و درنهایت تلاش خواهند کرد تصویر خروجی مرتبط را تولید کنند.

گاهی وقت‌ها، الگوریتم آموزش اطلاعات ورودی یکسانی را به تولیدکننده و تفکیک‌کننده ارائه می‌دهند. در سایر مواقع، عمکرد تلفات تولیدکننده هم ترکیبی از خروجی تفکیک‌کننده با برخی از معیارهای دیگر است که خروجی متناسب با داده‌های ورودی را قضاوت می‌کند. این روش طیف گسترده‌ای از کاربردها را شامل می‌شود. محققان از شبکه‌ی مولد تخاصمی (GAN) مشروط برای تولید آثار هنری از توصیف متنی، تولید عکس از طرح‌ها، تولید نقشه از تصاویر ماهواره‌ای، پیش‌بینی وضعیت افراد در سنین بیشتر و... استفاده می‌کنند.

تمام این‌ها، ما را به پلتفرم Maxine شرکت انویدیا باز‌می‌گرداند. با اینکه انویدیا جزئیات کاملی درباره‌ی روش کار فناوری Maxine ارائه نداده است، در یکی از مقاله‌های منتشرشده در سال ۲۰۱۹، برخی از الگوریتم‌های اساسی تأمین انرژی Maxine توصیف شده است. این مقاله GAN مشروطی را توصیف می‌کند که فایلی ویدئویی از چهره‌ی فرد در حال صحبت را درکنار تعدادی تصویر از چهره‌ی شخص دوم به‌عنوان ورودی دریافت می‌کند. در‌ادامه، تولید ویدئویی از شخص دوم را شاهد خواهید بود که همان حرکت‌های انجام‌شده در فیلم اصلی و متعلق به شخص اول را انجام می‌دهد.

تبدیل تصاویر به حالت های مختلف

نرم‌افزار جدید کنفرانس ویدئویی انویدیا از نسخه‌ی اصلاح‌شده‌ی این روش استفاده می‌کند. پلتفرم Maxine به‌جای دریافت فایل ویدئویی به‌عنوان ورودی، مجموعه‌ای از نکات اصلی استخراج‌شده از فایل ویدئویی منبع را ازآنِ خود می‌کند. هدف نقاط داده‌ای است که محل و حالت چشم، دهان، بینی، ابرو و سایر ویژگی‌های صورت را مشخص می‌کند.

تمام این داده‌ها می‌توانند بهتر از فیلمی معمولی نمایش داده شوند و این بدان‌معنا است که می‌توان آن‌ها را با حداقل پهنای باند استفاده‌شده ازطریق شبکه انتقال داد. همچنین، این شبکه یک فریم ویدئویی با وضوح چشمگیر ارسال خواهد کرد تا گیرنده از موضوع باخبر شود. سپس کامپیوتر گیرنده از شبکه‌ی مولد تخاصمی مشروط برای بازسازی چهره شخص مدنظر استفاده خواهد کرد.

یکی از ویژگی‌های اصلی شبکه‌ی محققان انویدیا که در سال ۲۰۱۹ توصیف شد، مخصوص یک چهره نبود؛ بلکه شبکه‌ای واحد را می‌توان برای تولید فایل‌های ویدئویی از افراد مختلف آن هم براساس تصاویر ارائه‌شده به‌عنوان ورودی آموزش داد. مزیت عملی پلتفرم Maxine این است که به آموزش شبکه‌ی جدید به‌ازای هر کاربر نیازی نیست. توجه کنید که انویدیا می‌تواند شبکه‌ی تولیدکننده‌ی از قبل آموزش‌دیده‌ای ارائه دهد تا چهره‌ی هر فردی را ترسیم کند. استفاده از شبکه‌ی آموزش‌دیده در‌مقایسه‌با شبکه‌ی جدید از این نظر بهتر است که به قدرت محاسباتی کمتری نیاز خواهد بود.

رویکرد و هدف انویدیا را می‌توان ویرایش فایل ویدئویی خروجی آن هم با چندین روش ساده عنوان کرد. به‌عنوان مثال، یکی از مشکلات رایج در فناوری‌های کنفرانس ویدئویی، موقعیت نامناسب دوربین است و به‌نظر می‌رسد که فرد در حال نگاه‌کردن به محیط اطراف خود است. شبکه‌ی عصبی انویدیا می‌تواند با چرخاندن نقاط اصلی چهره‌ی کاربر، مشکل را رفع کند تا در مرکز قرار بگیرند. گفتنی است انویدیا اولین شرکتی نیست که چنین کاری انجام می‌دهد؛ زیرا اپل مشغول کار روی نسخه‌ی اختصاصی این ویژگی برای FaceTime است. بااین‌حال، این امکان وجود دارد رویکرد مبتنی‌بر GAN انویدیا قدرتمندتر باشد و به‌جای چشم‌ها، تغییرات را در تمام چهره امکان‌پذیر کند.

پلتفرم Maxine می‌تواند سر فرد مدنظر را با شخصیتی متحرک هم جایگزین کند؛ البته این هم قابلیت جدیدی به‌حساب نمی‌آید و اسنپ چند سال پیش این قابلیت را معرفی کرد و درحال‌حاضر، معمولا در برنامه‌های چت ویدئویی استفاده می‌شود. هم‌اکنون سؤالاتی در ذهن مبنی‌بر تفاوت اقدام انویدیا با سایر پلتفرم‌ها شکل خواهد گرفت و پاسخ روشن است: رویکرد مبتنی‌بر شبکه‌ی مولد تخاصمی انویدیا می‌تواند تصاویر واقع‌بینانه‌تری فراهم کند که در طیف گسترده‌ای از موقعیت‌های مختلف عمل خواهد کرد.

پیاده‌سازی پلتفرم Maxine در سرور ابری

آینده پلتفرم ماکسین

همان‌طورکه در قسمت‌های قبل هم گفته شد، ماکسین محصول مصرفی نیست؛ بلکه کیت توسعه‌ی نرم‌افزار برای ساخت نرم‌افزار کنفرانس ویدئویی است. انویدیا تعدادی از قابلیت‌های مختلف را به توسعه‌دهندگان ارائه و اجازه می‌دهد تا درباره‌ی چگونگی ترکیب آن‌ها و ارائه‌ی محصولی کاربردی تصمیم‌گیری کنند.

حداقل نسخه‌ی اولیه‌ی Maxine با محدودیت مهم یا همان پردازنده‌ی گرافیکی قدرتمندی همراه خواهد بود که اخیرا انویدیا معرفی کرده است. این پلتفرم به‌منظور دریافت جریان ویدئو به پردازنده‌ی گرافیکی قدرتمند انویدیا احتیاج دارد و در بالای هسته‌های تنسور قرار گرفته است و واحدهای محاسبه‌گر در کارت گرافیک جدید انویدیا که به‌منظور عملیات یادگیری ماشین بهینه‌سازی شده‌اند. Maxine با محصولات مربوط به کنفرانس‌های ویدئویی رقابت خواهد کرد و دلیل آن را می‌توان انتظار کاربرانی دانست که تمایل دارند محصول دلخواهشان از سخت‌افزارهای گسترده پشتیبانی کند.

وقتی سؤالاتی برای دریافت پاسخ از نماینده‌ی شرکت انویدیا مطرح شد، او استدلال کرد که توسعه‌دهندگان می‌توانند پلتفرم Maxine را روی سرور ابری مجهز به سخت‌افزارهای موردنیاز انویدیا اجرا و در‌ادامه فایل‌های ویدئویی را در سیستم‌های کاربران پخش کنند. با استفاده از پلتفرم ماکسین با روش‌های ذکرشده، می‌توانید پهنای باند را در لینک ویدئویی کاربر هم ذخیره کنید. دلیل این امر را می‌توان نیاز‌نداشتن فناوری Maxine Keypoint Extraction به پردازنده‌ی گرافیکی انویدیا عنوان کرد.

هنوزهم قوی‌ترین ویژگی در فروش پلتفرم ماکسین را می‌توان نیاز به پهنای باند بسیار کم و چشمگیر آن عنوان کرد؛ البته صرفه‌جویی در پهنای باند آن هم به‌طورکامل زمانی امکان‌پذیر خواهد بود که ویدئو در دستگاه کاربر تولید شود. برای انجام این کار، پلتفرم ماکسین نیازمند پشتیبانی از دستگاه‌های بدون پردازنده‌ی گرافیکی است.

هنگامی‌که سؤالی مبنی‌بر پشتیبانی از پردازنده‌های گرافیکی به‌غیر انویدیا از مسئولان شرکت مطرح شد، آن‌ها از اظهارنظر درباره‌ی محصولات آینده خودداری کردند. درحال‌حاضر، پلتفرم Maxine در مرحله‌ی دسترسی اولیه برای توسعه است. درحقیقت، انویدیا اجازه‌ی دسترسی محدود را به گروهی از توسعه‌دهندگان داده تا بدین‌ترتیب، بتواند مشکلات احتمالی را رفع کند. در آینده‌ی نزدیک که البته زمان دقیقش مشخص نیست، انویدیا بستر را برای تمام توسعه‌دهندگان فراهم خواهد کرد.

بعید به‌نظر می‌رسد انویدیا بتواند انحصار این رویکرد را در زمینه‌ی کنفرانس ویدئویی حفظ کند. تاکنون سایر شرکت‌های بزرگ فناوری برنامه‌ای برای استفاده از GAN به‌منظور بهبود شرایط کنفرانس‌های ویدئویی اعلام نکرده‌اند؛ اما گوگل و اپل و کوالکام برای تولید تراشه‌های قدرتمندتر به‌منظور پشتیبانی از یادگیری ماشین در گوشی‌های هوشمند در حال تلاش هستند و در این زمینه، گام‌های موفقی برداشته‌اند. قطعا مهندسان این شرکت‌ها در حال بررسی امکان فشرده‌سازی فایل‌های ویدئویی با استفاده از شبکه‌ی عصبی هستند. اپل باتوجه‌به یکپارچه‌سازی سخت‌افزار و نرم‌افزار خود، به‌ویژه در توسعه‌ی نرم‌افزاری مشابه این پلتفرم، موقعیت مطلوبی دارد.

تبلیغات
داغ‌ترین مطالب روز
تبلیغات

نظرات