یادگیری عمیق چگونه صنعت رسانه را متحول می‌کند؟

دوشنبه ۱۵ مهر ۱۳۹۸ - ۱۳:۰۰

مطالعه 9 دقیقه

صنعت رسانه یکی از حوزه‌های مهم تأثیرگذار فناوری محسوب می‌شود. مفهوم یادگیری عمیق امروزه بیش از همیشه برای تأثیرگذاری بر این صنعت آماده است.

تبلیغات

فعالان صنعت رسانه و استودیوهای فیلم‌سازی روز‌به‌روز ظرفیت‌های بیشتری در فناوری‌های مدرن کشف می‌کنند که برای ارائه‌ی نسل جدیدی از سرگرمی‌های ویدئویی کاربرد دارند؛ فناوری‌هایی که محصولات آن‌ها به تلویزیون و سینما و هر کانال مهم توزیع محتوای ویدئویی راه پیدا می‌کند. دراین‌میان، هوش مصنوعی و یادگیری ماشین و یادگیری عمیق از مفاهیم پرسروصدایی هستند که امید به ظرفیت‌های جدید برای تولید ویدئو و ویرایش را به فعالان صنعت تزریق می‌کنند.

مقاله‌های مرتبط:

بهینه‌سازی هوش مصنوعی فقط با جمع‌آوری داده‌های کاربران ممکن است؟

یادگیری عمیق چیست و چه کاربردهایی دارد؟

یادگیری عمیق جدیدترین جبهه‌ی صنعت ویدئو محسوب می‌شود که امکان انجام فعالیت‌های خودکار متعددی به متخصصان می‌دهد؛ فعالیت‌هایی که قبلا به روزها و هفته‌ها زمان نیاز داشتند. همچنین، برخی وظایف با استفاده از فناوری مذکور انجام‌دادنی می‌شوند که در گذشته به‌نوعی غیرممکن بودند. درادامه‌ی این مطلب زومیت، برخی از سؤال‌هایی را بررسی می‌کنیم که تأثیر یادگیری عمیق را روی صنعت رسانه شرح می‌دهند. این سؤال‌ها عبارت‌اند از: یادگیری عمیق چه تفاوتی با دیگر الگوریتم‌های یادگیری ماشین دارد؟ این فناوری چه کاربردهای واقعی‌ای برای رسانه و سرگرمی‌های ویدئویی دارد؟ یادگیری عمیق چه شاخه‌هایی در حوزه‌های علمی و کسب‌وکار دارد؟

هوش مصنوعی و یادگیری ماشین و یادگیری عمیق

هوش مصنوعی به هرگونه فرایندی گفته می‌شود که کامپیوتر را هوشمند نشان دهد. در برخی موارد، به کامپیوتر گفته می‌شود درصورت بروز هر رخداد، چه عملیاتی انجام دهد. در چنین وضعیتی، ماشین مذکور هیچ مفهومی نیاموخته است. یادگیری ماشین توانایی یادگیری را به کامپیوتر اضافه می‌کند تا انجام وظایف مشخص را بیاموزد.

روش‌های متعددی برای آموزش‌ دادن به کامپیوترها وجود دارد. تقریبا تمامی روش‌ها مبتنی‌بر تغییر پارامترها به‌دست ماشین و فرایندهای آزمون‌و‌خطا هستند. از روش‌های پیچیده‌ی یادگیری ماشین می‌توان به شبیه‌سازی نورون‌های مغز بیولوژیکی اشاره کرد. وقتی مغزهای ساختگی یا همان شبکه‌ی عصبی پیچیده‌تر ساخته شوند، به مفهوم یادگیری عمیق می‌رسیم.

یادگیری عمیق به ماشین امکان می‌دهد مفهومی پیچیده را به‌عنوان ورودی دریافت کند. به‌عنوان مثال، می‌توان به تمام پیکسل‌های موجود در یک فریم ویدئو اشاره کرد. در یک نمونه می‌توان فریم ویدئویی را با نویز به شبکه‌ی عصبی وارد و در خروجی، فریم باکیفیت دریافت کرد. شبکه‌ی مذکور با انجام آزمون‌و‌خطا، چگونگی حذف نویز از فریم را می‌آموزد. هرچه تعداد تصاویر ورودی بیشتر شود، مغز مصنوعی تکرار فرایند حذف نویز را بهتر می‌آموزد و این فرایند را برای تصاویر جدید هم انجام می‌دهد.

از اولین کاربردهای خارق‌العاده‌ی یادگیری ماشین می‌توان به پروژه‌ی گوگل اشاره کرد که بازی Go را به کامپیوتر آموخت. Go از پیچیده‌‌ترین بازی‌های تخته‌ محسوب می‌شود و امروز هوش مصنوعی گوگل توانایی شکست قهرمان‌های آن را نیز دارد. پیچیدگی بازی Go به‌حدی است که نمی‌توان با دستور‌های ساده‌ی انسانی آن را به کامپیوتر آموزش داد. به‌علاوه شبکه‌ی عصبی تک‌لایه نیز توانایی آموزش آن را ندارد و فقط با یادگیری عمیق می‌توان به چنین دستاوردی رسید.

یادگیری ماشینی و یادگیری عمیق، هوش مصنوعی را یک مرحله بالاتر از دریافت دستور توسعه می‌دهند

یادگیری عمیق برای وظایف متنوع دیگری هم کاربرد دارد. از این فناوری برای بررسی و مقایسه‌ی صحبت‌کردن ساختگی با صحبت‌کردن انسان استفاده می‌شود. درنتیجه‌ی چنین کاربردی، برنامه‌های تبدیل متن به صوت عملکرد طبیعی‌تر پیدا می‌کنند. شرکت‌های تولیدکننده‌ی ابزار ترجمه با استفاده از فناوری مشابه، چگونگی ترجمه از زبانی به زبان دیگر را به کامپیوترها می‌آموزند.

خودروهای خودران که امروزه جزو پروژه‌های اصلی بسیاری از شرکت‌های فناوری هستند، براساس یادگیری عمیق عمل می‌کنند. از مثال‌های دیگر می‌توان به واحد بازاریابی در شرکت‌های بزرگ اشاره کرد که با استفاده از یادگیری عمیق، رفتار مشتری‌ها را تحلیل می‌کنند. آن‌ها با تکیه بر همین یادگیری، واکنش هر مشتری را در موقعیت‌های خاص پیش‌بینی می‌کنند. دستیارهای دیجیتال هم از حوزه‌های کاربردی این فناوری هستند که با استفاده از شبکه‌ی عصبی، درخواست‌های کاربران را درک می‌کنند و به آن‌ها پاسخ می‌دهند.

یادگیری عمیق برای تلویزیون و سرگرمی‌های ویدئویی

فرصت‌های متعددی برای به‌کارگیری روش‌های یادگیری عمیق در حوزه‌ی تولید ویدئو و ویرایش و بخش‌های دیگر وجود دارد. البته این فناوری در تولید ویدئو به خودکارسازی وظایف تکراری محدود نمی‌شود؛ بلکه می‌توان در فرایندهای تولید خلاقانه نیز از آن استفاده کرد. به‌علاوه بهبود فرایند توزیع ویدئو و حفظ آرشیو‌های بزرگ استودیوهای فیلم‌سازی نیز با یادگیری عمیق ممکن می‌شود.

تولید و ویرایش ویدئو

استودیو برادران وارنر در یکی از پروژه‌های اخیر به‌نام ‌Justice League، هزینه‌ای ۲۵ میلیون دلاری برای اصلاح مجدد فیلم متقبل شد. بخشی از هزینه به پاک‌کردن دیجیتالی سبیل یکی از بازیگران (هنری کویل) اختصاص یافت که به‌خاطر پروژه‌ی مشترک دیگر، نمی‌توانست سبیل خود را بتراشد. این نمونه، تنها یکی از مثال‌های بی‌شمار فرایند پس‌تولید محسوب می‌شود که هزینه و زمان زیادی به استودیوها تحمیل می‌کند. یادگیری عمیق تأثیری تحول‌آفرین بر چنین روندهایی خواهد گذاشت.

راهکارهای ساده و مخصوص مصرف‌کننده برای استفاده از یادگیری عمیق در تولید ویدئو امروز دردسترس کاربران قرار دارند. به‌عنوان مثال، می‌توان به Flo اشاره کرد که با استفاده از فناوری مذکور و دریافت آنچه کاربر نیاز دارد، ویدئو را برای او می‌سازد. ابزار Flo ویدئو‌های مرتبط را از کتابخانه‌ی داده‌ی کاربر پیدا و آن‌ها را به‌صورت خودکار به‌هم متصل می‌کند.

گوگل ابزاری به‌صورت شبکه‌ی عصبی دارد که به‌صورت خودکار تصاویر پیش‌زمینه و پس‌زمینه‌ی ویدئو را از هم جدا می‌کند. چنین فرایندی قبلا به پرده‌ی سبز نیاز داشت و اگنون با سرعت و بهره‌وری بیشتری ازطریق یادگیری عمیق انجام می‌شود.

دیپ‌ فیک اخیرا اخبار متعددی در دنیای فناوری به خود اختصاص داده است. با استفاده از این فناوری، چهره‌ی فردی در ویدئو فردی دیگر استفاده می‌شود. فناوری مشابه دیگری هم وجود دارد که پرتره‌های ثابت را متحرک می‌کند. ظرفیت‌های فناوری این‌چنینی در بخش جلوه‌های ویژه‌ی تولید فیلم بی‌شمار هستند. به‌عنوان مثالی از کاربردهای دیپ‌فیک، می‌توان همان پروژه‌ی برادران وارنر را مثال زد. هنری کویل در بخش اصلاح مجدد فیلم سبیلی داشت که برای فیلم Mission Impossible; Fallout باید آن را حفظ می‌کرد. در همان زمان، او در پروژه‌ی Justice League هم درگیر بود و همین تداخل موجب ناراحتی طرفداران هم شد. به‌هرحال، او تصمیم گرفت سبیل خود را برای Justice League نتراشد؛ به‌ همین دلیل، تیم ویرایش پروژه‌‌ی مذکور به حذف دیجیتالی آن در هر صحنه‌ای ملزم شد که هنری بازی می‌کرد.

دیپ‌فیک می‌تواند بسیاری از هزینه‌های پس‌تولید را جبران کند

متأسفانه طرفداران فیلم Justice League متوجه عملکرد ویرایشگران ویدئو شدند. وقتی کاربران خانگی می‌توانند چهره‌ی نیکولاس کیج را در فیلم‌هایی وارد کنند که هیچ‌گاه بازی نکرده است؛ چرا استودیو برادران وارنر در پروژه‌ی خود از این فناوری استفاده نکرد؟ آن‌ها می‌توانستند با استفاده از تصاویر هنری کویل در صحنه‌های قبلی (بدون سبیل)، به‌راحتی صحنه‌های پس‌تولید را تولید و هزینه‌ و زمان زیادی صرفه‌جویی کنند.

ترمیم ویدئو

آمار آرشیو UCLA Film & Television ادعا می‌کند تقریبا نیمی از فیلم‌های تولیدشده پیش از سال ۱۹۵۰ از بین رفته‌اند. در آماری بدتر می‌‌بینیم که ۹۰ درصد از کپی فیلم‌های کلاسیک در وضعیت مناسبی قرار ندارند. فرایند ترمیم این ویدئوها زمان‌بر و خسته‌کننده و هزینه‌بر است. یادگیری عمیق در چنین شرایطی کاربرد دارد و تغییری عظیم در فرایند ترمیم ایجاد می‌کند.

فرایند رنگی‌کردن فیلم‌های سیاه‌و‌سفید همیشه زمان‌بر بوده است. هزاران فریم در یک فیلم وجود دارد و رنگی‌کردن هریک از آن‌ها زمان زیادی می‌طلبد. حتی با ابزارهای بسیار حرفه‌ای هم فقط می‌توان بخشی از فرایند را خودکارسازی کرد. انویدیا اکنون ابزاری دارد که با استفاده از یادگیری عمیق، فرایند رنگی‌کردن را بسیار سریع‌تر می‌کند. ابزار آن‌ها فقط هنرمند ویرایشگر را به رنگی‌کردن یک فریم ملزم می‌کند. پس از آن مرحله، یادگیری عمیق سایر فرایندهای رنگی‌کردن را انجام می‌دهد.

مجموعه تصاویر نادر قدیمی و رنگی از شهر پاریس

از مشکلات بزرگ دیگر در تریم ویدئوها می‌توان به حذف برخی از فریم‌ها اشاره کرد. قطعا فعالان این صنعت توانایی بازسازی و فیلم‌برداری فریم‌هایی را ندارند که سال‌ها پیش تولید شدند. ترمیم آن فیلم‌ها قبلا کارآمد نبود؛ اما اکنون فناوری گوگل برای کمک به این بخش وارد عمل شده است. آن‌ها ابزارهایی ساخته‌اند که فریم‌های از‌دست‌رفته را براساس فریم‌های قبل و بعد با کیفیتی نزدیک به واقعیت بازسازی می‌کنند.

تشخیص چهره یا اجسام

یادگیری عمیق با تشخیص چهره‌ی افراد حاضر در ویدئو، قابلیت دسته‌بندی دقیقی ارائه می‌کند. به‌عنوان مثال، می‌توان در آرشیو فیلم‌ها، ویدئوهایی پیدا کرد که بازیگر خاصی در آن‌ها حضور دارد. در رویکردی دیگر، می‌توان زمان دقیق حضور بازیگر را در فیلم مدنظر محاسبه کرد. به‌عنوان نمونه‌ای جدید، می‌توان به رویکرد شبکه‌ی Sky News اشاره کرد که با بررسی ویدئوهای مراسم عروسی سلطنتی، چهره‌های مشهور در آن را پیدا کرد.

فناوری مذکور فقط به تشخیص چهره در ویدئوها محدود نمی‌شود. رسانه‌های ورزشی امروزه از فناوری به‌کمک فیلم‌بردارها استفاده می‌کنند تا حرکت توپ یا دیگر مؤلفه‌های بازی مانند گل را شناسایی کنند. هوش مصنوعی با استفاده از ابزار تشخیص اجسام،‌ خودکارسازی فرایندهای رسانه‌ای ورزشی را هم ممکن می‌کند.

تحلیل ویدئو

همان‌طورکه گفتیم، ابزار Flo توانایی تشخیص موضوع صحنه و ساخت ویدئو براساس آن را دارد. از همین فناوری می‌توان برای دسته‌بندی و مرتب‌کردن ویدئو‌ها هم استفاده کرد؛ درنتیجه، کاربر می‌تواند قطعه‌ی مخصوصی از ویدئو را پیدا کند که شخص یا جسم یا حرکت خاصی در آن حضور داشته باشد.

دوربین فیلمبرداری AG-CX350 پاناسونیک Panasonic

با استفاده از فناوری گفته‌شده، می‌توان حتی محتوای ایراددار را از ویدئوها حذف کرد تا محصول نهایی برای کاربر هدف مناسب باشد. در رویکردی مشابه، می‌توان ویدئو‌های جدید را براساس علایق قبلی کاربر به او پیشنهاد داد و به‌نوعی فهرستی شخصی‌سازی‌شده از محتوای رسانه‌ای ارائه کرد.

بهبود پخش ویدئویی

یادگیری عمیق محتوای باکیفیت را برای اینترنت با سرعت کُند بهینه‌سازی می‌کند

اکنون در مسیری قرار داریم که استریم با کیفیت 4K و تولید تلویزیون‌ها و نمایشگرهای 8K به روندی مرسوم در جهان فناوری تبدیل شده‌اند. درنتیجه‌ی همین افزایش کیفیت، استریم حجم بیشتری از داده مصرف می‌کند. افرادی که به اتصال پرسرعت دسترسی ندارند، قطعا با مشکلات افزایش حجم داده آشنا هستند. اگر شما نمایشگر 4K داشته باشید؛ اما سرعت اینترنت برای ارائه‌ی محتوای مدنظر کافی نباشد، قطعا بهره‌ای از خرید جدید خود نخواهید برد.

شبکه‌های عصبی می‌توانند فریم‌های باکیفیت را برای ورودی‌هایی با ظرفیت کم بازسازی کنند؛ بنابراین در آینده‌ی نزدیک، می‌توان محتوایی با مصرف داده‌ی کمتر و کیفیت بیشتر را برای کاربران دارای اینترنت کم‌سرعت ارائه کنیم.

آینده‌ی یادگیری عمیق و رسانه

استفاده از یادگیری عمیق در تولید ویدئو اکنون در ابتدای راه قرار دارد. درواقع، آینده‌ای که برای چنین فناوری‌هایی وجود دارد، بسیار پربارتر خواهد بود؛ آینده‌ای که صنعت ویدئو را هم بیش‌ازپیش تحت‌تأثیر قرار می‌دهد. به‌هرحال، یادگیری عمیق نیز مانند بسیاری از فناوری‌های دیگر بدون مشکل و ضعف نیست. همان‌طورکه دیپ‌فیک مشکلاتی برای توانایی تشخیص حقیقت در کاربران ایجاد می‌کند، پیشرفت سریع به‌کارگیری یادگیری عمیق هم مشکلاتی از جنس حریم خصوصی و موارد مشابه خواهد داشت.

با توجه به نگرانی‌های مذکور، صنعت باید مانند هر فناوری جدید دیگر مشکلات را شناسایی و برای رفع آن‌ها تلاش کند. فعالان صنعت ویدئو و متخصصان فناوری باید با هم‌فکری استانداردهایی برای تعریف چگونگی استفاده از فناوری تدوین و به‌نوعی آینده‌ی قابل‌پذیرش را ترسیم کنند. درنهایت، با در‌پیش‌گرفتن رویکرد صحیح، قطعا کاربردهای بی‌شماری برای فناوری موجود ترسیم می‌شود و ابزارهای بسیار مفیدی دراختیار فعالان خواهد بود. همان‌طورکه فناوری‌های پیشین مانند رنگی‌کردن فیلم‌ها تأثیری عمیق بر صنعت رسانه گذاشتند، یادگیری عمیق نیز در آینده‌ی نه‌چندان دور تحولی عظیم در آن ایجاد خواهد کرد.

مقاله رو دوست داشتی؟

نظرت چیه؟

مهدی زارع سریزدی

تبلیغات

داغ‌ترین مطالب روز

مقاله رو دوست داشتی؟

نظرت چیه؟

مهدی زارع سریزدی

نظرات