چگونه هوش مصنوعی به بهبود کیفیت تصویر فیلمی ۱۲۴ ساله کمک کرد؟

شنبه 19 بهمن 1398 - 08:55

مطالعه 3 دقیقه

با انتشار نسخه‌ی باکیفیت 4K یکی از نخستین فیلم‌های سیاه‌و‌سفید صامت سینما در یوتیوب، این پرسش مطرح شده است که بهبود کیفیت تصاویر پیکسلی دقیقا چگونه انجام می‌شود؟

تبلیغات

وقتی فیلم کوتاه صامت ورود لوکوموتیو بخار به ایستگاه لسیوته در سال ۱۸۹۶ به‌نمایش درآمد، برخی تماشاگران با تصور اینکه قطار از پرده خارج خواهد شد، به‌محض نزدیک‌شدن آن به دوربین، از سالن فرار کردند. این واکنش آن‌ها باتوجه‌به وضوح تصویر پایین فیلم اصلی غیرواقع‌بینانه بود. خوشبختانه آن سینمادوستان وحشت‌زده هرگز فرصت پیدا نکردند نسخه‌ای تازه از فیلم یادشده را تماشا کنند که کیفیتش با کمک هوش مصنوعی بهبود یافته است؛ وگرنه به‌طور حتم عنان از کف می‌دادند.

دنیس شیریاف، یوتیوبر معروف و منتشرکننده‌ی نسخه‌ی تازه‌ی فیلم «ورود لوکوموتیو بخار به ایستگاه قطار لسیونته»، از دو برنامه‌ی بهبود‌دهنده‌ی تصویر (Upscaler) به‌نام‌های DAIN و Gigapixel AI استفاده کرد تا فیلم اصلی را به کلیپی با وضوح تصویر 4K و نرخ ۶۰ فریم‌بر‌ثانیه تبدیل کند. به‌نقل از وب‌سایت توپاز لبز سازنده‌ی گیگاپیکسل، این برنامه از الگوریتم درون‌یابی اختصاصی بهره می‌گیرد که با تجزیه‌و‌تحلیل تصویر، جزئیات و ساختارها را شناسایی و آن را تکمیل می‌کند. درواقع، این شرکت به هوش مصنوعی یاد داده است حتی اگر تصاویر به‌اندازه‌ی ۶۰۰ درصد بزرگ شده باشند، آن‌ها را به‌دقت شفاف و واضح کند. درمقابل، DAIN فریم‌های اضافی را حدس می‌زند و آن‌ها را بین فریم‌های اصلی یک کلیپ ویدئویی موجود وارد می‌کند. این راهکار مشابه همان ویژگی هموارسازی تصویر در تلویزیون‌های 4K است که جز عده‌ای معدود هیچ‌کس از آن استفاده نمی‌کند. با‌این‌حال، این ویژگی در مورد اخیر فریم‌های کافی را به فیلم افزوده است تا نرخ حرکت آن را به ۶۰ فریم‌بر‌ثانیه افزایش دهد.

تفاوت بین وضوح تصویر نمایشگرها چیست؟

تلویزیون 8K سامسونگ با کمک هوش مصنوعی ویدئوها را آپ اسکیل می‌کند

راهکارهای یادشده دو نمونه از فناوری‌های بهبود تصویر به‌شمار می‌آیند که از زمان ورود نخستین تلویزیون‌های کیفیت بالا (HD) به بازار در سال ۱۹۹۸ تا‌ امروز، بخشی ضروری از پخش محتوای سرگرمی بوده است. تلویزیون‌های کیفیت استاندارد قدیمی (SD) تصاویر را در وضوح ۷۲۰ در ۴۸۰ نشان می‌دادند که به‌معنای توانایی نمایش درمجموع ۳۴۵،۶۰۰ پیکسل در آنِ واحد بود. تلویزیون‌های HD می‌توانند وضوح تصویر ۱۹۲۰ در ۱۰۸۰ یا مجموع ۲ میلیون و ۷۳ هزار و ۶۰۰ پیکسل را نشان دهند که به‌معنای کیفیت ۶ برابری در‌مقایسه‌با نسل پیشین است؛ درحالی‌که تلویزیون‌های 4K با وضوح تصویر ۳۸۴۰ در ۲۱۶۰ به ۸ میلیون و ۲۹۴ هزار و ۴۰۰ پیکسل نیاز دارند.

وضوح تصویر چشمگیر تلویزیون‌های 4K بدان‌معنی است که باید ۶ میلیون پیکسل بیشتر درون تصویر HD گنجانده شود تا اندازه‌اش برای نمایش روی نمایشگر 4K مناسب شود؛ درنتیجه، بهبوددهندگان تصویر باید دریابند آن پیکسل‌های اضافی باید حاوی چه چیز باشند. این همان جایی است که فرایند درون‌یابی به‌کار می‌آید. تکنیک مذکور تخمین می‌زند هرکدام از آن پیکسل‌های تازه براساس محتوای پیکسل‌های اطرافشان باید چه چیزی نمایش دهند. باوجوداین، برای برآورد این امر چندین راه مختلف وجود دارد.

شیوه‌ی «نزدیک‌ترین همسایه» صرفا پیکسل‌های خالی را با همان رنگ نزدیک‌ترین پیکسلش پر می‌کند. این راهکار ساده و مؤثر محسوب می‌شود؛ اما نتیجه، ناهموار و بیش‌از‌حد پیکسلی‌ شدن تصویر است. درون‌یابی دوخطی به‌ کمی قدرت پردازشی بیشتر نیاز دارد؛ اما به تلویزیون امکان می‌دهد به‌منظور بهبود تصویر، هر پیکسل خالی را براساس نزدیک‌ترین پیکسل‌هایش تجزیه‌و‌تحلیل و بین آن‌ها گرادیان یا شیب رنگ ایجاد کند. درمقابل، درون‌یابی دومکعبی از ۱۶ پیکسل نزدیک‌تر به پیکسل خالی نمونه‌برداری می‌کند. این روش موجب رنگ‌آمیزی صحیح می‌شود؛ اما تصویر حاصل‌شده همچنان تار است. تلویزیون‌ها با ترکیب نتایج درون‌یابی دوخطی و دومکعبی می‌توانند کمبودهای هر فرایند را جبران کنند و تصاویری بهبودیافته با ازدست‌رفتن حداقلی کیفیت نوری در‌مقایسه‌با نسخه‌ی اصلی به‌وجود آورند.

ازآنجاکه فرایند درون‌یابی دراصل نوعی بازی حدسی است، چرا هوش مصنوعی نداشته باشیم که موارد خالی را فرابخواند؟ برنامه‌هایی نظیر DAIN با استفاده از شبکه‌های عصبی هم‌گشتی عمیق می‌توانند کلیپ‌های ویدئویی را تجزیه‌وتحلیل و نقشه‌برداری کنند و سپس تصاویر پرکننده‌ی تولیدشده را بین فریم‌های موجود قرار دهند.

با وجود تمام راهکارهای اشاره‌شده، نتیجه‌ی بهبود تصویر هیچ‌وقت بی‌نقص نیست و نسخه‌ی باکیفیت فیلم «ورود لوکوموتیو بخار به ایستگاه قطار» نیز کمبودهایی دارد. نسخه‌ی جدید به‌عنوان کلیپی کوتاه و مخصوص یوتیوب بی‌نظیر است؛ اما با بزرگ‌کردن تصویر هرچند اجسام پیش‌زمینه بسیار مناسب به‌نظر می‌آیند، با نگاه به لبه‌های اجسام یا اجسام پس‌زمینه، می‌توان دید وضوح آن‌ها از بین می‌رود. با وجود کمبودهای کنونی، تکنیک شیریاف فرصت‌های جذابی مهیا می‌کند. شاید بتوانیم به‌زودی با تبدیل فیلم‌های قدیمی به محتوای واقعیت افزوده با هوش مصنوعی، فرصت دوباره‌ی تماشای فیلم‌های صامت را در قالبی کاملا جدید پیدا کنیم.

مقاله رو دوست داشتی؟

نظرت چیه؟

میلاد میرکانی

نظرات