محققان الگوریتم شبکه عصبی با قابلیت بازسازی تصاویر تار توسعه دادند

محققان دانشگاه MIT الگوریتم شبکه‌ی عصبی توسعه دادند که می‌تواند از تصاویر و ویدئوهای تارشده، اطلاعات ارزشمند را بازسازی کند.

محققان دانشگاه MIT موفق به توسعه‌ی الگوریتم هوش مصنوعی و شبکه‌ی عصبی شدند که توانایی بازیابی داده‌های از دست‌رفته در تصاویر و ویدئوها را دارد. این الگوریتم محتوای بصری را که دچار کاهش ابعاد شده‌اند، بازیابی می‌کند. با استفاده از مدل شبکه‌ی عصبی می‌توان از تصاویری که به «تاری ناشی از حرکت» (Motion Blur) دچار شده‌اند، ویدئو تولید کرد. به‌علاوه دوربین‌های جدیدی وجود دارند که حرکت افراد را در گوشه‌های ساختمان‌ها ضبط می‌کنند، اما تصویر حاصل، تنها یک‌بعدی و مانند یک خط به‌نظر می‌رسد. با استفاده از شبکه‌ی عصبی جدید می‌توان این تصاویر را نیز به داده‌های معنادار تبدیل کرد.

الگوریتم جدید محققان MIT نیاز به تحقیق و بررسی و آزمایش‌های عمیق‌تر دارد. به‌هرحال تیم تحقیق امیدوار است که در آینده با استفاده از آن بتوان تصاویر دوبعدی پزشکی را به داده‌های سه‌بعدی تبدیل کرد. ثبت داده‌های سه‌بعدی پزشکی فرایندی گران‌قیمت محسوب می‌شود؛ درنتیجه استفاده از سیستمی برای تولید آن‌ها با استفاده از داده‌های دوبعدی ارزان‌تر برای کشورهای درحال توسعه یا فقیر، مزیت بالایی خواهد داشت.

گوها بالاکریشنان، دانشجوی فوق دکترا در آزمایشگاه هوش مصنوعی و علوم کامپیوتر (CSAIL) و محقق اول مقاله، درباره‌ی بازیابی ابعاد با الگوریتم شبکه‌ی عصبی می‌گوید:

در تمام موارد، داده‌های بصری یک بُعد دارند که کاملا از دست رفته است. بُعد ازدست‌رفته در زمان یا فضا تعریف می‌شود. اگر بتوانیم آن بُعد را بازیابی کنیم، ارزش افزوده‌ی زیادی به‌همراه خواهد داشت.

شایان ذکر است، مقاله‌ی حاصل از تحقیق انجام‌شده، هفته‌ی آینده در کنفرانس بین‌المللی بینایی کامپیوتری ارائه می‌شود.

داده‌های بصری ضبط‌شده، عموما داده‌ را از ابعاد متنوع زمان و فضا به یک یا دو بُعد کاهش می‌دهند. چنین رویکردی به‌نام Projection شناخته می‌شود. به‌عنوان مثال تصاویر اشعه‌ی ایکس، داده‌های سه‌بعدی مربوط به ساختار آناتومی را به تصاویر تخت تبدیل می‌کنند. به‌عنوان نمونه‌ای دیگر، تصاویر ثبت‌شده از ستاره‌ها را تصور کنید که در حالت نوردهی طولانی (long exposure) ثبت می‌شوند. در این تصاویر، ستاره‌ها که موقعیت‌شان درحال تغییر است، به‌صورت یک خط تارشده ثبت می‌شوند.

دنباله نوری هواپیما / long exposure

محققان MIT اخیرا دوربین‌هایی موسوم به «دوربین‌های گوشه‌ای (Corner Cameras)» اختراع کرده‌اند که توانایی شناسایی افراد متحرک را در گوشه‌ی ساختمان‌ها دارند. چنین دوربین‌هایی کاربردهای متنوع دارند؛ به‌عنوان مثال آتش‌نشان‌ها با استفاده از دوربین می‌توانند افراد را در گوشه‌ی ساختمان‌های درحال سوختن پیدا کنند. البته دوربین‌های جدید آن‌چنان کاربرپسند نیستند؛ آن‌ها تنها نماهایی با خطوط تار و پیچ‌وتاب‌خورده تولید می‌کنند. همین خطوط، به‌عنوان سرعت و مسیر حرکت فرد مورد نظر ثبت می‌شوند.

در فناوری جدید، مدلی برای بازسازی بصری داده توسعه یافته است. مدل مذکور از شبکه‌ی عصبی برای یادگیری الگوهایی استفاده می‌کند که نماهای با ابعاد کمتر را به تصاویر و ویدئوهای با ابعاد بیشتر مرتبط می‌کند. مدل مذکور با دریافت نماهای جدید، با بهره‌برداری از موارد آموخته‌شده، تمام داده‌های اصلی را از یک تصویر بازسازی می‌کند.

الگوریتم جدید در بازسازی داده‌های سه‌بعدی پزشکی کاربرد خواهد داشت

مدل جدید شبکه‌ی عصبی در آزمایش‌های عملی توانست فریم‌های ویدئویی دقیقی از افراد در حال راه‌رفتن یا حرکت‌های دیگر بسازد. به‌عنوان ورودی از تصاویری استفاده شده بود که شبیه به داده‌ی دوربین‌های گوشه‌ای بودند. به‌علاوه محققان با استفاده از شبکه‌ی عصبی توانستند فریم‌های ویدئویی را از تصاویری بازسازی کنند که ارقام، به‌صورت تار و در گوشه‌های آن متحرک هستند. تصاویر مذکور از دیتاست مشهور Moving MNIST استخراج شد.

از محققان دیگر توسعه‌دهنده‌ی شبکه‌ی عصبی می‌توان به ایمی ژائو، دانشجوی دپارتمان مهندسی برق و علوم کامپیوتر اشاره کرد. پروفسور جان گوتاگ از همان دپارتمان به‌‌همراه فردو دوراند، ویلیام تی فریمن و آدریان دالکا، عضو هیئت علمی دپارتمان رادیولوژی دانشکده‌ی پزشکی هاروارد هم از محققان دیگر پروژه‌ی اخیر بودند.

بالاکریشنان می‌گوید پروژه ابتدا از حل معمایی برای بازگرداندن حرکت در تصاویر با نوردهی بالا شروع شد. در بررسی پیکسل‌های آن تصاویر، نمونه‌هایی از داده‌های اصلی سه‌بعدی به‌چشم می‌خورد. به‌عنوان مثال در ثبت تصاویر با نوردهی بالا در دوربین‌های دیجیتال، فوتون‌ها در بازه‌ای زمانی در هر پیکسل تجمیع می‌شوند. در ثبت حرکت یک جسم در گذر زمان، دوربین مقدار میانگین را در پیکسل‌های ثبت‌کننده‌ی حرکت ذخیره می‌کند. سپس مقادیر میانگین ثبت‌شده، در طول و عرض متناظر در تصویر ثابت لحاظ می‌شوند. درنهایت این فرایند به خطوط تاری تبدیل می‌شود که حرکت جسم را نشان می‌دهند. با محاسبه‌ی برخی تغییرها در شدت نور پیکسل، می‌توان حرکت را به‌صورت تئوری بازسازی کرد.

تصویر تار Motion Blur

محققان در جریان توسعه‌ی شبکه‌ی عصبی جدید متوجه مسئله‌ای مشابه در حوزه‌های متنوع شدند. به‌عنوان مثال در تصاویر اشعه‌ی ایکس، اطلاعات طول و عرض و عمق ساختارهای آناتومی اندازه‌گیری می‌شود. سپس با استفاده از روشی مشابه رویکرد بالا، عمق تصاویر حذف شده و داده‌ای دوبعدی تولید می‌شود. دوربین‌های گوشه‌ای (که در سال ۲۰۱۷ توسط فریمن، دوراند و محققان دیگر اختراع شدند)، سیگنال‌های نوری بازتاب‌شده در صحنه‌های مخفی را دریافت می‌کنند که اطلاعات دوبعدی را درباره‌ی فاصله‌ی فرد از دیوارها و اجسام ارائه می‌کند. روش محاسبه‌ی میانگین از پیکسل‌ در این دوربین‌ها داده‌ی دریافتی را به ویدئویی تک‌بعدی تبدیل می‌کند.

برای توسعه‌ی الگوریتم، مدلی کلی براساس شبکه‌ی عصبی پیچشی (موسوم به CNN) توسعه ساخته شد. این مدل یک مدل یادگیری ماشین محسوب می‌شود که به‌‌نوعی یک نیروگاه قوی برای کاربردهای پردازش تصویر بوده است. درنهایت، مدل حاضر توانایی ثبت و بازسازی هرگونه ابعاد حذف‌شده در پیکسل‌های میانگینی را دارد.

محققان MIT از شبکه‌ی عصبی پیچشی برای توسعه‌ی الگوریتم خود استفاده کردند

در آزمایش‌های عملی، هزاران جفت تصویر شامل نماهای تولیدشده‌ی تار و منابع با ابعاد بالا (موسوم به سیگنال) به شبکه‌ی CNN تزریق شد. شبکه‌ی مذکور، الگوهای پیکسلی تصاویر تار را با تصاویر اصلی در سیگنال تطبیق می‌دهد. فریم‌ورکی موسوم به «خودرمزگذار متغیر (variational autoencoder)» در الگوریتم شبکه‌ی عصبی وجود دارد که دقت خروجی‌های CNN را در مقایسه با ورودی‌ها با احتمال‌های آماری گوناگون ارزیابی می‌کند. مدل مذکور، با استفاده از فریمورک فضایی از همه‌ی سیگنال‌های ممکن را می‌آموزد که توانایی ساخت تصویر اولیه را دارند. درنهایت، این فرایند نوعی دستورالعمل ایجاد می‌کند که چگونگی استخراج تمامی سیگنال‌های ممکن را از یک نمای تار شرح می‌دهد.

پس از یادگیری اولیه، تصاویری جدید به مدل شبکه‌ی عصبی تزریق شدند. مدل مذکور، الگوهای پیکسلی را در تصاویر جدید کشف کرده و با استفاده از دستورالعمل آموخته‌شده، تمامی سیگنال‌های (تصاویر واضح) ممکن آن را استخراج کرد. سپس تصاویر جدید تولید شدند که در آن‌ها از همه‌ی داده‌های تصویر تار و سیگنال‌های ممکن استفاده شده بود. درنهایت سیگنال با کیفیت شامل تمامی ابعاد ممکن تولید شد.

شبکه‌های عصبی / Neural Networks

در یکی از آزمایش‌‌های عملی، دیتاستی شامل ۳۵ ویدئو از ۳۰ نفر در حال راه رفتن در منطقه‌ای مشخص دریافت شد. سپس همه‌ی فریم‌ها به نماهایی تبدیل شدند که شبیه به داده‌های ورودی آزمایش و آموزش مدل بودند. با استفاده از ۶ نمای جدید، ۲۴ فریم از راه رفتن یک فرد تولید شد. تصویر حاصل، اطلاعات دقیقی همچون موقعیت پای افراد، ابعاد آن‌ها و حرکت‌شان به سمت و دور از دوربین را ارائه می‌کرد. به‌عنوان مثال، مدل شبکه‌ی عصبی احتمالا می‌داند پیکسل‌هایی که تاریک‌تر و بزرگ‌تر می‌شوند، مربوط به حرکت فرد به سمت دوربین هستند.

محققان MIT مدل خود را روی تصاویر پزشکی آزمایش نکردند، اما آن‌ها اکنون با همکاران‌شان در دانشگاه کرنل همکاری می‌کنند تا اطلاعات آناتومی سه‌بعدی را از تصاویر پزشکی دوبعدی استخراج کنند. برای چنین فرایندی از تصاویر همچون تصور اشعه‌ی ایکس استفاده می‌شود و احتمالا هزینه‌ای هم به‌همراه نخواهد داشت و برای کشورهای فقیر، مزیت‌های زیادی به‌همراه دارد. پزشکان عموما اسکن‌های سه‌بعدی را برای تشخیص دقیق‌تر ترجیح می‌دهند. چنین تصاویری با دستگاه‌های سی‌تی اسکن ثبت می‌شوند و اطلاعات پزشکی دقیق‌تری دارند. البته تصاویر سی‌تی عموما گران‌قیمت هستند.

بالاکریشنان درنهایت با اشاره به مزیت‌های مدل ابداعی تیمش می‌گوید:

اگر بتوانیم تصاویر اشعه‌ی ایکس را به سی‌تی اسکن تبدیل کنیم، فرایندی انقلابی در تصویربرداری پزشکی رخ خواهد داد. شما می‌توانید یک عکس اشعه‌ی ایکس را به الگوریتم ما وارد کرده و همه‌ی اطلاعات حذف‌شده را بازیابی کنید.

منبع mit

از سراسر وب

  دیدگاه
کاراکتر باقی مانده

بیشتر بخوانید