PixelPlayer صدای پس‌زمینه را از موسیقی تفکیک می‌کند

محققان MIT موفق به  طراحی سیستمی به نام PixelPlayer شده‌اند که صدای ابزارهای موسیقی را از سایر صداهای پس‌زمینه تشخیص می‌دهد.

«اثر مهمانی شبانه‌» یا «cocktail party effect»، پدیده‌ای در حوزه‌ی شنوایی‌سنجی و روان‌شناسی است که در آن فرد می‌تواند توجه خود را به‌ یک محرک صوتی معطوف کرده و بقیه‌ی محرک‌های صوتی را فیلتر کند. مثلا وقتی فردی در یک مهمانی با انواع مختلف سرو‌صدا حضور دارد؛ می‌تواند تنها صدای فردی را که با وی صحبت می‌کند، بشنود و توجهی به بقیه صداهای مزاحم محیطی نداشته باشد.

اثر مهمانی شبانه، توانایی فرد در شنیدن صدای طرف مقابل در محیط‌های شلوغ از جمله در مهمانی‌ها است. به‌گونه‌ای که وقتی طرف مقابل در حال صحبت‌کردن است؛ شنونده قادر است صداهای دیگر محیط از جمله موسیقی،‌ صدای سایر مهمان‌ها و هرگونه صدای مزاحم دیگر را فیلتر کند و فقط صدای طرف مقابل خود را که در حال صحبت‌کردن است، بشنود.

PixelPlayer

معمولا انسان‌ها به‌طور طبیعی، تا حدی توانایی فیلتر کردن صداهای مزاحم را دارند؛ ولی محققان MIT درصدد توسعه‌ی این توانایی با کمک یادگیری ماشین برآمده‌اند. محققان MIT با کمک یادگیری ماشین، رویکردهایی در جهت تشخیص صدای اصلی از صداهای دیگر و تفکیک آن‌ها از یکدیگر را در دستور کار خود قرار داده‌اند. هدف اصلی این پروژه، پیاده‌سازی اثر مهمانی شبانه با کمک سیستم‌های مبتنی بر یادگیری ماشین است. محققان MIT CSAIL، اخیرا سیستمی مبتنی بر یادگیری ماشین به‌ نام PixelPlayer معرفی کرده‌اند که با توجه به آموزشی که دیده است، می‌تواند صدای ابزارهای موسیقیایی مختلف را تشخیص بدهد.

این سیستم با استفاده از یادگیری عمیق، و با استفاده از ۶۰ ساعت اجرای موسیقی، آموزش دیده است تا بتواند با استفاده از داده‌های بصری و شنیداری که در کنار هم به‌صورت هماهنگ‌ پخش می‌شوند، صدای موسیقی را از پس‌زمینه تشخیص دهد. تیم پروژه با کمک شبکه‌های عصبی عمیق، به سیستم آموزش داده‌اند تا بتواند هم روی تصاویر و هم روی صداها تمرکز کند و با توجه به لول صدا و موقعیت قرارگیری منبع تولید‌کننده‌ی صدا در ویدئو، ابزار موسیقیایی را تشخیص دهد.

PixelPlayer

PixelPlayer در اصل سیستمی شامل ابزار تجزیه و تحلیل ویدئویی است که می‌تواند هم از نظر بصری و هم از نظر صوتی، ویدئوها را مورد تجریه‌و‌تحلیل قرار دهد. این سیستم دارای یک شبکه‌ی آنالیز صدا و یک شبکه‌ی آنالیز تصویر است. در نهایت این دو شبکه، در کنار یک سینتی سایزر، می‌توانند به تجزیه‌وتحلیل صداهای پخش‌شده در ویدئوها بپردازند و صدای موسیقی را از صدای پس‌زمینه تفکیک کنند.

سیستم PixelPlayer به‌گونه‌ای آموزش دیده است که می‌تواند هم به‌صورت ترکیبی و هم به‌صورت جداگانه، ویژگی‌های ابزار صوتی را بدون هیچ‌گونه مداخله‌ای تشخیص بدهد. هانگ ژائو یکی از اعضای تیم تحقیقاتی MIT که پیشتر در تحقیقات NVIDIA حضور داشت، در مورد سیستم یادگیری عمیق اعلام کرد:

سیستم مبتنی بر یادگیری ماشین می‌داند چه ابزارهایی می‌توانند چه نوع صدایی تولید کنند.

محققان به‌منظور پیشبرد کار خود از مجموعه داده‌هایی با نام MUSIC که ترکیبی از چندین ابزار موسیقی است، استفاده کردند. این داد‌ه‌ها از طریق ویدئوهای یوتیوب تولید شده‌اند تا مدل مبتنی بر یادگیری ماشین به‌کمک این اطلاعات، آموزش ببیند. MUSIC شامل ۷۱۴ ویدئو پردازش نشده از آلبوم‌های موسیقی و ۱۱ مجموعه ابزار موسیقی مختلف است. قدرت پردازش تراشه‌ی گرافیکی Nvidia Titan V GPU اجازه داد تا CNN فیلم‌ها را با سرعت بسیار بالا تجزیه و تحلیل کند.

PixelPlayer

ژائو معتقد است:

سیستم مبتنی بر یادگیری عمیق در عرض یک روز تمام داده‌های مربوطه را یاد گرفته است. این سیستم اکنون می‌تواند بیش از ۲۰ ابزار موسیقیایی مختلف را شناسایی کند.

PixelPlayer می‌تواند موسیقی مربوط به ابزارهای مختلف موسیقیایی را تشخیص بدهد و صدای آن را از صدای پس‌زمینه تفکیک کند. هر ابزار موسیقیایی، لول صدای خاصی تولید می‌کنند و PixelPlayer می‌تواند این سطوح یا لول‌های صدا را تشخیص بدهد. به اعتقاد ژائو این سیستم می‌تواند با کمک ربات‌های صدای موسیقی را از صدای محیط تشخیص داده و این دو را از یکدیگر تفکیک کند.

البته تاکنون تیم‌های تحقیقاتی مختلفی روی اثر مهمانی شبانه کار کرده‌اند و رویکردهای مختلفی را برای بررسی آن در پیش گرفته‌اند. مقاله‌ی تیم تحقیقاتی MIT در مورد اثر مهمانی شبانه قرار است در ماه سپتامبر (شهریورماه)‌ در کنفرانس بینایی ماشین در اروپا ارائه شود.

منبع medium

از سراسر وب

  دیدگاه
کاراکتر باقی مانده

بیشتر بخوانید