تشخیص و جداسازی اصوات با استفاده از یادگیری عمیق گوگل

دوشنبه ۳ اردیبهشت ۱۳۹۷ - ۱۱:۰۰
مطالعه 2 دقیقه
با کمک فرایند یادگیری عمیق می‌توان تمامی اصوات در یک محیط را شناسایی و به‌صورت مجزا مدیریت کرد.
تبلیغات

مهندسان نرم‌افزار بخش تحقیقاتی گوگل با یک مدل مبتنی بر یادگیری عمیق به تکنیکی دست پیدا کرده‌اند که می‌تواند اصوات مختلف در یک فایل ویدیویی را جداسازی و به‌راحتی برای هرکدام تنظیماتی اعمال کند. شاید از خودتان بپرسید تفکیک هر صوت چه مزیتی دارد؟ ایده شکل‌گیری چنین مدلی، توانایی تشخیص یک الگوریتم بسیار خاص بر اساس صفات صوتی هر انسان است. اگر بخواهید با دوستتان در یک کافه صحبت کنید، سروصدای دیگران ممکن است حواس شما را پرت کند؛ اما اگر مجهز به یک هدفون مخصوص باشید، صدای دوستتان را انتخاب و به‌صورت کامل، اطرافیان را بی‌صدا می‌کنید.

یکی از بیشترین کاربردهای مدل طراحی‌شده توسط گوگل، قابلیت حذف نویز است. از این طریق می‌توان صداهای مختلف در یک فایل ویدیویی یا صوتی را شناسایی کرد و سپس مدیریت مجزایی بر هر کدام داشت. گوگل اعلام کرده است که با توجه به این مدل، ابزار و گجت‌های بسیار زیادی می‌توان طراحی کرد که با یادگیری ماشین، تشخیص صدای کاربر را به مرحله‌ای بهتر برسانند.

استفاده گسترده از مدل تشخیص صدای گوگل بیان نشده است؛ اما واضح‌ترین استفاده برای سازندگان محتوا در یوتیوب است که می‌توانند ویدیوهای خود را عاری از هرگونه نویز یا صدای اضافه منتشر کنند. هرگونه پلتفرم ارتباطی که مبتنی بر صوت یا تصویر باشد، یکی از اهداف این پروژه به حساب می‌آید.

تشخیص صدا در هنگام استنداپ دو نفر:

تشخیص صدا در یک مناظره تلویزیونی:

تشخیص صدا در یک ویدیو کنفرانس:

تشخیص صدا در یک کافه شلوغ:

تشخیص صدا در استنداپ و ارائه زیرنویس:

به نظر شما از این الگو در چه سیستم‌هایی می‌توان استفاده کرد؟

تبلیغات
داغ‌ترین مطالب روز

نظرات

تبلیغات