پروژه یوفونیا گوگل؛ تشخیص گفتار مبتلایان به اختلالات تکلم به کمک هوش مصنوعی

پروژه‌‌ی یوفونیا نمونه‌‌ای از تلاش‌های گوگل در به‌کارگیری هوش مصنوعی و فناوری تشخیص گفتار برای فراهم‌آوردن امکان استفاده‌ی افراد مبتلا به اختلالات گفتاری از تکنولوژی‌های روز دنیا است.

گوگل که مدتی است تلاش‌هایش برای فراهم‌کردن امکان استفاده‌ی افراد معلول از تکنولوژی‌های روز دنیا را آغاز‌ کرده‌، اخیرا پروژه‌ای به‌نام یوفونیا (Euphonia) را رونمایی کرده است. یوفونیا برگرفته از نام ماشین سخن‌گویی است که اواخر قرن هجدهم و اوایل قرن نوزدهم، جوزف یوفونیا، مخترع آلمانی، ابداع کرد و ساخت.

درواقع، این پروژه تلاشی برای ارتقای قابلیت‌های فناوری تشخیص گفتار به‌منظور فراهم‌آوردن امکان درک صحبت‌های افراد مبتلا به مشکلات تکلم و اختلالات گفتاری است؛ چرا‌که سیستم‌های پردازش گفتار طبیعی موجود قابلیت درک صحبت‌های افراد مبتلا به بیماری‌های پیش‌رونده‌ای همچون ALS را ندارد. بیماری اسکلروز جانبی آمیوتروفیک (Amyotrophic Lateral Sclerosis) که استیون هاوکینگ نیز به آن مبتلا بود، نوعی بیماری نورون‌های حرکتی است که موجب تخریب پیش‌رونده و ترمیم‌ناپذیر دستگاه عصبی می‌شود. در این بیماری، دستگاه عصبی مرکزی و ماهیچه‌ها به‌ویژه ماهیچه‌های دست، پا، ساعد، سر و گردن به‌شدت صدمه می‌بینند و فرد مبتلا معمولا دچار ناتوانی‌های حرکتی می‌شود و پس از سه تا پنج سال جان خود را از دست می‌دهد.

در ویدئو زیر، دیمیتری کانوسکی (Dimitri Kanevsky) از محققان گوگل که خود نیز مبتلا به نوعی اختلال گفتاری است، نتایج تحقیقات اخیر این شرکت را در عمل آزمایش می‌کند و نهایتا از محصول تولیدی در پروژه‌ی Parrotron نتیجه مطلوب را می‌گیرد. محصول تولید‌شده در این پروژه، گفتار افراد مبتلا به اختلالات تکلم را مستقیما و بدون تبدیل به متن، به گفتار سلیس ماشینی تبدیل می‌کند.

لینک دانلود

ازآنجاکه مبنای یادگیری در تکنولوژی ASR (تشخیص گفتار خودکار یا Automatic Speech Recognition)، صحبت‌کردن به‌شیوه‌ی معمول و متداول است، سیستم‌هایی که از این تکنولوژی بهره‌ می‌گیرند، برای افرادی که با لهجه‌ی خاصی صحبت‌ می‌کنند یا مبتلا به اختلالات تکلم هستند، چندان کاربردی نیست و حتی درباره‌ی مبتلایان به اختلالات گفتاریِ نه‌چندان حاد، همچون ALS نیز، نرخ خطای کلمه‌ی درخورتوجهی را شاهد هستیم. نرخ خطای کلمه (WER) معمول‌ترین شاخص برای مقایسه‌ی عملکرد سیستم‌های ASR است و از تقسیم مجموع تعداد کلمات اشتباه تشخیص‌ داده‌شده و کلمات گفته‌نشده‌ی اضافه‌شده و کلمات گفته‌شده‌ی تشخیص‌ داده‌نشده، بر تعداد کل کلمات گفته‌شده به‌دست می‌آید.

گوگل در پروژه‌ی Parrotron، گفتار افراد مبتلا به اختلالات تکلم را بدون تبدیل به متن، به گفتار سلیس ماشینی تبدیل می‌کند

احتمالا اینجا هم متهم ردیف اول، مجموعه داده‌هایی هستند که سیستم برای یادگیری دراختیار دارد. این یکی از تعصبات ضمنی رایجی است که نمونه‌های مشابه‌اش را در مدل‌های دیگر هوش مصنوعی و زمانی‌که نرخ خطای سیستم بیشتر از حد موردانتظار محقق است، شاهد هستیم.

شاید ناتوانی سیستم‌های تشخیص چهره در شناسایی افراد رنگین‌پوست در مقایسه با ساخت سیستم تشخیص گفتاری که برای افراد مبتلا به اختلالات گفتاری کاربردی نیست، خطای چندان چشمگیری به‌شمار نیاید؛ اما در هر دو مورد، بخشی از مشکل سیستم دراختیار نداشتن داده‌های مربوط به گروه‌های خاصی از افراد است. این امر برای محققان گوگل به‌معنای جمع‌آوری ساعت‌ها داده‌ی صوتی از افراد مبتلا به ALS است و ازآنجاکه نوع و میزان پیشرفت مشکلات گفتاری در این بیماران از فردی به فرد دیگر متفاوت است، طبیعی است انتظار داشته‌ باشیم فرایند تطبیق این تکنولوژی با اثرهای ناشی از یک بیماری، کاملا از روند تطبیق آن با مثلا لهجه‌ای غیرمعمول متفاوت باشد.

پژوهشگران پروژه‌ی یوفونیا ضمن ارزیابی‌های خود دریافته‌اند وقتی این مدل نمی‌تواند واجِ اداشده را به‌درستی تشخیص دهد، دو نوع خطا ممکن است رخ‌ داده‌ باشد: ۱. سیستم واج اداشده و به‌تبع آن، کلمه را به‌اشتباه تشخیص‌ داده‌ باشد؛ ۲. سیستم توانایی تشخیص واج اداشده را نداشته‌ و به‌ناچار آن‌ را حدس‌ زده‌ باشد. در این‌ صورت، نزدیکی آوایی یک یا چندین واج‌ در یک کلمه، ممکن است به خطا در جایگزینی واج‌ها و به‌تبع آن، اشتباه در تشخیص کلمه منجر شود.

حل مشکل دوم با توجه به قابلیت‌های هوش‌ مصنوعی، چندان دشوار به‌نظر‌ نمی‌رسد. اگر سیستم در جمله‌ی «من روزی یک سیب می‌خورم»، نتواند «س» را در کلمه «سیب» تشخیص‌ دهد، برای مدلی که از هوش ‌مصنوعی بهر‌ه‌ می‌گیرد، احتمال آنکه گوینده جمله‌ی «من روزی یک شیب می‌خورم» را بیان کرده باشد، با احتمال بیان جمله‌ی مذکور به‌صورت صحیح یکسان نیست. سیستم با بهره‌گیری از هوش‌ مصنوعی و آنچه درباره‌ی الگوهای کلامی زبان انسان می‌داند و با درنظرداشتن موضوع صحبت گوینده و زمینه‌های مرتبط با آن، می‌تواند جمله‌ی صحیح را حدس‌ بزند.

اطلاعات بیشتر درباره‌ی این پروژه که همچنان مراحل تحقیقاتی را پشت‌سر می‌گذارد، در مقاله‌ای با عنوان Personalizing ASR for Dysarthric and Accented Speech with Limited Data دردسترس است که ماه آینده در کنفرانس Interspeech استرالیا ارائه خواهد‌ شد.

منبع techcrunch

از سراسر وب

  دیدگاه
کاراکتر باقی مانده

بیشتر بخوانید