صحت شناسایی تشخیص گفتار IBM در حال نزدیک شدن به توانایی انسان است

پنج‌شنبه ۲۶ اسفند ۱۳۹۵ - ۰۸:۳۰
مطالعه 2 دقیقه
IBM میزان خطای سیستم تشخیص گفتار خود را به ۵.۵ درصد کاهش داده که تقریبا نزدیک به عملکرد سیستم تشخیص گفتار انسان‌ است.
تبلیغات

کمپانی‌های برتر دنیای فناوری در زمینه‌ی توسعه‌ی سیستم‌های تشخیص گفتار فعالیت‌های گسترده‌ای در حال انجام دارند و هر روز شاهد دستاوردهای جدیدی در این زمینه هستیم. IBM به‌عنوان یکی از قدیمی‌ترین و در عین حال پویاترین کمپانی‌های فناوری، اعلام کرده که میزان خطای سیستم شناسایی گفتارش را به ۵.۵ درصد کاهش داده است. IBM موفق شده خطای سیستم خود را از ۶.۹ درصد به ۵.۵ درصد کاهش دهد که نشان از عملکرد خوب متخصصان این کمپانی دارد. به‌طور حتم پیشرفت هر چه بیشتر این سیستم می‌تواند برای بهبود هر چه بیشتر دستیارهای صوتی هوشمند نظیر سیری و الکسا تأثیرگذار باشد.

مایکروسافت در ماه اکتبر اعلام کرد که خطای عملکرد سیستم تشخیص گفتار خود را با استفاده از مدل زبانی مبتنی بر شبکه‌های عصبی تا ۵.۹ درصد پایین آورده است. در آن زمان ردموندی‌ها اعلام کردند که بر اساس تحقیقاتشان، خطای ۵.۹ درصدی مشابه عملکرد سیستم تشخیص گفتار انسان است، حال آنکه IBM به این نکته اشاره کرده که این میزان خطا در انسان‌ وجود ندارد. جورج سان یکی از محققان IBM در این خصوص چنین اظهار نظر کرده است:

به‌عنوان بخشی از فرایند رسیدن به اهدافمان، به این نتیجه رسیده‌ایم که خطای انسان‌ در تشخیص گفتار پایین‌تر از میزانی است که تا امروز تصور می‌شد، به‌طوری‌که تحقیقات ما نشان از خطای ۵.۱ درصدی انسان‌ دارد.

آی بی اِم موفق شده است به خطای ۵.۵ درصدی دست پیدا کند. این دستاورد حاصل به‌کارگیری روشی موسوم به حافظه‌ی بلندمدت و کوتاه‌مدت در کنار شبکه‌های عصبی و مدل‌های زبانی WaveNet است. آی بی ام سیستم خود را با استفاده روش موسوم به SWITHVOARD مورد آزمایش قرار داده که شامل مجموعه‌ای از مکالمه‌های تلفنی است و برای سنجش میزان عملکرد صحیح سیستم‌های هوش مصنوعی در تشخیص گفتار مورد استفاده قرار می‌گیرد. این سیستم بنچمارک، سال‌ها است که برای اندازه‌گیری سیستم‌های هوش مصنوعی به کار گرفته می‌شود. SWITHBOARD را البته نمی‌توان به‌عنوان فاکتور سنجش برای بررسی میزان خطای انسان‌ استفاده کرد.

جولیا هیرشبرگ، پرفسور دانشگاه کلمبیا در این خصوص می‌گوید:

توسعه‌ی توانایی‌ ماشین‌ها برای تشخیص گفتار، چالشی ادامه‌دار است؛ مخصوصا این چالش بزرگ زمانی پررنگ‌تر می‌شود که بدانیم مکالمات انسان‌ها به‌صورت ذاتی دارای پیچیدگی‌های خاصی هستند. علاوه بر چالش‌برانگیز بودن تشخیص گفتار انسان‌، بررسی عملکرد نیز بسیار پیچیده است، چراکه عملکرد انسان‌ها در تشخیص گفتار کاملا پراکنده است و هر فردی در مقایسه با دیگری، بازده خاصی از خود به نمایش می‌گذارد.

نظر شما در این خصوص چیست؟

تبلیغات
داغ‌ترین مطالب روز

نظرات

تبلیغات