دیپ مایند گوگل صدای مصنوعی را به صدای طبیعی انسان نزدیک تر می‌کند

یک‌شنبه 21 شهریور 1395 - 16:30

مطالعه 4 دقیقه

گوگل را باید از جمله‌ی پیشروترین کمپانی‌ها در حوزه‌ی هوش مصنوعی خواند. سیستم دیپ‌مایند این کمپانی موفق شد تا قهرمان بازی Go را در چهار بازی از مجموع پنج بازی شکست داده و رکورد جدیدی را در میان سیستم‌های هوش مصنوعی به ثبت برساند. گوگل امروز از دستاورد جدید سیستم دیپ‌مایند رونمایی کرد که نشان‌دهنده‌ی قابلیت بالای این سیستم در تبدیل متن به صوت است. با زومیت همراه باشید.

تبلیغات

یکی از سیستم‌های قدر در حوزه‌ی هوش مصنوعی سیستم دیپ‌مایند گوگل است که موفقیت‌های بسیار زیادی را کسب کرده است. این سیستم هوش مصنوعی در ماه‌های اخیر موفق شد تا قهرمان جهان در رشته‌ی Go را شکست داده و نام خود را به عنوان اولین سیستم هوش مصنوعی که موفق شده تا در این بازی پیچیده بر انسان چیره شود، ثبت کند. گوگل البته به این موفقیت اکتفا نکرده و سیستم دیپ‌مایند را بیش از پیش توسعه داده و مرزهای جدیدی را پیش روی سیستم هوش مصنوعی خود گشوده است. غول جستجو امروز اعلام کرده که توانایی جدید دیپ‌مایند در تبدیل متن به صوت است یا تولید گفتار بصورت مصنوعی است.

کپی لینک

پیشرفت های صورت گرفته در فناوری‌های تبدیل متن به صوت

براساس اطلاعات ارائه شده توسط گوگل، فناوری دیپ‌مایند WaveNet نام دارد. ویونت موفق شده تا تفاوت میان بهترین سیستم تبدیل متن به گفتار گوگل را با سیستم گویش انسان از نظر طبیعی بودن بیش از ۵۰ درصد کاهش دهد.

گوگل تا امروز از سیستم الحاقی تبدیل متن به صدا (Concatenative TTS) استفاده می‌کند. در این سیستم از تکه‌های لغات تلفظ شده توسط یک انسان استفاده می‌شود که با کنار هم قرار گرفتن، یک جمله را تشکیل می‌دهند. همین ساختار باعث می‌شود تا جملاتی که توسط سیستم تبدیل به متن گوگل تلفظ می‌شود جلوه‌ای رباتیک پیدا کرده و ساختاری طبیعی نداشته باشد.

گوگل همچنین از رویکرد پارامتری (Parametric) نیز استفاده کرده، بطوریکه تمام اطلاعات مورد نیاز برای تولید اطلاعات در پارامترهای یک مدل ذخیره شده و در نتیجه محتوا و مشخصات لحن صوت تولید شده امکان کنترل را فراهم می‌کند. البته فناوری پارامتری فقط در زبان‌های غیرهجایی کاربرد بالایی داشته که از جمله‌ی این زبان‌ها می‌توان به چینی اشاره کرد. البته این فناوری باعث شد تا در زبان‌های نظیر انگلیسی نیز گفتار تا حد زیادی طبیعی‌تر از فناوری الحاقی باشد.

کپی لینک

WaveNet چگونه کار می‌کند؟

ویونت یک شبکه‌ی عصبی کانولوشن (شبکه‌ی عصبی پیشخور) است که می‌تواند موج خام یک صوت را در لحظه ویرایش کند. این بدین معنی است که برای یک ثانیه از صوت، ویونت می‌تواند ۱۶٫۰۰۰ نمونه‌ی موج صدا را ویرایش کند، همین قابلیت باعث می‌شود تا صدای مصنوعی تولید شده بسیار طبیعی‌تر به نظر برسد. ویونت قادر است تا صداهایی نظیر صدای ایجاد شده در زمان تکان دادن دهان یا تنفس را نیز تولید کند که نشان از ظرفیت ویرایش امواج خام صوت دارد.

شبکه‌ی عصبی ویونت ابتدا با استفاده از امواج صدای طبیعی انسان‌ها تغذیه می‌شود. پس از آنکه این شبکه‌ی عصبی آموزش دید، ویونت می‌تواند با استفاده از داده‌هایی که در اختیار دارد، بصورت مصنوعی تکلم کند. فرآیند بررسی نمونه‌های دریافتی از نظر پردازشی هزینه‌ی بسیار بالایی دارد، اما گوگل اعلام کرده که این هزینه‌ی بالای پردازشی برای تولید صدای طبیعی بسیار ضروری است.

گوگل برای نمایش اینکه این سیستم تا چه اندازه می‌تواند صدای طبیعی تولید کند، آزمایشی را انجام داده که در آن از کاربران خواسته شده تا به صدای ۱۰۰ جمله‌ی بیان شده توسط ویونت در کنار جملات بیان شده توسط انسان‌ها امتیاز دهند. کاربران از نظر طبیعی بودن تلفظ و لحن، از پنج به هر جمله امتیاز داده‌اند که در جدول نیز می‌توان نتایج را برای دو زبان انگلیسی و چینی مشاهده کرد. همانطور که در نمودارهای زیر می‌بینید، ویونت موفق شده تا فاصله‌ی بهترین فناوری تبدیل متن به صوت گوگل را با زبان طبیعی تلکم شده توسط انسان‌ها کاهش دهد که میزان این بهبود قریب به ۵۰ درصد است.

گوگل اعلام کرده که روی ویونت کار می‌کند تا این سیستم بیش از پیش قوی‌تر شده و بتواند طبیعی‌تر از پیش متون را به صوت تبدیل کند. همچنین متخصصان غول جستجو در نظر دارند تا هزینه‌ی پردازشی این سیستم را نیز کاهش دهند. این کمپانی استفاده از سیستم تبدیل متن به صوت را در آینده‌ی نزدیک بصورت تجاری در محصولات خود مورد استفاده قرار خواهد داد.

مقاله رو دوست داشتی؟

نظرت چیه؟

حسین خلیلی صفا

پیشرفت های صورت گرفته در فناوری‌های تبدیل متن به صوت

WaveNet چگونه کار می‌کند؟

نظرات