D1-kifpool

WaveNet، نرم‌افزار جدید گوگل برای تبدیل متن به گفتار

جمعه 16 مهر 1395 - 05:00
مطالعه 3 دقیقه
یکی از زیرمجموعه‌های خانواده گوگل به نام دیپ‌مایند که پیش از این برای برنامه آلفاگو نامش بر سر زبان‌ها افتاده بود، به تازگی برنامه‌ای جدید برای تبدیل متن به گفتار معرفی کرده است.
تبلیغات
D4-mcid4

اگر تابه‌حال در کوچه‌های تودرتوی یوتیوب، گشت‌وگذار کرده و به تماشای ویدیوهای مختلف نشسته باشید، احتمالا کلیپ‌هایی از کامپیوترهایی عجیب‌وغریب که در حال خواندن مقاله‌های خبری هستند، به چشمتان خورده است. البته صدای این کامپیوترهای متن‌خوان، بیش از آنکه شباهتی به صدای طبیعی انسان داشته باشد، یادآور حرف زدن مقطع و درهم‌وبرهم آدم‌آهنی‌ها در فیلم‌های سینمایی است. اما از حضور این آدم‌آهنی‌ها و ربات‌های نه‌چندان خوش‌صدا در فیلم‌ها و کارتون‌ها، زمان زیادی سپری شده است و نوبتی هم که باشد، نوبت کامپیوترهایی است که با تکیه بر دانش هوش مصنوعی می‌توانند دست به تقلید بی‌کم‌وکاست از صدای انسان بزنند.

به‌تازگی یک مدعی و رقیبی تازه‌نفس برای نرم‌افزارهای متن‌خوان وارد میدان شده است، نرم‌افزاری جدید که مغزهای درخشان کمپانی دیپ‌مایند (DeepMind) در پشت آن قرار دارند. این کمپانی بریتانیایی که دو سال پیش به خانواده بزرگ غول جست‌وجوی اینترنت یعنی گوگل پیوست، از یک برنامه تولید صدای مصنوعی به نام ویونت (WaveNet) رونمایی کرده که پشتش به دانش هوش مصنوعی عصبی ژرف یا Deep Neural AI گرم است.

پیش از این برنامه‌هایی از قبیل جست‌وجوی صوتی گوگل توانسته‌اند با اتکا به فناوری‌های تشخیص و پردازش گفتار، کلمات را از دل کلام انسان بیرون بکشند، اما با قطعیت می‌توان گفت توسعه برنامه‌ای برای تبدیل متن به گفتار، چالش‌های پیش روی محققان را دوچندان خواهد کرد.

فراگیرترین روشی که در حال حاضر برای تبدیل نوشتار به گفتار به کار می‌رود، روش Concatenative TTS یا تبدیل متن به صدا به شیوه الحاقی است. در این فناوری، اجزای یک صدای ضبط شده مانند قطعات یک پازل کنار هم چیده می‌شوند تا در نهایت یک کلمه یا جمله قابل‌فهم، تولید شود.

اما مشکل اینجا است که در این روش، صدای خروجی که از ادغام قطعات صوتی به هم حاصل می‌شود، بیش از آنکه به صدای یک انسان شبیه باشد، یادآور همان صدای عجیب‌وغریب ربات‌های سینمایی است.

روش دیگری که برای تبدیل متن به گفتار به کار می‌رود، روش Parametric TTS یا تبدیل متن به صدا به شیوه پارامتریک است. در این شیوه، صدای تولید شده از درون مجموعه‌ای از کدک‌های صوتی به نام vocoder عبور داده می‌شود که البته باز هم نتیجه به دست آمده چنگی به دل نمی‌زند.

اما برنامه تازه از راه رسیده گوگل از یک رویکرد کاملا متفاوت بهره می‌برد. ویونت به جای تجزیه‌وتحلیل صداهایی که به آن خورانده می‌شود، درست همانند سایر سیستم‌های عصبی ژرف، آن‌ها را یاد می‌گیرد. این برنامه با کار کردن بر روی ۱۶ هزار نمونه در هر ثانیه، می‌تواند نمونه‌های صوتی خام خود را تولید کند. ویونت تمامی این کارها را بدون کوچک‌ترین دخالت انسان انجام داده و به کمک روش‌های آماری، قطعات صوتی موردنیاز بعدی را پیش‌بینی می‌کند.

فناوری WaveNet دیپ میاند گوگل

اگر علاقه دارید این فایل‌های صوتی را بشنوید، سری به این صفحه بزنید. در این صفحه، چندین نمونه صوتی به زبان‌های انگلیسی و چینی وجود دارد. علاوه بر صدا، ویونت با برخورداری از قابلیت تجزیه‌وتحلیل الگوهای صوتی می‌تواند از پس تولید موسیقی نیز بربیاید.

گفتنی است این برنامه بدون دریافت هیچ‌گونه ورودی قادر است دست به تولید گفتار بزند. درحالی‌که اکثر سیستم‌های TTS به دریافت ورودی نیاز دارند، ویونت می‌تواند بدون هیچ‌گونه نقشه راهی، آواهای صوتی تولید کند. اگرچه نتیجه حاصله تنها رشته‌ای از صداهای نامفهوم را در اختیار می‌گذارد، اما دربرگیرنده اصوات حرکات دهان و حتی تنفس نیز هست.

تمامی این شواهد و قرائن حاکی از آن است که سیستم‌های تبدیل متن به گفتار از ظرفیت و قابلیتی حیرت‌انگیز برای تقلید موبه‌موی صدای انسان برخوردار هستند.

مقاله رو دوست داشتی؟
نظرت چیه؟
تبلیغات
D5-b3IranServer
داغ‌ترین مطالب روز
جلوگیری از انتشار اخبار بد به کودکان
محافظت از کودکان دربرابر خطرات فضای مجازی؛ معرفی بهترین ابزارهای نظارتی

مدیریت دسترسی کودکان به برنامه‌ها و فضای مجازی از وظایف مهم والدین است. در ادامه چند برنامه‌ی کاربردی را برای این کار معرفی می‌کنیم.

20
1 روز قبل
آیفون 11 پرو مکس / iPhone 11 Pro Max با شارژر
چه کار کنیم گوشی آیفون کمتر شارژ مصرف کند؟

ترفندهای ساده‌ای وجود دارد که با انجام آن‌ها می‌توان شارژدهی گوشی آیفون را افزایش داد و در نهایت باعث افزایش درصد سلامت باتری ایفون شد.

6
حدود 16 ساعت قبل
هکر هودی‌ به تن درحال استفاده از لپ‌تاپ
اعلام آماده‌باش سایبری در ایران؛ افتا نسبت به حملات هدفمند هشدار داد

در پی تشدید تنش‌های میدانی و افزایش احتمال حملات سایبری، مرکز افتای ریاست‌جمهوری کشور را تا پایان خرداد در وضعیت آماده‌باش امنیتی قرار داد.

29
1 روز قبل
وزارت ارتباطات و فناوری اطلاعات
اطلاعیه‌ وزارت ارتباطات درباره قطع شدن اینترنت بین‌الملل؛ محدودیت موقت است

وزارت ارتباطات در پی قطع شدن دسترسی کاربران به شبکه اینترنت اعلام کرد محدودیت‌های ایجاد شده موقت است.

2
حدود 8 ساعت قبل
پنل پشت و جلو گوشی فوجیتسو آلفا F-51F
گوشی ژاپنی F-51F رونمایی شد؛ انتخابی متفاوت و ارزشمند با نمایشگر چشم‌نواز

برند ژاپنی فوجیتسو از گوشی میان‌رده‌ای با تراشه‌ی قدرتمند و طراحی چشم‌نواز پرده برداشت.

16
1 روز قبل
منوی باتری شیائومی ۱۴ پرو
چه کار کنیم گوشی شیائومی کمتر شارژ مصرف کند؟

گوشی‌های شیائومی تنظیمات مختلفی برای بهبود مصرف باتری دارند که با تغییر آن‌ها می‌توان شارژدهی را افزایش داد.

97
حدود 14 ساعت قبل
بلوبانک
بلوبانک: نگران بازپرداخت وام‌های خود نباشید

بلوبانک اعلام کرد همه جریمه‌های دیرکرد بازپرداخت وام‌های بلو تا پایان تیرماه بخشیده می‌شود.

21
1 روز قبل
تبلیغات
DN-DNShatel

نظرات

با چشم باز خرید کنید
زومیت شما را برای انتخاب بهتر و خرید ارزان‌تر راهنمایی می‌کند
ورود به بخش محصولات