D1-kifpool

دیپ مایند گوگل صدای مصنوعی را به صدای طبیعی انسان نزدیک تر می‌کند

یک‌شنبه 21 شهریور 1395 - 12:00
مطالعه 4 دقیقه
گوگل را باید از جمله‌ی پیشروترین کمپانی‌ها در حوزه‌ی هوش مصنوعی خواند. سیستم دیپ‌مایند این کمپانی موفق شد تا قهرمان بازی Go را در چهار بازی از مجموع پنج بازی شکست داده و رکورد جدیدی را در میان سیستم‌های هوش مصنوعی به ثبت برساند. گوگل امروز از دستاورد جدید سیستم دیپ‌مایند رونمایی کرد که نشان‌دهنده‌ی قابلیت بالای این سیستم در تبدیل متن به صوت است. با زومیت همراه باشید.
تبلیغات
D4-mcid4

یکی از سیستم‌های قدر در حوزه‌ی هوش مصنوعی سیستم دیپ‌مایند گوگل است که موفقیت‌های بسیار زیادی را کسب کرده است. این سیستم هوش مصنوعی در ماه‌های اخیر موفق شد تا قهرمان جهان در رشته‌ی Go را شکست داده و نام خود را به عنوان اولین سیستم هوش مصنوعی که موفق شده تا در این بازی پیچیده بر انسان چیره شود، ثبت کند. گوگل البته به این موفقیت اکتفا نکرده و سیستم دیپ‌مایند را بیش از پیش توسعه داده و مرزهای جدیدی را پیش روی سیستم هوش مصنوعی خود گشوده است. غول جستجو امروز اعلام کرده که توانایی جدید دیپ‌مایند در تبدیل متن به صوت است یا تولید گفتار بصورت مصنوعی است.

فناوری WaveNet دیپ میاند گوگل
کپی لینک

پیشرفت های صورت گرفته در فناوری‌های تبدیل متن به صوت

براساس اطلاعات ارائه شده توسط گوگل، فناوری دیپ‌مایند WaveNet نام دارد. ویونت موفق شده تا تفاوت میان بهترین سیستم تبدیل متن به گفتار گوگل را با سیستم گویش انسان از نظر طبیعی بودن بیش از ۵۰ درصد کاهش دهد.

گوگل تا امروز از سیستم الحاقی تبدیل متن به صدا (Concatenative TTS) استفاده می‌کند. در این سیستم از تکه‌های لغات تلفظ شده توسط یک انسان استفاده می‌شود که با کنار هم قرار گرفتن، یک جمله را تشکیل می‌دهند. همین ساختار باعث می‌شود تا جملاتی که توسط سیستم تبدیل به متن گوگل تلفظ می‌شود جلوه‌ای رباتیک پیدا کرده و ساختاری طبیعی نداشته باشد.

گوگل همچنین از رویکرد پارامتری (Parametric) نیز استفاده کرده، بطوریکه تمام اطلاعات مورد نیاز برای تولید اطلاعات در پارامترهای یک مدل ذخیره شده و در نتیجه محتوا و مشخصات لحن صوت تولید شده امکان کنترل را فراهم می‌کند. البته فناوری پارامتری فقط در زبان‌های غیرهجایی کاربرد بالایی داشته که از جمله‌ی این زبان‌ها می‌توان به چینی اشاره کرد. البته این فناوری باعث شد تا در زبان‌های نظیر انگلیسی نیز گفتار تا حد زیادی طبیعی‌تر از فناوری الحاقی باشد.

کپی لینک

WaveNet چگونه کار می‌کند؟

ویونت یک شبکه‌ی عصبی کانولوشن (شبکه‌ی عصبی پیشخور) است که می‌تواند موج خام یک صوت را در لحظه ویرایش کند. این بدین معنی است که برای یک ثانیه از صوت، ویونت می‌تواند ۱۶٫۰۰۰ نمونه‌ی موج صدا را ویرایش کند، همین قابلیت باعث می‌شود تا صدای مصنوعی تولید شده بسیار طبیعی‌تر به نظر برسد. ویونت قادر است تا صداهایی نظیر صدای ایجاد شده در زمان تکان دادن دهان یا تنفس را نیز تولید کند که نشان از ظرفیت ویرایش امواج خام صوت دارد.

فناوری WaveNet دیپ مایند گوگل

شبکه‌ی عصبی ویونت ابتدا با استفاده از امواج صدای طبیعی انسان‌ها تغذیه می‌شود. پس از آنکه این شبکه‌ی عصبی آموزش دید، ویونت می‌تواند با استفاده از داده‌هایی که در اختیار دارد، بصورت مصنوعی تکلم کند. فرآیند بررسی نمونه‌های دریافتی از نظر پردازشی هزینه‌ی بسیار بالایی دارد، اما گوگل اعلام کرده که این هزینه‌ی بالای پردازشی برای تولید صدای طبیعی بسیار ضروری است.

گوگل برای نمایش اینکه این سیستم تا چه اندازه می‌تواند صدای طبیعی تولید کند، آزمایشی را انجام داده که در آن از کاربران خواسته شده تا به صدای ۱۰۰ جمله‌ی بیان شده توسط ویونت در کنار جملات بیان شده توسط انسان‌ها امتیاز دهند. کاربران از نظر طبیعی بودن تلفظ و لحن، از پنج به هر جمله امتیاز داده‌اند که در جدول نیز می‌توان نتایج را برای دو زبان انگلیسی و چینی مشاهده کرد. همانطور که در نمودارهای زیر می‌بینید، ویونت موفق شده تا فاصله‌ی بهترین فناوری تبدیل متن به صوت گوگل را با زبان طبیعی تلکم شده توسط انسان‌ها کاهش دهد که میزان این بهبود قریب به ۵۰ درصد است.

فناوری WaveNet دیپ مایند گوگل

گوگل اعلام کرده که روی ویونت کار می‌کند تا این سیستم بیش از پیش قوی‌تر شده و بتواند طبیعی‌تر از پیش متون را به صوت تبدیل کند. همچنین متخصصان غول جستجو در نظر دارند تا هزینه‌ی پردازشی این سیستم را نیز کاهش دهند. این کمپانی استفاده از سیستم تبدیل متن به صوت را در آینده‌ی نزدیک بصورت تجاری در محصولات خود مورد استفاده قرار خواهد داد.

مقاله رو دوست داشتی؟
نظرت چیه؟
تبلیغات
D5-b3IranServer
داغ‌ترین مطالب روز
چهره‌ی یک مرد جوان با الکترود روی پیشانی
تتو دیجیتال؛ تکنولوژی عجیبی برای شناسایی فعالیت‌های ذهنی

تکنولوژی جدید دانشگاه تگزاس، با استفاده از تتوی دیجیتال، فعالیت‌های ذهنی کاربر را شناسایی می‌کند.

13
حدود 6 ساعت قبل
آیفون 11 پرو مکس / iPhone 11 Pro Max با شارژر
چه کار کنیم گوشی آیفون کمتر شارژ مصرف کند؟

ترفندهای ساده‌ای وجود دارد که با انجام آن‌ها می‌توان شارژدهی گوشی آیفون را افزایش داد و در نهایت باعث افزایش درصد سلامت باتری ایفون شد.

9
1 روز قبل
دختر جوان درحال کار با گوشی درحالت آفلاین در اتاق
۷ اپلیکیشن‌ برای ارتباط بی‌سیم در شرایط قطع اینترنت موبایل و وای‌فای

وقتی ارتباطات رایج مثل شبکه‌های موبایل از کار می‌افتند، راه‌های دیگری برای ارسال پیام وجود دارند؛ با این اپ‌ها همیشه در دسترس بمانید.

111
حدود 8 ساعت قبل
کار کردن روزمره با گلکسی A55
گوشی میان‌رده محبوب سامسونگ آپدیت امنیتی دریافت کرد

سامسونگ با انتشار آپدیت جدید برای گلکسی A55، امنیت گوشی میان‌رده‌ی محبوبش را ارتقا داد.

12
حدود 22 ساعت قبل
وب‌گردی با لپ‌تاپ گیمینگ Stealth 15 A13V ام‌اس‌آی
وب‌سایت‌های ضروری در زمان اختلال اینترنت بین‌الملل یا تحریم

در شرایط بحران، هنگامی که دسترسی به اینترنت بین‌الملل قطع است، چه وب‌سایت‌هایی می‌توانند به کمکمان بیایند؟

555
حدود 6 ساعت قبل
منوی باتری شیائومی ۱۴ پرو
چه کار کنیم گوشی شیائومی کمتر شارژ مصرف کند؟

گوشی‌های شیائومی تنظیمات مختلفی برای بهبود مصرف باتری دارند که با تغییر آن‌ها می‌توان شارژدهی را افزایش داد.

98
1 روز قبل
قطع اینترنت - موبایل
اطلاعیه‌ وزارت ارتباطات درباره قطع شدن اینترنت بین‌الملل؛ محدودیت موقت است

وزارت ارتباطات در پی قطع شدن دسترسی کاربران به شبکه اینترنت اعلام کرد محدودیت‌های ایجاد شده موقت است.

2
1 روز قبل
تبلیغات
DN-DNShatel

نظرات

با چشم باز خرید کنید
زومیت شما را برای انتخاب بهتر و خرید ارزان‌تر راهنمایی می‌کند
ورود به بخش محصولات