سرویس تبدیل متن به گفتار ابری گوگل، بروزرسانی‌های جدیدی را دریافت می‌کند

گوگل اعلام کرده است که سرویس تبدیل متن به گفتار با به‌روزرسانی جدید می‌تواند ۲۶ صدای مختلف را با اتکا به برنامه‌‌ی WaveNet تولید کند.  

سرویس تبدیل متن به گفتار و همچنین تبدیل گفتار به متن گوگل مبتنی بر هوش مصنوعی، درحال توسعه است. کاربرانی که از سرویس ابری گوگل یا گوگل کلاود استفاده می‌کنند، به‌زودی ویژگی‌های جدیدی دریافت خواهند کرد.

شرکت مانتین‌ویو اعلام کرد که به‌روزرسانی‌های قابل‌توجهی برای سرویس ابری تبدیل متن به گفتار در پیش است که می‌تواند متن نوشتاری را با الگوهای مختلف، تبدیل به گفتار کند؛ به‌طوری که قابلیت پخش‌شدن در دستگاه‌های مختلف را داشته باشد. ویژگی‌های جدید دیگری نیز به سرویس تبدیل متن به گفتار گوگل مبتنی بر هوش مصنوعی اضافه شده است که یکی از آنها، امکان تشخیص چند کانال نام دارد.

اولین ویژگی توسعه‌یافته در سرویس تبدیل متن به گفتار ابری گوگل، امکان سنتز پیشرفته‌ی گفتار را فراهم می‌کند. با این ویژگی جدید، با استفاده از برنامه‌ی WaveNet، نه‌تنها امکان تبدیل متن به گفتار وجود دارد، بلکه کاربران می‌توانند به خروجی نهایی در چندین زبان مختلف دسترسی داشته باشند. ویژگی جدید توسط دیپ‌مایند، یکی از شرکت‌های تابعه‌ی آلفابت و با فناوری مبتنی بر یادگیری ماشینی توسعه یافته است. همچنین، به‌روزرسانی جدید به سیستم اجازه می‌دهد تا الگوی متن را تشخیص دهد و براساس الگوی نوشتاری متن، کلمات و جملات را به‌گونه‌ای به گفتار تبدیل کند که آهنگ خوانش جملات و استرس روی کلمات به‌درستی ادا شوند و متن بازخوانی‌شده، هر‌چه بیشتر به الگوی خوانش انسانی نزدیک‌تر باشد. با کمک سخت‌افزار TPU ابری گوگل، متن تبدیل‌شده به فایل صوتی به‌صورت صحیح‌تر و نزدیک‌تر به ادای کلمات توسط انسان، بیان می‌شود. برنامه‌ی WaveNet می‌تواند نمونه‌ی اولیه‌‌ی یک ثانیه‌ای از متن تبدیل‌شده به گفتار را در زمانی کمتر از ۵۰ میلی‌ثانیه تولید کند.

ساخت تصویر از متن

در حال‌حاضر، سرویس تبدیل متن به گفتار ابری گوگل می‌تواند ۱۷ فرمت صدای مختلف ویونت را به کاربر پیشنهاد بدهد و از  ۱۴ زبان مختلف پشتیبانی می‌کند. در کل، این سرویس می‌تواند ۵۶ صدای مختلف تولید کند، که ۳۰ صدای استاندارد و ۲۶ صدای ویونت به کاربر پیشنهاد داده می‌شود. فهرست کامل این صداها در وب‌سایت گوگل وجود دارد.

پشتیبانی گسترده‌تر و وسیع‌تر از صدای WaveNet، تنها ویژگی جدیدی نیست که به این سرویس اضافه شده است. علاوه‌بر افزایش تعداد صداهای ویونت، نسخه‌ی اصلی پروفایل‌های صوتی که پیشتر نسخه‌ی بتا آن در دسترس بود، منتشر می‌شود.

تبدیل متن به گفتار

پروفایل‌های صوتی به کاربر اجازه می‌دهد تا او، گفتار تولید‌شده توسط API‌های سرویس تبدیل متن به گفتار ابری گوگل را برای پخش در سخت‌افزارهای مختلف بهینه‌سازی کند. کاربر می‌تواند نمایه‌ای برای دستگاه‌ها و گجت‌های پوشیدنی مختلف خود با اسپیکرهای کوچک‌تر ایجاد کند. ایجاد این نمایه، خصوصا برای دستگاه‌هایی که از فرکانس‌های خاصی پشتیبانی نمی‌کنند، بسیار مناسب خواهد بود و اگر صدای تولید‌شده خارج از محدوده‌ی فرکانسی شنوایی باشد، آن را به محدوده‌ی شنوایی تغییر وضعیت می‌دهد و صدایی با کیفیت بهتر را در اختیار کاربر قرار می‌دهد. تیم تحقیقاتی Google Cloud که روی توسعه‌ی سرویس تبدیل متن به گفتار فعالیت می‌کنند، اعلام کرده‌ است:

ویژگی‌های فیزیکی هر دستگاه و همچنین محیطی که دستگاه در آن قرار دارد، روی فرکانس‌ها و برخی جزئیات سیگنال تاثیرگذار هستند؛ مثلا می‌توانند روی مواردی ازجمله باس، treble و حجم صدا تاثیرگذار باشند. نمونه‌ی اولیه‌ی صوتی که توسط سیستم تولید می‌شود، معمولا ممکن است در مقایسه با صدایی که در اسپیکر لپتاپ تولید می‌شود، بدتر و ضعیف‌تر باشد؛ ولی کیفیت صدای بهتری نسبت به صدایی که از خطوط تلفن منتقل‌ می‌شود، خواهد داشت.

در به‌روزرسانی جدید، هشت دستگاه جدید پشتیبانی می‌شوند‌: 

  • گجت‌های پوشیدنی مثلا دستگاه‌های با سیستم‌عامل Wear OS
  • گوشی‌های هوشمند
  • هدفون
  • اسپیکرهای کوچک با پشتیبانی از بلوتوث (مثل گوگل هوم مینی)
  • اسپیکرهای با ابعاد متوسط با قابلیت پشتیبانی از بلوتوث ​​(مثل گوگل هوم)
  • سیستم های سرگرمی خانگی ( مثل گوگل هوم مکس)
  • اسپیکر خودرو
  • سیستم‌های پاسخ صوتی تعاملی (IVR)

    Cloud Computing

به‌روزرسانی‌های مربوط به سرویس تبدیل گفتار به متن گوگل کلاود

گوگل در کنفرانس توسعه‌دهندگان Google Cloud Next در ماه جولای (تیرماه)، به برخی از ویژگی‌های جدید سرویس تبدیل گفتار به متن خود اشاره کرد و اکنون سه ویژگی را به‌صورت برجسته‌تری معرفی می‌کند؛ که عبارتند از : تشخیص چند کاناله (Multichannel Recognition) ، تشخیص خودکار زبان (Language Auto-detect) و بالابردن درصد اطمینان ادای درست واژه‌‌ (Word-level Confidence).

تشخیص چند کاناله یا Multichannel Recognition، امکان تخصیص کانال‌های صوتی چندگانه را فراهم می‌کند. امکان تخصیص اتوماتیک کانال‌های مختلف برای هر کلمه وجود دارد. گوگل متوجه شده است که با کمک این ویژگی و امکان تخصیص چندین کانال، امکان تهیه‌ی بهترین کیفیت خروجی برای کاربر فراهم می‌شود. برای نمونه‌های صوتی که به‌صورت جداگانه ضبط نمی‌شوند، سرویس ابری تبدیل گفتار به متن با کمک فناوری‌های مبتنی بر یادگیری ماشین، برای هر کلمه تگ یا برچسبی را تعیین می‌کند، که برچسب هر کلمه مربوط به یکی از اسپیکرهای سیستم خواهد بود. با گذشت زمان، دقت برچسب‌ها بهبود پیدا می‌کند. 

ویژگی بعدی تشخیص خودکار زبان (Language Auto-detect) است، که می‌تواند زبان متن را به‌صورت اتوماتیک تشخیص دهد. سیستم می‌تواند کدهای مربوط به چهار زبان را به‌صورت همزمان در فهرست Query خود ارسال کند. API به‌صورت خودکار، زبان فایل صوتی را تشخیص می‌دهد و آن‌ را به متن نوشتاری تبدیل می‌کند. روش کار تقریبا مشابه روشی است که گوگل اسیستنت زبان را تشخیص می‌دهد و پاسخ متناسب را ارائه می‌کند. البته، کاربران می‌توانند به‌صورت دستی نیز زبان مورد نظر خود را تنظیم کنند.

آخرین ویژگی، بالابردن درصد اطمینان ادای درست واژه‌‌ (Word-level Confidence) نام دارد که به توسعه‌دهندگان کمک می‌کند تا کنترل دقیقی بر موتور تشخیص گفتار گوگل داشته باشند. کاربران می‌توانند در برنامه‌های مختلف، کلماتی خاص را با تاکید به برنامه ادا کنند. مثلا گاهی لازم می‌شود کلماتی مهم و خاص در جمله، مجددا تکرار شوند تا کاربر مطمئن شود که سیستم، و‌اژه را درست متوجه شده است. این ویژگی، کاربران را تشویق می‌کند تا کلمات را درست‌تر و دقیق‌تر ادا کنند و اگر لازم شد کلمات را با لحنی شمرده‌تر و آرام‌تر ادا کنند. گوگل در مورد این ویژگی توضیح می‌دهد:

فرض کنید در اپلیکیشن این جمله را گفته‌اید: «قرار ملاقاتی با جان برای ساعت ۲ بعدازظهر فردا تنظیم کن». اگر کاربر تمایل داشته باشد، می‌تواند کلماتی مثل‌«جان» یا «ساعت ۲ بعدازظهر» را مجددا تکرار کند تا مطمئن شود برنامه اشتباه متوجه منظورش نشده است. می‌تواند حتی این دو کلمه را با لحنی آرام‌تر و شمرده‌تر ادا کند تا اطمینان حاصل کند که برنامه اشتباه متوجه نشده  است.

قطعا ویژگی‌های جدید می‌توانند منجر به افزایش رضایت کاربران از سیستم تبدیل متن به گفتار و سیستم تبدیل گفتار به متن Google شوند.

منبع venturebeat

از سراسر وب

  دیدگاه
کاراکتر باقی مانده
تبلیغات