سرویس متن به گفتار ابری گوگل در دسترس توسعه‌دهندگان قرار گرفت

دوشنبه ۱۳ فروردین ۱۳۹۷ - ۱۵:۴۵
مطالعه 2 دقیقه
توسعه‌دهندگان از این پس می‌توانند از همان فناوری تبدیل متن به گفتاری که در سرویس‌های گوگل به‌کار رفته است، در اپلیکیشن‌های خود استفاده کنند.
تبلیغات

گوگل اخیرا در وبلاگ خود اعلام کرد که سرویس متن به گفتار ابری خود را در دسترس جامعه‌ی توسعه‌دهندگان قرار می‌دهد، این سرویس به توسعه‌دهندگان امکان می‌دهد تا با استفاده از الگوی ویونت (Wavenet) و زیرساخت شبکه‌ی عصبی غول جستجو، صدای طبیعی متن به گفتار را در اپلیکیشن‌های خود به‌کار بگیرند. فناوری ویونت همان فناوری به‌کار رفته در تبدیل متن به گفتار برخی از سرویس‌های محبوب گوگل از جمله گوگل اسیستنت، مپس و جستجو است. گوگل در وبلاگ خود اشاره کرد که جدیدترین سرویس آن می‌تواند در سامانه‌های پاسخ صوتی مراکز تماس به‌کار رود، امکان پاسخگویی را در اختیار دستگاه‌های اینترنت اشیا قرار دهد و به‌صورت خودکار محتوای متنی مقاله‌ها و کتاب‌ها را نیز به قالب‌های صوتی نظیر پادکست‌ها یا کتاب‌های صوتی تبدیل کند.

توسعه‌دهندگان می‌توانند از بین ۳۲ صدای مختلف از ۱۲ زبان از جمله انگلیسی، پرتغالی، ژاپنی، فرانسوی، اسپانیایی و سوئدی دست به انتخاب بزنند؛ با این حال، گوگل می‌گوید که در آینده‌ی نزدیک صداهای بیشتری را به این سرویس افزوده خواهد کرد. علاوه‌بر این، افراد می‌توانند حجم صدا، نرخ گفتار و کیفیت صداها را نیز تغییر دهند. همچنین توسعه‌دهنگان می‌توانند از برچسب‌های نشانه‌گذاری متن به گفتار (SSML) به‌منظور افزودن مکث، دستورالعمل‌های تلفظ و تاریخ به گفتار بهره بگیرند.

گوگل در پست وبلاگ خود جزئیات بیشتری درباره‌ی بهبودهای صورت‌گرفته در الگوی ویونت ارائه داد، این فناوری در ابتدا در سال ۲۰۱۶ عرضه شد و در آن زمان از یک شبکه‌ی عصبی کانولوشن که با بهره‌گیری از نمونه‌های گفتاری مختلفی آموزش داده شده بود، استفاده می‌کرد؛ با این حال، الگوی یادشده بلافاصله با محصولات گوگل ادغام نشد؛ زیرا هنوز برای استفاده‌ی تجاری از آمادگی لازم برخوردار نبود. دو سال پس از عرضه‌ی این فناوری، اکنون نسخه‌های به‌روزشده از الگوی ویونت امکان ساخت بسیار سریع‌تر صدا را فراهم می‌کنند. ویونت در سال ۲۰۱۶ در یک ثانیه تنها قادر به تولید ۰.۰۲ ثانیه صدا بود؛ در حالی که الگوی به‌روزشده می‌تواند در یک ثانیه، ۲۰ ثانیه صدا تولید کند. علاوه بر این، الگوی به‌روزشده در مقایسه با الگوی اولیه، وضوح و دقت بهتری ارائه می‌دهد که نتیجه‌ی آن تولید صدای باکیفیت‌تر و شبیه‌تر به صدای انسان است.

توسعه‌دهندگانی که از مزیت سرویس متن به گفتار ابری بهره خواهند گرفت، می‌توانند از بین صداهای بیسیک و ویونت دست به انتخاب بزنند و براساس تعداد کاراکترهایی که ماهانه برای ساخت صدا به این سرویس ارسال می‌کنند، ملزم به پرداخت هزینه خواهند شد. صداهای بیسیک به نحو قابل توجهی ارزان‌تر هستند؛ با این حال، صداهای ویونت صوت طبیعی‌تری ارائه خواهند داد.

تبلیغات
داغ‌ترین مطالب روز

نظرات

تبلیغات