D1-kifpool

هوش مصنوعی مایکروسافت صدای هرکسی را با فایل صوتی سه‌ثانیه‌ای از او شبیه‌سازی می‌کند

جمعه ۲۳ دی ۱۴۰۱ - ۱۱:۰۲
مطالعه 3 دقیقه
هوش مصنوعی VALL-E مایکروسافت
مدل هوش مصنوعی مایکروسافت می‌تواند لحن احساسی و نوع بیان هر شخصی را با دقت بسیار بالا شبیه‌سازی کند.
تبلیغات
D4-mci

محققان مایکروسافت یک مدل جدید هوش مصنوعی تبدیل متن به گفتار به‌نام VALL-E معرفی کرده‌اند که می‌تواند صدای افراد را با نمونه‌ی صوتی سه‌ثانیه‌ای از صدای آن‌ها، شبیه‌سازی کنند. این مدل پس‌از یادگیری صدای خاص، می‌تواند آن را با هر چیزی که می‌گویید ترکیب کند و این‌کار را به‌نحوی انجام می‌دهد که لحن احساسی گوینده‌ی اصلی حفظ شود.

سازندگان VALL-E حدس می‌زنند این مدل هوش مصنوعی می‌تواند برای برنامه‌های کاربردی تبدیل متن به گفتار با کیفیت بالا یا برنامه‌های ویرایش گفتار که در آن صدای ضبط‌شده‌ی یک شخص می‌تواند ویرایش شود مورد استفاده قرار گیرد. این مدل همچنین می‌تواند با ترکیب سایر مدل‌های هوش مصنوعی مثل GPT-3 برای ایجاد محتوای صوتی استفاده شود.

مایکروسافت VALL-E را «مدل زبان کدک عصبی» می‌نامد و از کدهای کدک صوتی EnCodec که متا آن را در اکتبر ۲۰۲۲ معرفی کرد، استفاده می‌کند. این فناوری اساساً حالت صدای یک شخص را تجزیه‌وتحلیل و اطلاعات به‌دست آمده را به اجزای جداگانه که توکن نامیده می‌شوند تبدیل می‌کند. در مرحله‌ی بعد از داده‌های آموزشی برای مطابقت با آن‌چه درمورد صدای شخص می‌داند بهره می‌برد. مایکروسافت می‌گوید:

VALL-E برای ترکیب گفتار شخصی‌شده نشانه‌های صوتی را از صدای سه‌ثانیه‌ای شخص موردنظر ثبت می‌کند و درنهایت از آن‌ها برای سنتز شکل موج نهایی با رمزگشایی کدک عصبی مربوطه بهره می‌برد.
- مایکروسافت

مایکروسافت قابلیت سنتز گفتار VALL-E را روی کتابخانه‌ی صوتی LibriLight متا آموزش داد. این فرآیند شامل ۶۰ هزار ساعت سخنرانی به زبان انگلیسی از بیش‌از هفت هزار سخنران است که عمدتاً از کتاب‌های صوتی عمومی LibriVox استخراج‌ شده‌اند. برای اینکه VALL-E نتیجه‌ی خوبی ایجاد کند صدای نمونه‌ی سه ثانیه‌ای باید دقیقاً با صدای داده‌های آموزشی مطابقت داشته باشد.

مایکروسافت در وب‌سایت نمونه‌ی VALL-E، ده‌ها نمونه‌ی صوتی از مدل هوش مصنوعی، ارائه‌ داده است. در میان نمونه‌ها، Speaker Prompt صدای سه‌ثانیه‌ای ارائه‌شده به VALL-E است که باید از آن تقلید کند. در این وب‌سایت صدای سه‌ثانیه‌ای نمونه مربوط به همان گوینده است که یک عبارت خاص را برای مقاصد آزمایشی بیان می‌کند. Baseline نمونه‌ای از سنتر است که با روش سنتز متن به‌ گفتار ارائه می‌شود و نمونه‌ی VALL-E خروجی ایجاد شده با هوش مصنوعی را ارائه می‌دهد.

روش کار هوش مصنوعی تقلید صدا VALL-E

به‌نوشته‌ی ArsTechnica، درحالی‌که از VALL-E برای ایجاد نتایج استفاده می‌شود، محققان فقط نمونه‌ی سه‌ ثانیه‌ای Speaker Prompt و یک رشته متن که می‌خواهند با آن صوت بیان شود را به VALL-E ارائه دادند. در برخی موارد، این دو نمونه بسیار نزدیک هستند. به‌نظر می‌رسد برخی از نتایج این هوش مصنوعی با رایانه ایجاد شده‌اند اما برخی دیگر به‌طور بالقوه می‌توانند با گفتار انسان اشتباه گرفته شوند که درواقع این مورد، هدف اصلی مدل هوش مصنوعی است.

VALL-E علاوه‌بر حفظ لحن صوتی و احساسی گوینده، می‌تواند از محیط آکوستیک نمونه‌ی صوتی نیز تقلید کند. به‌عنوان مثال، اگر نمونه از یک تماس تلفنی گرفته شده باشد، خروجی صدا ویژگی‌های صوتی و فرکانس یک تماس تلفنی را در خروجی سنتزشده‌ی خود شبیه‌سازی می‌کند و نمونه‌های مایکروسافت نشان می‌دهد VALL-E قادر است با تغییر دامنه‌ی تصادفی مورداستفاده در فرآیند تولید صدا، تغییراتی در تُن آن ایجاد کند.

شاید مایکروسافت به‌دلیل توانایی VALL-E در تحریک احتمالی شیطنت و فریب، کد آن را برای آزمایش به دیگران ارائه نداده است. بنابراین درحال‌حاضر نمی‌توان قابلیت‌های این هوش مصنوعی را آزمایش کرد. به‌نظر می‌رسد محققان از آسیب اجتماعی بالقوه‌ای که این فناوری می‌تواند به‌همراه داشته باشد آگاه هستند. در بخشی از نتیجه‌گیری این مقاله آمده است:

از آنجا که گفتار ایجاد شده با VALL-E می‌تواند هویت گوینده را حفظ کند، شاید خطرات بالقوه‌ای در استفاده‌ی نادرست از مدل وجود داشته باشد که از جمله می‌توان به جعل هویت صدا یا جعل هویت یک گوینده‌ی خاص اشاره کرد. برای کاهش چینین خطراتی می‌توان یک مدل تشخیص برای تمایز ایجاد کرد. بدین ترتیب مشخص می‌شود آیا کلید صوتی با VALL-E ایجاد شده است یا خیر. ما همچنین اصول هوش مصنوعی مایکروسافت را در توسعه‌ی بیشتر مدل‌های به‌کار خواهیم برد.
مقاله رو دوست داشتی؟
نظرت چیه؟
تبلیغات
D5-b3IranServer
داغ‌ترین مطالب روز
ساخت اپل اکانت
آموزش ساخت اپل آیدی Apple ID رایگان (آپدیت جدید ۱۴۰۴)

ساخت اپل آیدی یکی از اقدامات اولیه پس از خرید آیفون است، در ادامه آموزش رایگان گام به گام ساخت اپل آیدی را مشاهده می‌کنید.

352
یک روز پیش
پهپاد دی‌جی‌آی مویک ۴ پرو در حال پرواز
پیشرفته‌ترین پهپاد DJI رونمایی شد؛ محصولی که آمریکایی‌ها از خرید آن محروم‌اند

DJI پهپاد جدید مویک ۴ پرو را با قابلیت تصویربرداری پیشرفته‌تر و شارژدهی بالاتر رونمایی کرد.

18
یک روز پیش
تصویر اتم آزاد
فیزیک‌دان‌ها برای اولین بار تصویر اتم‌های آزاد را ثبت کردند

فیزیک‌دان‌ها برای اولین بار توانستند تصویری از حرکت اتم‌های آزاد ثبت کنند. این مشاهده می‌تواند به درک بهتر آن‌ها از برهم‌کنش اتم‌ها کمک کند.

11
یک روز پیش
بهترین تبلت های بازار ایران [بهار ۱۴۰۴]

برای خرید تبلت مناسب، نیازی نیست حتماً پول زیادی پرداخت کنید. در راهنمای خرید پیش‌ رو، بهترین تبلت‌های بازار ایران را معرفی می‌کنیم.

285
2 روز پیش
خلیج فارس
پاسخ حقوقی ایران به تحریف گوگل؛ کار به دادگاه کشیده می‌شود

سخنگوی مرکز ملی فضای مجازی از پیگیری حقوقی اقدام اخیر گوگل در تحریف نام خلیج فارس خبر داد.

217
یک روز پیش
بهترین هارد اکسترنال های موجود در بازار ایران - تصویر اصلی
بهترین هارد و SSD اکسترنال بازار [بهار ۱۴۰۴]

تنوع زیاد هارد اکسترنال در بازار، انتخاب مدل مناسب را دشوار می‌کند. در این مقاله با بهترین هاردهای اکسترنال موجود در بازار ایران آشنا می‌شویم.

74
یک روز پیش
آنتی ویروس ویندوز
چگونه آنتی ویروس ویندوز ۱۰ را غیر فعال کنیم؟

بعضی از کاربران ویندوز به‌دنیال روش های خاموش كردن آنتي ويروس ویندوز ۱۰ هستند، زیرا این سیستم امنیتی بومی گاهی برای آن‌ها دست‌وپاگیر می‌شود.

27
2 روز پیش
تبلیغات
DN-DNShatel

نظرات

با چشم باز خرید کنید
زومیت شما را برای انتخاب بهتر و خرید ارزان‌تر راهنمایی می‌کند
ورود به بخش محصولات