D1-lg

هوش مصنوعی مایکروسافت صدای هرکسی را با فایل صوتی سه‌ثانیه‌ای از او شبیه‌سازی می‌کند

جمعه 23 دی 1401 - 11:02
مطالعه 3 دقیقه
هوش مصنوعی VALL-E مایکروسافت
مدل هوش مصنوعی مایکروسافت می‌تواند لحن احساسی و نوع بیان هر شخصی را با دقت بسیار بالا شبیه‌سازی کند.
تبلیغات
D4-mcid4

محققان مایکروسافت یک مدل جدید هوش مصنوعی تبدیل متن به گفتار به‌نام VALL-E معرفی کرده‌اند که می‌تواند صدای افراد را با نمونه‌ی صوتی سه‌ثانیه‌ای از صدای آن‌ها، شبیه‌سازی کنند. این مدل پس‌از یادگیری صدای خاص، می‌تواند آن را با هر چیزی که می‌گویید ترکیب کند و این‌کار را به‌نحوی انجام می‌دهد که لحن احساسی گوینده‌ی اصلی حفظ شود.

سازندگان VALL-E حدس می‌زنند این مدل هوش مصنوعی می‌تواند برای برنامه‌های کاربردی تبدیل متن به گفتار با کیفیت بالا یا برنامه‌های ویرایش گفتار که در آن صدای ضبط‌شده‌ی یک شخص می‌تواند ویرایش شود مورد استفاده قرار گیرد. این مدل همچنین می‌تواند با ترکیب سایر مدل‌های هوش مصنوعی مثل GPT-3 برای ایجاد محتوای صوتی استفاده شود.

مایکروسافت VALL-E را «مدل زبان کدک عصبی» می‌نامد و از کدهای کدک صوتی EnCodec که متا آن را در اکتبر ۲۰۲۲ معرفی کرد، استفاده می‌کند. این فناوری اساساً حالت صدای یک شخص را تجزیه‌وتحلیل و اطلاعات به‌دست آمده را به اجزای جداگانه که توکن نامیده می‌شوند تبدیل می‌کند. در مرحله‌ی بعد از داده‌های آموزشی برای مطابقت با آن‌چه درمورد صدای شخص می‌داند بهره می‌برد. مایکروسافت می‌گوید:

VALL-E برای ترکیب گفتار شخصی‌شده نشانه‌های صوتی را از صدای سه‌ثانیه‌ای شخص موردنظر ثبت می‌کند و درنهایت از آن‌ها برای سنتز شکل موج نهایی با رمزگشایی کدک عصبی مربوطه بهره می‌برد.
- مایکروسافت

مایکروسافت قابلیت سنتز گفتار VALL-E را روی کتابخانه‌ی صوتی LibriLight متا آموزش داد. این فرآیند شامل ۶۰ هزار ساعت سخنرانی به زبان انگلیسی از بیش‌از هفت هزار سخنران است که عمدتاً از کتاب‌های صوتی عمومی LibriVox استخراج‌ شده‌اند. برای اینکه VALL-E نتیجه‌ی خوبی ایجاد کند صدای نمونه‌ی سه ثانیه‌ای باید دقیقاً با صدای داده‌های آموزشی مطابقت داشته باشد.

مایکروسافت در وب‌سایت نمونه‌ی VALL-E، ده‌ها نمونه‌ی صوتی از مدل هوش مصنوعی، ارائه‌ داده است. در میان نمونه‌ها، Speaker Prompt صدای سه‌ثانیه‌ای ارائه‌شده به VALL-E است که باید از آن تقلید کند. در این وب‌سایت صدای سه‌ثانیه‌ای نمونه مربوط به همان گوینده است که یک عبارت خاص را برای مقاصد آزمایشی بیان می‌کند. Baseline نمونه‌ای از سنتر است که با روش سنتز متن به‌ گفتار ارائه می‌شود و نمونه‌ی VALL-E خروجی ایجاد شده با هوش مصنوعی را ارائه می‌دهد.

روش کار هوش مصنوعی تقلید صدا VALL-E

به‌نوشته‌ی ArsTechnica، درحالی‌که از VALL-E برای ایجاد نتایج استفاده می‌شود، محققان فقط نمونه‌ی سه‌ ثانیه‌ای Speaker Prompt و یک رشته متن که می‌خواهند با آن صوت بیان شود را به VALL-E ارائه دادند. در برخی موارد، این دو نمونه بسیار نزدیک هستند. به‌نظر می‌رسد برخی از نتایج این هوش مصنوعی با رایانه ایجاد شده‌اند اما برخی دیگر به‌طور بالقوه می‌توانند با گفتار انسان اشتباه گرفته شوند که درواقع این مورد، هدف اصلی مدل هوش مصنوعی است.

VALL-E علاوه‌بر حفظ لحن صوتی و احساسی گوینده، می‌تواند از محیط آکوستیک نمونه‌ی صوتی نیز تقلید کند. به‌عنوان مثال، اگر نمونه از یک تماس تلفنی گرفته شده باشد، خروجی صدا ویژگی‌های صوتی و فرکانس یک تماس تلفنی را در خروجی سنتزشده‌ی خود شبیه‌سازی می‌کند و نمونه‌های مایکروسافت نشان می‌دهد VALL-E قادر است با تغییر دامنه‌ی تصادفی مورداستفاده در فرآیند تولید صدا، تغییراتی در تُن آن ایجاد کند.

شاید مایکروسافت به‌دلیل توانایی VALL-E در تحریک احتمالی شیطنت و فریب، کد آن را برای آزمایش به دیگران ارائه نداده است. بنابراین درحال‌حاضر نمی‌توان قابلیت‌های این هوش مصنوعی را آزمایش کرد. به‌نظر می‌رسد محققان از آسیب اجتماعی بالقوه‌ای که این فناوری می‌تواند به‌همراه داشته باشد آگاه هستند. در بخشی از نتیجه‌گیری این مقاله آمده است:

از آنجا که گفتار ایجاد شده با VALL-E می‌تواند هویت گوینده را حفظ کند، شاید خطرات بالقوه‌ای در استفاده‌ی نادرست از مدل وجود داشته باشد که از جمله می‌توان به جعل هویت صدا یا جعل هویت یک گوینده‌ی خاص اشاره کرد. برای کاهش چینین خطراتی می‌توان یک مدل تشخیص برای تمایز ایجاد کرد. بدین ترتیب مشخص می‌شود آیا کلید صوتی با VALL-E ایجاد شده است یا خیر. ما همچنین اصول هوش مصنوعی مایکروسافت را در توسعه‌ی بیشتر مدل‌های به‌کار خواهیم برد.
مقاله رو دوست داشتی؟
نظرت چیه؟
تبلیغات
D5-b3IranServer
داغ‌ترین مطالب روز
زنجبیل
با خواص و مضرات زنجبیل آشنا شوید

زنجبیل گیاهی با خاصیت دارویی است که از دیرباز جایگاه برجسته‌ای در طب سنتی داشته است. اما مصرف این گیاه دارویی همراه برخی از داروها مناسب نیست.

10
حدود 4 ساعت قبل
برند منصوری / Mansory
از ایران تا آلمان با منصوری؛ داستان برندی که ثروتمندان برایش سر و دست می‌شکنند

خودروهای منصوری به ظاهر مجلل و قیمت نجومیشان در سراسر دنیا مشهورند. کوروش منصوری چگونه راه خود را به بازار خودروهای لوکس باز کرد؟

52
1 روز قبل
یک مرد متعجب و یک عروسک غول‌پیکر کنار هم
ویدیو فصل آخر اسکویید گیم پخش شد؛ بازگشت عروسک قاتل و نبردهای مرگ‌بار

تریلر پرهیجان و پرتنش فصل سوم سریال اسکویید گیم، بازگشت عروسک قاتل و نبردهای مرگ‌بار را به‌نمایش می‌گذارد.

34
1 روز قبل
لپ تاپ ویندوز ۱۱ درحال نمایش منوی Actions
نحوه غیرفعال کردن آنتی ویروس ویندوز 11

گاهی برای نصب یا استفاده از یک برنامه، لازم است آنتی ویروس ویندوز را غیرفعال کنید. دراین مطلب نحوه غیرفعال کردن آنتی ویروس ویندوز 11 را آموزش ...

35
حدود 3 ساعت قبل
پردرآمدترین شغل های دنیا
پردرآمدترین شغل های دنیا در سال ۲۰۲۵ را می‌شناسید؟

به‌نظر شما پردرآمدترین مشاغل جهان کدام‌ شغل‌ها هستند؟ برای یافتن پاسخ این سؤال در سال ۲۰۲۵ با ما همراه شوید.

100
حدود 8 ساعت قبل
ماینر بیت‌کوین بیت‌مین S23 از نمای نزدیک
قدرتمندترین ماینر بیت‌کوین در دنیا معرفی شد؛ دستگاهی با مصرف بهینه برق

شرکت Bitmain قدرتمندترین ماینر بیت‌کوین را در سه نسخه‌ی مختلف رونمایی کرد.

31
1 روز قبل
پاسپورت
شرایط و نحوه تمدید فوری گذرنامه در سال ۱۴۰۴

شرایط تمدید فوری گذرنامه چیست؟ برای تمدید پاسپورت چه مدارکی مورد نیاز است و هزینه تمدید چقدر است؟ در این مطلب به تمام این سؤالات پاسخ داده‌ایم.

1
1 روز قبل
تبلیغات
DN-DNShatel

نظرات

با چشم باز خرید کنید
زومیت شما را برای انتخاب بهتر و خرید ارزان‌تر راهنمایی می‌کند
ورود به بخش محصولات