هوش مصنوعی پیشرفته اپل می‌تواند ویدیوهای بی‌صدا را صدادار کند

سه‌شنبه 21 بهمن 1404 - 16:15

مطالعه 1 دقیقه

محققان اپل و دانشگاه رنمین چین مدلی توسعه داده‌اند که می‌تواند ویدیوهای بی‌صدا را به‌صورت یکپارچه صدادار کند.

تبلیغات

مدل هوش مصنوعی جدید اپل به‌نام VSSFlow، با معماری نوآورانه‌ای معرفی شده و قادر است ویدیو‌های بی‌صدا را به‌صورت یکپارچه صدادار کند. نمونه‌هایی از این مدل در دسترس عموم قرار گرفته‌اند.

اکثر مدل‌های تبدیل ویدیو به صدا، در تولید گفتار و بیشتر مدل‌های تبدیل متن به گفتار، در تولید صداهای محیطی ضعیف عمل می‌کنند. تلاش‌های قبلی برای ترکیب هر دو وظیفه چندان موفق نبود و پیچیدگی‌های زیادی به‌همراه داشت.

محققان اپل و دانشگاه رنمین چین با توسعه‌ی VSSFlow نشان دادند که یک مدل هوش مصنوعی می‌تواند هم‌زمان جلوه‌های صوتی و گفتاری را به‌صورت یکپارچه از ویدیو‌های صامت تولید کند. آموزش گفتار و صدای مدل نام‌برده با یکدیگر رابطه‌ی دوسویه دارند و هر یک عملکرد دیگری را بهبود می‌دهد.

مقاله‌های مرتبط

VSSFlow به کمک روش‌هایی نظیر بازسازی صدا از نویز، صدا و گفتار را هم‌زمان تولید می‌کند. برای آموزش مدل، ترکیبی از ویدیوهای بی‌صدا با صداهای محیطی، ویدیوهای گفتاری همراه با متن و داده‌های متن به گفتار استفاده شده است.

مدل VSSFlow در تعداد زیادی از آزمایش‌ها نتایج خوبی ارائه می‌دهد و در مقایسه با بسیاری از مدل‌های اختصاصی بهتر عمل می‌کند.

مقاله رو دوست داشتی؟

نظرت چیه؟

رضا رضائی

تبلیغات

نظرات