هوش مصنوعی پیشرفته اپل میتواند ویدیوهای بیصدا را صدادار کند
مدل هوش مصنوعی جدید اپل بهنام VSSFlow، با معماری نوآورانهای معرفی شده و قادر است ویدیوهای بیصدا را بهصورت یکپارچه صدادار کند. نمونههایی از این مدل در دسترس عموم قرار گرفتهاند.
اکثر مدلهای تبدیل ویدیو به صدا، در تولید گفتار و بیشتر مدلهای تبدیل متن به گفتار، در تولید صداهای محیطی ضعیف عمل میکنند. تلاشهای قبلی برای ترکیب هر دو وظیفه چندان موفق نبود و پیچیدگیهای زیادی بههمراه داشت.
محققان اپل و دانشگاه رنمین چین با توسعهی VSSFlow نشان دادند که یک مدل هوش مصنوعی میتواند همزمان جلوههای صوتی و گفتاری را بهصورت یکپارچه از ویدیوهای صامت تولید کند. آموزش گفتار و صدای مدل نامبرده با یکدیگر رابطهی دوسویه دارند و هر یک عملکرد دیگری را بهبود میدهد.
VSSFlow به کمک روشهایی نظیر بازسازی صدا از نویز، صدا و گفتار را همزمان تولید میکند. برای آموزش مدل، ترکیبی از ویدیوهای بیصدا با صداهای محیطی، ویدیوهای گفتاری همراه با متن و دادههای متن به گفتار استفاده شده است.
مدل VSSFlow در تعداد زیادی از آزمایشها نتایج خوبی ارائه میدهد و در مقایسه با بسیاری از مدلهای اختصاصی بهتر عمل میکند.