بهینهسازی سیستم ترجمه مبتنیبر هوش مصنوعی گوگل در ترجمه ورودی صوتی
بیشک، ارتباطات، مفهوم گستردهای دارد و تنها بهمعنی انتقال واژهها بین دو طرف یک رابطه نیست. گوگل نمونهی اولیهی سیستم ترجمه مبتنیبر هوش مصنوعی را بهنمایش گذاشته است. این سیستم جدید نهتنها واژههایی را که از دهان گوینده خارج میشود بهخوبی ترجمه میکند، بلکه در حین ترجمه به لحن و حالت گفتار گوینده نیز توجه نشان میدهد و لحن فایل ورودی را شبیهسازی میکند.
سیستم مبتنیبر هوش مصنوعی ترجمه گوگل، Translatotron نامگذاری شده است. محققان گوگل در مورد جزئیات عملکرد این سیستم جدید در وبلاگ رسمی گوگل توضیحات مفصلی ارائه دادهاند. البته باید خاطرنشان کرد که انتظار نمیرود Translatotron به این سرعت به محصولی تجاری تبدیل شود ولی توسعهی تجاری آن درنهایت محقق خواهد شد.
اوایل سال جاری، مدیر بخش ترجمهی گوگل در گفتگویی با ورج اعلام کرده بود که گوگل قصد دارد ابزارهایی برای بهبود ترجمه ازجمله اضافه کردن قدرت تشخیص لحن گوینده را به سیستم ترجمهی این شرکت اضافه کند تا گوگل ترنسلیت بتواند با کارایی بهتر و همچنین خطای کمتری مکالمات را ترجمه کند.
گوگل، فایلهای نمونهی ترجمهی صوتی شرکت را بهاشتراک گذاشته شده است تا کاربران بتوانند با نحوهی عملکرد سیستم جدید ترجمهی گوگل آشنا شوند. فایل اول، فایل صوتی ورودی است. فایل صوتی دوم، ترجمهی اصلی به شکل مرسوم و فایل صوتی سوم نیز نمونهی ترجمهی بهینهسازیشده توسط سیستم Translatotron گوگل ترنسلیت است.
صدای گوینده به زبان اسپانیایی
صدای ماشین پس از ترجمه
صدای ترجمهشده با شبیهسازی صدای گوینده
اگر در فایلهای صوتی دقت کنید، متوجه میشوید ترجمه فایل صوتی فقط بهصورت کلمهبهکلمه انجام نشده و در ترجمهی با سیستم Translatotron تغییر لحن گوینده براساس محتوای ترجمهشده کاملا مشهود است. گروه تحقیقاتی ترجمهی گوگل نمونههای بیشتری از فایلهای صوتی ترجمهشده با سیستم جدید را بهاشتراک گذاشته است.
سیستم Translatotron مبتنیبر هوش مصنوعی، ترجمهای غیرمنفعل و غیرخطی ارائه میدهد که میتواند برای کاربران از جذابیت بالاتری نسبت به ترجمهی واژهبهواژه و بدون توجه به لحن گوینده برخوردار باشد. باتوجه به اینکه هیچگونه توقفی برای انجام فعالیتها و وظایف بعدی در سیستم مبتنیبر هوش مصنوعی وجود ندارد، به چنین سیستمی، سرتاسری یا end-to-end گفته میشود. گوگل معتقد است که استفاده از رویکردهای سرتاسری باعث افزایش سرعت ترجمه خواهد شد. علاوهبر این، باتوجه به اینکه توقفی در حین انجام مراحل ترجمه هم وجود ندارد، از بروز خطاهای متعدد حین ترجمه کاسته میشود.
دادههایی که در این مدل پردازش میشوند، دادههای خام صوتی نیستند. بلکه، طیف نگاره دادهها یا جزئیات تصویری دادهها نیز مورد استفاده قرار میگیرد. درواقع، برای ترجمهی گفتار از یک زبان به زبان دیگر از تصاویر هم استفاده میشود که برای درگیر کردن ذهن مناسب است.
باید ببینیم چنین سیستمهایی درعمل به چه صورت میتوانند به کاربران کمک کنند. گوگل همواره سعی دارد که طرحهای توسعهای بلندپروازانهای را دنبال کند تا کاربران بهصورت موثرتری بتوانند از گوگل ترنسلیت استفاده کنند. باید منتظر باشیم و ببینیم سیستم جدید ترجمهی گفتاری مبتنیبر هوش مصنوعی تا چه اندازه میتواند مؤثر واقع شود.
نظرات