مدل هوش مصنوعی جدید گوگل می‌تواند بشنود، حرف بزند و ترجمه کند!

دوشنبه 5 تیر 1402 - 11:00

مطالعه 1 دقیقه

گوگل مدل هوش مصنوعی جدید خود موسوم‌ به AudioPaLM را با قابلیت شنیدن، صحبت کردن و ترجمه معرفی کرد.

تبلیغات

هوش مصنوعی به‌طور مداوم در حال پیشرفت است. درحالی‌که بسیاری از افراد از هوش مصنوعی برای کمک به انجام کارهای خود بهره می‌برند، این فناوری می‌تواند بسیار کاربردی‌تر باشد. گوگل از سال‌ها قبل به‌دنبال دسترسی به ظرفیت کامل هوش مصنوعی است و جدیدترین فناوری این شرکت AudioPaLM نام دارد؛ مدلی که می‌تواند با دقت بسیار بالا گوش دهد، حرف بزند یا ترجمه کند.

محققان گوگل، AudioPaLM را به‌عنوان مدل زبان جدید معرفی کرده‌اند که می‌تواند با دقت شگفت‌انگیزی به صحبت‌های دیگران گوش داده و آن‌ها را به زبان‌های دیگر ترجمه کند. این مدل از معماری چندوجهی بهره می‌برد و نقاط قوت دو مدل کنونی یعنی PaLM-2 و AudioLM را ترکیب می‌کند.

AudioLM در حفظ اطلاعاتی مثل هویت و لحن صحبت گوینده بسیار عالی عمل می‌کند. با ترکیب این دو مدل زبانی، مدل جدید AudioPaLM به‌ دست آمد که از تخصص زبانی PaLM-2 نیز بهره می‌برد تا درک کاملی از متن و گفتار داشته باشد.

مقالات مرتبط:

به‌نوشته‌ی گیزموچاینا، AudioPaLM از واژگان مشترکی بهره می‌برد که می‌تواند گفتار و متن را با استفاده از تعداد محدودی نشانه‌های مجزا، نشان دهد؛ این قابلیت به مدل اجازه می‌دهد کارهایی مثل تشخیص گفتار، تبدیل متن به گفتار و ترجمه‌ی گفتار به گفتار را با معماری و فرایند آموزشی واحد، ارائه دهد.

AudioPaLM از سیستم‌های موجود در ترجمه‌ی گفتار بهتر عمل می‌کند و حتی می‌تواند ترجمه‌ی گفتار به نوشتار را با ترکیب‌های زبانی‌ای که قبلاً هرگز با آن‌ها مواجه نشده، انجام دهد. این هوش مصنوعی جدید می‌تواند صداها را براساس اعلان‌های گفتاری کوتاه، بین زبان‌ها انتقال دهد و صداهای متمایزی را به زبان‌های مختلف ضبط و بازتولید کند.

مقاله رو دوست داشتی؟

نظرت چیه؟

مجتبی بوالحسنی

نظرات