لایف‌وب از دو مدل زبانی رونمایی کرد؛ مدل «تهران» و «شیراز» گامی بلند در پردازش زبان فارسی

دوشنبه ۲۱ اسفند ۱۴۰۲ - ۱۶:۱۳
مطالعه 3 دقیقه
وبسایت مدل زبانی لایف‌وب
تیم هوش مصنوعی لایف‌وب پس از ۶ ماه تلاش موفق به توسعه مدل‌های جدید برای پردازش زبان فارسی شده است؛ مدل‌هایی به نام تهران و شیراز.
تبلیغات

تیم هوش مصنوعی شرکت دانش‌بنیان لایف‌وب پس از ۶ ماه تلاش موفق به توسعه مدل‌های جدید برای پردازش زبان فارسی شده است. این نخستین بار است که یک مدل زبانی براساس داده‌های زبان فارسی با تنوع موضوعی و پلتفرمی به‌صورت کلان انجام شده و اکنون در راستای مسئولیت اجتماعی در اختیار پژوهشگران و فعالان حوزه هوش مصنوعی قرار می‌گیرد. «تهران» و «شیراز» نام این مدل‌های زبانی است.

شرکت لایف‌وب در سال‌های گذشته برای بومی‌سازی سرویس‌های تحلیل متن مبتنی بر هوش‌مصنوعی فعالیت‌های گسترده‌ای داشته است و با در نظر گرفتن ساختار زبان رسمی فارسی و ادبیات محاوره‌ای کاربران فارسی‌زبان شبکه‌های اجتماعی، سرویس‌های مختلف مانند تحلیل عواطف و احساسات متون، تشخیص موجودیت‌های نامدار و ... را ارائه داده است.

مدل تهران بر افزایش دقت و مدل شیراز بر بهبود سرعت پاسخ‌دهی متمرکز است

مدل‌های زبانی توسعه داده‌شده در لایف‌وب، تهران و شیراز نام‌گذاری شده‌اند. مدل تهران بر افزایش دقت و مدل شیراز بر بهبود سرعت پاسخ‌دهی در شرایط محدودیت منابع سخت‌افزاری متمرکز هستند. یکی از نکات مهم این مدل نزدیکی بسیار بالای آن به زبان روزمره مردم در شبکه‌های اجتماعی است. که باعث می‌شود خروجی‌های آن شفاف‌‌تر و دقیق‌تر باشد.

لایف‌وب به‌صورت پیوسته تلاش می‌کند تا با داده‌‎های انبوه و استاندارد و بهینه‌سازی مدل‌های زبانی، ماشین‌ها را آموزش دهد تا دقیق‌ترین خروجی ممکن را در سامانه‌های خود به مخاطبان ارائه کند. در همین راستا متخصصان هوش مصنوعی شرکت لایف‌وب در اواسط سال ۱۴۰۲ با تمرکز بر زبان فارسی توسعه مدل زبانی را آغاز کردند که در اسفند ۱۴۰۲ منتشر شد و در دو مدل در دسترس عموم قرار گرفت. دسترسی به مدل‌های زبانی تهران و شیراز در وبسایت لایف‌وب امکان‌پذیر است.

برای توسعه این مدل زبانی، ابتدا تیم داده شرکت لایف‌وب مجموعه‌ای از داده‌های متنوع و با حجم بالا جمع‌آوری و سپس تیم هوش مصنوعی این دیتاست (Dataset) را نرمال‌سازی کرد و درنهایت مسیر توسعه مدل زبانی آغاز شد.

این مجموعه داده، برآمده از بستر‌های مختلف مانند سایت‌های خبری، گروه‌ها و کانال‌های تلگرامی، پست‌های سایت‌های پرطرفدار ورزشی، حقوقی، تاریخی، تکنولوژی و... است، که با نام «دیوان» منتشر خواهد شد.

مدل تهران

مدل زبانی تهران بر پایه معماری RoBERTA آموزش داده شده و شامل بیش از ۱۲۳ میلیون پارامتر است که بهترین نتایج را در مقایسه‌های انجام‌شده نسبت به سایر مدل‌های زبانی فارسی گزارش کرده است. این مدل برای توسعه سرویس‌های مختلف و استفاده غیررایگان به سایر سازمان‌ها ارائه می‌شود.

مدل شیراز

مدل شیراز هم بر پایه معماری Mobile BERT آموزش داده شده و بیش از ۲۵ میلیون پارامتر را در برمی‌گیرد که با سرعت پاسخ‌دهی بیش از ۵۰۰ درصدی نسبت به سایر مدل‌های زبانی فارسی به‌صورت کاملا متن‌باز و رایگان در اختیار عموم جامعه فارسی‌زبان قرار گرفته است. طبق توضیحات لایف‌وب، این افزایش سرعت چشمگیر بدون فدا کردن دقت قابل‌توجه انجام شده است.

مقایسه مدل‌های زبانی
مقایسه دو مدل تهران و شیراز با سایر مدل‌های زبانی

ویژگی‌های مدل زبانی جدید شرکت لایف‌وب

این دو مدل زبانی علاقه‌مندان این حوزه را از آموزش مدل‌های فارسی از پایه بی‌نیاز کرده و در بهبود و تدوین مدل‌های تحلیل متن کمک‌کننده است.

ویژگی‌های مدل‌های زبانی تهران و شیراز:

  • تنوع و جامعیت موضوعی و لحن دیتاست
  • آموزش بر روی ۱۱ میلیارد توکن (کلمه) فارسی
  • بالاترین دقت در میان مدل‌های موجود زبان فارسی (مدل تهران)
  • بالاترین سرعت با حفظ دقت رقابتی در میان مدل‌های زبان فارسی موجود (مدل شیراز)

مدل زبانی چیست؟

مدل زبانی ابزار زیربنایی مورد نیاز برای درک و پردازش زبان در سرویس‌های هوش مصنوعی است. با استفاده از مدل‌های زبانی انواع مختلفی از سرویس‌ها شامل خوشه‌بندی، خلاصه‌سازی، پیش‌بینی کلمات و جملات، دسته‌بندی، جست‌و‌جوی معنایی، استخراج کلمات کلیدی و … قابل ارائه خواهد بود که به‌عنوان نمونه سرویس تشخیص احساسات و یا تشخیص عواطف نمونه‌های عینی و کاربردی استفاده از مدل‌های زبانی در لایف‌وب است.

سرویس تشخیص احساسات و یا تشخیص عواطف نمونه‌های عینی و کاربردی استفاده از مدل‌های زبانی است

اولین مدل زبانی توسط شرکت گوگل در سال 2018 با نام BERT معرفی شد که پایه تدوین مدل‌های زبانی بعدی قرار گرفت.

در زبان فارسی اولین مدل زبانی بر پایه BERT در سال ۲۰۲۰ ارائه شد و با نام ParsBERT در دسترس عموم قرار داده شد. آخرین مدل فارسی هم با نام AriaBERT در زمستان 2023 منتشر شد که مطابق بنچ‌مارک منتشر‌شده بالاترین دقت را در میان مدل‌های فارسی زبان دارد. هم‌اکنون مدل تهران با معماری RoBERTa توانسته است AriaBERT را با دقت‌هایی تا ۷درصد بالاتر پشت سر بگذارد که نشان‌دهنده تنظیم دقیق پارامتر‌ها و کیفیت دیتاست مورداستفاده در فاز آموزش است.

داغ‌ترین مطالب روز

نظرات

تبلیغات