مدلهای تهران و شیراز
گامی تازه در پردازش زبان فارسی
تیم هوش مصنوعی شرکت دانشبنیان لایفوب طی بیش از شش ماه تلاش، موفق شدند مدلهای زبانی جدید برای پردازش زبان فارسی را توسعه دهند. این مدلها، تهران و شیراز نامگذاری شدهاند. مدل زبانی تهران با تمرکز بر افزایش دقت و مدل زبانی شیراز با تمرکز بر سرعت پاسخدهی!
شرکت دانشبنیان لایف وب بهعنوان یکی از مهمترین شرکتهای با محوریت هوش مصنوعی در کشور، تمرکز ویژهای بر توسعه و طراحی مدلهای پردازش زبان طبیعی (NLP) دارد. شرکت لایفوب با کمک مدلهای زبانی، سرویسهای متنوع هوش مصنوعی نظیر تشخیص موجودیتهای اسمی مانند افراد، سمت، محصولات، رویداد، موقعیت جغرافیایی و … یا برچسب موضوعی نظیر اقتصادی، اجتماعی، فرهنگی و … را به دادههای انبوه فضای مجازی افزوده و از طریق سامانه دیتامی در اختیار مشتریان خود قرار میدهد.
شرکت لایفوب بهصورت پیوسته تلاش میکند با فراهم کردن دادههای انبوه استاندارد و بهینهسازی مدلهای زبانی، بهینهترین مدلهای زبانی را آموزش دهد تا باکیفیتترین خروجی ممکن را در سامانههای خود به مشتریانش عرضه کند. در همین راستا، تیم هوش مصنوعی شرکت لایفوب، اواسط سال ۱۴۰۲ شروع به توسعه مدل زبانی جدیدی کردند که اسفندماه ۱۴۰۲ منتشر شد و در قالب دو مدل به نامهای تهران و شیراز در دسترس عموم قرار گرفت.
مدل زبانی، ابزار زیربنایی مورد نیاز برای درک و پردازش زبان در سرویسهای هوش مصنوعی است. با استفاده از مدلهای زبانی انواع مختلفی از سرویسها شامل خوشهبندی، خلاصهسازی، پیشبینی کلمات و جملات، دستهبندی، جستجوی معنایی، استخراج کلمات کلیدی و … قابل پیادهسازی خواهد بود. بهعنوان نمونه، سرویس تشخیص احساسات و یا تشخیص عواطف، نمونههای عینی و کاربردی استفاده از مدلهای زبانی است.
برای توسعه این مدل زبانی، ابتدا تیم داده شرکت لایفوب، یک مجموعه داده متنوع و با حجم بالا جمع آوری کرد. سپس تیم هوش مصنوعی، این دیتاست (Dataset) را نرمالسازی کرد و پس از آن توسعه مدل زبانی آغاز شد.
این مجموعه داده غنی، برآمده از بسترهای مختلف مانند سایتهای خبری، گروهها و کانالهای تلگرامی، پستهای سایتهای پرطرفدار ورزشی، حقوقی، تاریخی، تکنولوژی و … است، که با نام «دیوان» منتشر خواهد شد.
مدل زبانی تهران بر پایه معماری RoBERTa آموزش داده شده و شامل بیش از ۱۲۳ میلیون پارامتر است. این مدل، بهترین نتایج را در مقایسههای انجام شده نسبت به سایر مدلهای زبانی فارسی گزارش کرده است. مدل زبانی تهران نزد شرکت لایفوب برای توسعه سرویسهای مختلف موجود است و برای استفاده غیر رایگان، قابل عرضه به سایر سازمانها نیز هست. برای دریافت اطلاعات بیشتر، میتوانید با شمارههای شرکت تماس حاصل فرمایید.
مدل زبانی شیراز بر پایه معماری MobileBERT آموزش داده شده و شامل بیش از ۲۵ میلیون پارامتر است. این مدل با سرعت اجرایی بیش از ۵۰۰ درصدی نسبت به سایر مدلهای زبانی فارسی، بهصورت کاملاً متن باز و رایگان در اختیار عموم جامعه فارسی زبان قرار گرفته است. شایان ذکر است که این افزایش سرعت چشمگیر، بدون از دست دادن قابل توجه کارایی صورت گرفته است. در جدول پایین میتوانید نتایج گزارشها را مشاهده کنید.
مدل زبانی | Sentiment تحلیل احساسات | Emotion تشخیص عواطف | NER تشخیص موجودیتها |
---|---|---|---|
Tehran | ۷۶.۲۴٪ | ۷۷.۷۳٪ | ۸۱.۳۳٪ |
Shiraz | ۷۳.۵۹٪ | ۶۶.۹۷٪ | ۷۶.۹۳٪ |
FaBERT | ۷۳.۵۵٪ | ۷۲.۶۵٪ | ۷۹.۸۸٪ |
AriaBERT | ۷۳.۶۱% | ۶۹.۱۱% | ۷۸.۱۳۵% |
Hooshvare (BERT) | ۷۳.۵۹% | ۵۹.۲۷% | ۷۶.۶۱% |
Hooshvare (RoBERTa) | ۷۱.۷۱% | ۵۷.۹۶% | ۷۷.۹۷% |
مدل تهران با بالاترین دقت در میان مدلهای موجود زبان فارسی عرضه شده است.
این مدلها بر روی مجموعه دادههای غنی و متنوع از موضوعات مختلف آموزش دیدهاند.
آموزش بر روی تقریباً ۱۱ میلیارد توکن (کلمه) فارسی انجام شده است.
مدل شیراز با حفظ کارایی رقابتی، از سرعت بالایی برخوردار است.
برای دریافت اطلاعات بیشتر و دریافت آپدیتهای مربوط به دو مدل زبانی تهران و شیراز فرم زیر را تکمیل کنید.
لایفوب، مدل زبانی شیراز را به صورت open source در دسترس توسعهدهندگان قرار داده است. برای مشاهده بیشتر روی آیکنهای زیر کلیک کنید.