پردازش زبان طبیعی (LM) در عصر دادهها
یادداشت محمدعلی دادگسترنیا؛ مدیر ترویج، آموزش و پژوهش شرکت لایفوب | پردازش زبان طبیعی (LM) در عصر دادهها
پردازش زبان طبیعی (LM) [1] که اصطلاحا به آن زبانشناسی محاسباتی[2] هم میگویند، یک حوزهی میان رشتهای است که علوم مختلف را مانند علوم کامپیوتر، هوش مصنوعی، زبانشناسی، روان شناسی و جامعه شناسی را در برمیگیرد. هدف این حوزهی نوظهور (پردازش زبان طبیعی (LM))، داشتن قدرت برای درک و انتقال زبانهای انسانی به رایانه و کامپیوتر است تا قادر باشد معنایی را از ورودیهای طبیعی، مخصوصا متنهای غیر ساخت یافته و همچنین مبادلات صوتی بدست آورد.
تاریخ آغاز حوزه مطالعاتی، به دهه 1950 بر می گردد، آنگاه که آلن تورینگ مقالهی خود را با نام و عنوان “Computing Machinery and intelligence” منتشر کرد و عموم مردم توانستند با نظرات او آشنا شوند و به عنوان متری جهت سنجش هوشمندی ماشینها مورد توجه قرار گرفت تا سال 1980 که با معرفی مفاهیم، پیچدگی و ابداعات یادگیری ماشین، انقلابی نوآورانه و بدیع در محدوده تحقیقاتی NLP و در زمینه پردازش زبان اتفاق افتاد. بعد از آن مدلهای مدرنتر NLP از الگوهای یادگیری ماشین که تا آن زمان کم کم داشت جا میافتاد به منظور محاسبه قوانین پنهان و سازوکارهای پشت پردهی زبان های متنی و صوتی انسان با پردازش حجم گستردهای از دادهها مورد توجه قرار گرفت.
بیشتر بخوانید: مدلهای تهران و شیراز گامی تازه در پردازش زبان فارسی
چندین و چند کار در زمینه NLP وجود دارد که به نحوی مستقیم در دنیای واقعی مورد توجه بودهاند. برای نمونه ترجمه ماشینی به عنوان یک مثال واقعی و ملموس از مواردی است که یک زبان انسان در فرم و قالب متن به عنوان ورودی در نظر گرفته شده و سپس در یک زبان مقصد در قالب متن ترجمه میشود. در سوی دیگر آن برنامههایی مانند برچسب زنی گفتار[3] که به منظور شناخت جایگاه دستوری کلمات در جملات یا عبارت مورد استفاده قرار میگیرد نیز دیده میشوند.
پردازش زبان طبیعی (LM) چه چالشهایی دارد؟
حدود هشتاد و پنج درصد از داده های شبکه های اجتماعی بدون ساختار هستند که هر هجده ماه حدودا دوبرابر میشوند. تکنیکهای متن کاوی به ماشین کمک میکنند تا قادر باشد میزان وسیعی از دادههای متنی غیر ساخت یافته را پردازش و اطلاعات مفید را از آنها احصاء کنند. هنگامی که تکنیکهای متن کاوی با روشهایی مثل یادگیری ماشین، یادگیری عمیق و شبکههای عصبی مصنوع ترکیب و همراه میشود، با مدلهایی شبیه به مدلهای تحلیل کیفی متن مواجه میشویم.
متن کاوی ابتدا خودش ساختاری را برای دادهها مشخص میکند و سپس به کاوش در دادههای ساختاریافته میپردازد. در ساختاردهی به متون از پردازش زبان طبیعی (LM) و یادگیری ماشین استفاده میشود که زیرشاخهای از هوش مصنوعی بوده و هدف از آن درک معنا در زبان های طبیعی است. موضوع مطالعه NLP درک زبان طبیعی انسان توسط ماشین است و هدف آن به نوعی این موضوع است که رایانه زبان طبیعی را هم به عنوان ورودی و هم به عنوان خروجی در نظر بگیرد.
زبان های طبیعی یکی از زمینههایی است که شدیدا تحت تاثیر داده ها است و بسیاری از کاربردهای NLP از سیستم های قاعده محور و روش های دانش محور به سمت رویکردهای داده محور حرکت میکنند. با این حال، دادههای جمع آوری شدهای که مبتنی بر معیار طراحی نامشخص یا فرمهای نامناسب از لحاظ فنی هستند، قابل تحلیل و پردازش نیستند. شکل زیر نشان میدهد که چطور با فرآیندهای مبتنی بر پردازش زبان طبیعی (LM) در پی ساختارمند کردن دادهها هستیم:
[1] NLP: Natural Language Processing
[2] Computational Linguistic
[3] POS: Part-Of-Speech