پردازش زبان طبیعی (LM) در عصر داده‌ها

یادداشت محمدعلی دادگسترنیا؛ مدیر ترویج، آموزش و پژوهش شرکت لایف‌وب | پردازش زبان طبیعی (LM) در عصر داده‌ها

پردازش زبان طبیعی (LM) [1] که اصطلاحا به آن زبانشناسی محاسباتی[2] هم می‌گویند، یک حوزه‌ی میان رشته‌ای است که علوم مختلف را مانند علوم کامپیوتر، هوش مصنوعی، زبانشناسی، روان شناسی و جامعه شناسی را در برمی‌گیرد. هدف این حوزه‌ی نوظهور (پردازش زبان طبیعی (LM))، داشتن قدرت برای درک و انتقال زبان‌های انسانی به رایانه و کامپیوتر است تا قادر باشد معنایی را از ورودی‌های طبیعی، مخصوصا متن‌های غیر ساخت یافته و همچنین مبادلات صوتی بدست آورد.

تاریخ آغاز حوزه مطالعاتی، به دهه 1950 بر می گردد، آنگاه که آلن تورینگ مقاله‌ی خود را با نام و عنوان “Computing Machinery and intelligence” منتشر کرد و عموم مردم توانستند با نظرات او آشنا شوند و به عنوان متری جهت سنجش هوشمندی ماشین‌ها مورد توجه قرار گرفت تا سال 1980 که با معرفی مفاهیم، پیچدگی و ابداعات یادگیری ماشین، انقلابی نوآورانه و بدیع در محدوده تحقیقاتی NLP و در زمینه پردازش زبان اتفاق افتاد. بعد از آن مدل‌های مدرن‌تر NLP از الگوهای یادگیری ماشین که تا آن زمان کم کم داشت جا می‌افتاد به منظور محاسبه قوانین پنهان و سازوکارهای پشت پرده‌ی زبان های متنی و صوتی انسان با پردازش حجم گسترده‌ای از داده‌ها مورد توجه قرار گرفت.

بیشتر بخوانید: مدل‌های تهران و شیراز گامی تازه در پردازش زبان فارسی

چندین و چند کار در زمینه NLP وجود دارد که به نحوی مستقیم در دنیای واقعی مورد توجه بوده‌اند. برای نمونه ترجمه ماشینی به عنوان یک مثال واقعی و ملموس از مواردی است که یک زبان انسان در فرم و قالب متن به عنوان ورودی در نظر گرفته شده و سپس در یک زبان مقصد در قالب متن ترجمه می‌شود. در سوی دیگر آن برنامه‌هایی مانند برچسب زنی گفتار[3] که به منظور شناخت جایگاه دستوری کلمات در جملات یا عبارت مورد استفاده قرار می‌گیرد نیز دیده می‌شوند.

پردازش زبان طبیعی (LM) چه چالش‌هایی دارد؟

حدود هشتاد و پنج درصد از داده های شبکه های اجتماعی بدون ساختار هستند که هر هجده ماه حدودا دوبرابر می‌شوند. تکنیک‌های متن کاوی به ماشین کمک می‌کنند تا قادر باشد میزان وسیعی از داده‌های متنی غیر ساخت یافته را پردازش و اطلاعات مفید را از آن‌ها احصاء کنند. هنگامی که تکنیک‌های متن کاوی با روش‌هایی مثل یادگیری ماشین، یادگیری عمیق و شبکه‌های عصبی مصنوع ترکیب و همراه می‌شود، با مدل‌هایی شبیه به مدل‌های تحلیل کیفی متن مواجه می‌شویم.

متن کاوی ابتدا خودش ساختاری را برای داده‌ها مشخص می‌کند و سپس به کاوش در داده‌های ساختاریافته می‌پردازد. در ساختاردهی به متون از پردازش زبان طبیعی (LM) و یادگیری ماشین استفاده می‌شود که زیرشاخه‌ای از هوش مصنوعی بوده و هدف از آن درک معنا در زبان های طبیعی است. موضوع مطالعه NLP درک زبان طبیعی انسان توسط ماشین است و هدف آن به نوعی این موضوع است که رایانه زبان طبیعی را هم به عنوان ورودی و هم به عنوان خروجی در نظر بگیرد.

زبان های طبیعی یکی از زمینه‌هایی است که شدیدا تحت تاثیر داده ها است و بسیاری از کاربردهای NLP از سیستم های قاعده محور و روش های دانش محور به سمت رویکردهای داده محور حرکت می‌کنند. با این حال، داده‌های جمع آوری شده‌ای که مبتنی بر معیار طراحی نامشخص یا فرم‌های نامناسب از لحاظ فنی هستند، قابل تحلیل و پردازش نیستند. شکل زیر نشان می‌دهد که چطور با فرآیندهای مبتنی بر پردازش زبان طبیعی (LM) در پی ساختارمند کردن داده‌ها هستیم:

[1] NLP: Natural Language Processing

[2] Computational Linguistic

[3] POS: Part-Of-Speech

پردازش زبان طبیعی (LM) در عصر داده‌ها

یادداشت محمدعلی دادگسترنیا؛ مدیر ترویج، آموزش و پژوهش شرکت لایف‌وب | پردازش زبان طبیعی (LM) در عصر داده‌ها

پردازش زبان طبیعی (LM) چه چالش‌هایی دارد؟

دیدگاه خود را بنویسید لغو پاسخ

برای دریافت اطلاعات بیشتر و مشاوره با کارشناسان در مورد محصولات لایف‌وب، با ما تماس بگیرید. | شماره تماس: ۰۲۱۸۸۷۰۰۱۳۳

درباره ما

محصولات

بهترین مطالب بلاگ

خدمات لایف‌وب