دیتاست چیست و چه انواعی دارد؟
حتی اگر کمی با دنیای دادهها آشنایی داشته باشید، احتمالا عبارت «دیتاست» به گوشتان خورده است. در این مطلب از لایفوب به معنای دیتاست، انواع و روشهای ایجاد آن میپردازیم. در نظر داشته باشید که دیتاست و توضیحات مربوط به آن میتوانند پیچیده و گسترده باشند اما ما در این مطلب به صورت کلی به آن میپردازیم تا برای عموم مخاطبان قابل درک باشد. با مجموعه پایش فضای مجازی لایفوب همراه باشید.
دیتاست چیست؟
همانطور که میدانیم به مجموعه اطلاعاتی که از طریق مشاهدات، اندازهگیریها، مطالعه یا تجزیه و تحلیل به دست میآید، داده اطلاق میشود که میتواند شامل اطلاعاتی مانند حقایق، اعداد، ارقام، نامها و… باشد.
دادهها را میتوان در قالب گراف، نمودارها یا جدول سازماندهی کرد. از طریق داده کاوی، دانشمندان داده به تجزیه و تحلیل داده های جمعآوری شده کمک میکنند.
دیتاست (Dataset) به دادههایی گفته میشود که با موضوع یکسان، برای انجام تحقیقات و پروژههای مربوط به علم داده (Data Science) و کسب دانش از دادهها و همچنین مقایسه بین روشهای مختلف استفاده میشوند.
یکی از پر کاربردترین قالبها برای دیتاست، قالب CSV است که جدولی شامل ستونها و ردیفهای مشخص است اما قالبهای دیگری نیز برای مجموعهٔ دادهها استفاده میشود.
روشهای ایجاد دیتاست
دیتاستها غالبا به صورت عمومی عرضه میشوند اما ممکن است برای موضوعات خاصی، دیتاست مورد نظر را پیدا نکنید. در چنین شرایطی باید سراغ راههای ایجاد مجموعهٔ داده بروید.
در واقع دیتاستها از راههای مختلفی ایجاد میشوند که از این روشها میتوان به موارد زیر اشاره کرد:
- دادههای تولید شده از ماشینها
- دادههای ثبت شده از مشاهدات انسانی
- دادههای ثبت شده از وبسایتها
- دادههای جمعآوری شده از نظرسنجی
دادههای دیتاست میتوانند متنی، جدولی یا مولتی مدیا باشند. به عنوان مثال یک دیتاست میتواند شامل نظرات کاربران درشبکههای اجتماعی باشد و دیتاست دیگری، شامل عکس دوربینهای مداربسته.
همچنین مجموعهٔ دادهها میتوانند از لحاظ رسانهای که روی آن ارائه میشوند، در ۴ دسته قرار بگیرند:
- دیتاستهایی که بر روی یک فایل هستند.
- دیتاستهایی روی چند فایل قرار دارند.
- دیتاستهایی که بر روی پایگاه داده قرار دارند.
- دیتاستهایی که در وب هستند.
منابع دیتاست
برای دسترسی به مجموعه دادهها، منابع گوناگونی وجود دارد که تعدادی از آنها را بیان میکنیم:
- Google Dataset Search
- Kaggle
- Amazon
- World Bank Data
- Github
- Visual Data
- The Big Bad NLP Database
- DataVancouver
دیتاستها چه انواعی دارند؟
از انواع مجموعه دادهها میتوان به دیتاستهای متنی، تصویری و صوتی اشاره کرد.
در ادامه چند نمونه از دیتاستها را بیان میکنیم.
مثال:
- مجموعه دادهٔ Boston Housing Dataset یک مجموعه دادهٔ عمومی محسوب میشود که شامل اطلاعات مربوط به مسکن در منطق بوستون است توسط سرویس سرشماری ایالات متحده جمعآوری و تهیه شده است.
- دیتاست Mall Customers Dataset مجموعه دادههایی شامل اطلاعات افرادی است که به یک مرکز خرید مراجعه و از آن بازدید میکنند. این دیتاست شامل جنسیت، سن، درآمد و سایر اطلاعات مشابه از این افراد است. مجموعه دادههای Mall Customers Dataset یکی از دیتاستهای یادگیری ماشین به شمار میروند.
- Twitter Airline Sentiment: شامل دادههای توییتری مربوط به خطوط هوایی ایالات متحده است که در دستهبندیهای مثبت، منفی و خنثی قرار گرفتهاند؛ این دیتاست یکی از مجموعه دادههای تجزیه و تحلیل احساسات است.