شناخت درست داده اولین و مهمترین گام شروع عملیات حوزههای تحلیل داده و یادگیری ماشین است که بر اساس آن مراحل آمادهسازی داده پایهریزی میشوند. این شناخت از یک سو مربوط به منبع اطلاعات و چیستی آنهاست (به عنوان نمونه شناخت کسب و کاری که این دیتا مرتبط با آن است یا فرآیندی که در نهایت منجر به تولید این دادهها شدهاند) و از سوی دیگر بررسی آنچه که اکنون در اختیار ما قرار گرفته است. در این مقاله ۱۱ گام مهم اکتشاف در دادهها با استفاده از زبان برنامهنویسی پایتون شرح داده شده است.
11 Essential Code Blocks for Complete EDA
جمعبندی و نکات تکمیلی
در ادامه جمعبندی نوشتههای فوق به همراه برخی نکات تکمیلی و مفید آمده است.
[برگرد بالا]تحلیل اکتشافی دادهها یا EDA یکی از اولین مراحل در فرآیند علم داده است که هدف آن شناخت اولیه و شهودی از ساختار دادهها، ویژگیها و الگوهای پنهان در آنهاست. در این مرحله بدون ورود به مدلسازی، دادهها بررسی، تمیز و تحلیل ابتدایی میشوند.
[برگرد بالا]EDA کمک میکند تا ساختار دادهها بهتر درک شود، دادههای ناقص یا ناهنجار شناسایی شوند، متغیر هدف (Target Variable) مشخص شود، و مسیر مدلسازی دادهها بهینهتر انتخاب گردد.
[برگرد بالا]کتابخانههای متداول در EDA عبارتاند از Pandas برای کار با دادهها و DataFrameها، NumPy برای محاسبات عددی، Matplotlib و Seaborn برای رسم نمودار و مصورسازی دادهها.
[برگرد بالا]در فرآیند EDA معمولا تحلیلهای زیر انجام میشود:
1. بررسی شکل کلی دادهها (تعداد سطر و ستونها)،
2. شناسایی نوع دادهها (عددی یا متنی)،
3. بررسی مقادیر گمشده (NaN)،
4. تحلیل توزیع متغیرها (Histogram)،
5. خلاصه آماری دادههای عددی،
6. تحلیل ویژگیهای طبقهای (Categorical)،
7. بررسی همبستگی (Correlation) بین متغیرها.
[برگرد بالا]برای مشاهدهی آمارهای کلیدی مانند میانگین، میانه، مینیمم و ماکسیمم از دستور ()data.describe استفاده میشود.
[برگرد بالا]میتوان از دستور hist در Pandas استفاده مثل data.hist(figsize=(14,14), xrot=45) استفاده کرد.
[برگرد بالا]برای بررسی ویژگیهای متنی یا طبقهای میتوان از دستور data.describe(include='object') بهره برد.
[برگرد بالا]ماتریس همبستگی میزان رابطهی بین متغیرهای عددی را نشان میدهد. برای رسم آن در پایتون از دستوری مانند sns.heatmap(data.corr(), cmap='RdBu_r', annot=True) استفاده میشود.
[برگرد بالا]در EDA باید به موارد زیر دقت کرد:
+ وجود دادههای ناقص یا گمشده
+ مقادیر پرت (Outliers)
+ نوع دادههای اشتباه (مثلا عددی که باید متنی باشد)
+ مقادیر غیرمنطقی.
[برگرد بالا]خیر. EDA شامل تحلیل هر دو نوع دادهی عددی و متنی (Categorical) است. هدف آن درک کلی از ساختار دادهها، توزیعها و روابط بین متغیرهاست.
[برگرد بالا]با مشاهدهی هیستوگرامها یا نمودار جعبهای میتوان دادههایی را که بهطور غیرعادی بزرگ یا کوچکاند شناسایی کرد.
[برگرد بالا]نمودار جعبهای برای مقایسهی توزیع متغیر هدف (مثل قیمت) در بین کلاسهای مختلف یک ویژگی طبقهای (مثل نوع ملک یا منطقه) استفاده میشود.
[برگرد بالا]با استفاده از توابع ()data.head()، data.tail و ()data.sample میتوان نمونههایی از داده را مشاهده کرد تا درک بهتری از مقادیر و ستونها بهدست آید.