یازده گام مهم استخراج خصوصیات داده‌ها با زبان برنامه‌نویسی پایتون

یازده گام مهم استخراج خصوصیات داده‌ها با زبان برنامه‌نویسی پایتون

شناخت درست داده اولین و مهمترین گام شروع عملیات حوزه‌‌‌های تحلیل داده و یادگیری ماشین است که بر اساس آن مراحل آماده‌سازی داده پایه‌ریزی می‌شوند. این شناخت از یک سو مربوط به منبع اطلاعات و چیستی آنهاست (به عنوان نمونه شناخت کسب و کاری که این دیتا مرتبط با آن است یا فرآیندی که در نهایت منجر به تولید این داده‌ها شده‌اند) و از سوی دیگر بررسی آنچه که اکنون در اختیار ما قرار گرفته است. در این مقاله ۱۱ گام مهم اکتشاف در داده‌ها با استفاده از زبان برنامه‌نویسی پایتون شرح داده شده است.

11 Essential Code Blocks for Complete EDA

جمع‌بندی و نکات تکمیلی

در ادامه جمع‌بندی نوشته‌های فوق به همراه برخی نکات تکمیلی و مفید آمده است.

تحلیل اکتشافی داده‌ها (Exploratory Data Analysis یا EDA) چیست؟

  [برگرد بالا]

تحلیل اکتشافی داده‌ها یا EDA یکی از اولین مراحل در فرآیند علم داده است که هدف آن شناخت اولیه و شهودی از ساختار داده‌ها، ویژگی‌ها و الگوهای پنهان در آن‌هاست. در این مرحله بدون ورود به مدل‌سازی، داده‌ها بررسی، تمیز و تحلیل ابتدایی می‌شوند.

چرا انجام EDA در پروژه‌های علم داده اهمیت دارد؟

  [برگرد بالا]

EDA کمک می‌کند تا ساختار داده‌ها بهتر درک شود، داده‌های ناقص یا ناهنجار شناسایی شوند، متغیر هدف (Target Variable) مشخص شود، و مسیر مدل‌سازی داده‌ها بهینه‌تر انتخاب گردد.

برای انجام تحلیل اکتشافی داده‌ها از چه کتابخانه‌هایی در پایتون استفاده می‌شود؟

  [برگرد بالا]

کتابخانه‌های متداول در EDA عبارت‌اند از Pandas برای کار با داده‌ها و DataFrameها، NumPy برای محاسبات عددی، Matplotlib و Seaborn برای رسم نمودار و مصورسازی داده‌ها.

در EDA چه نوع تحلیل‌هایی انجام می‌شود؟

  [برگرد بالا]

در فرآیند EDA معمولا تحلیل‌های زیر انجام می‌شود:

1. بررسی شکل کلی داده‌ها (تعداد سطر و ستون‌ها)،

2. شناسایی نوع داده‌ها (عددی یا متنی)،

3. بررسی مقادیر گمشده (NaN)،

4. تحلیل توزیع متغیرها (Histogram)،

5. خلاصه آماری داده‌های عددی،

6. تحلیل ویژگی‌های طبقه‌ای (Categorical)،

7. بررسی همبستگی (Correlation) بین متغیرها.

خلاصه آماری متغیرهای عددی در پایتون چگونه به‌دست می‌آید؟

  [برگرد بالا]

برای مشاهده‌ی آمارهای کلیدی مانند میانگین، میانه، مینیمم و ماکسیمم از دستور ()data.describe استفاده می‌شود.

چگونه می‌توان توزیع ویژگی‌های عددی را در پایتون مشاهده کرد؟

  [برگرد بالا]

می‌توان از دستور hist در Pandas استفاده مثل data.hist(figsize=(14,14), xrot=45) استفاده کرد.

چگونه می‌توان ویژگی‌های طبقه‌ای (Categorical) را تحلیل کرد؟

  [برگرد بالا]

برای بررسی ویژگی‌های متنی یا طبقه‌ای می‌توان از دستور data.describe(include='object') بهره برد.

ماتریس همبستگی (Correlation Matrix) در EDA چه کاربردی دارد؟

  [برگرد بالا]

ماتریس همبستگی میزان رابطه‌ی بین متغیرهای عددی را نشان می‌دهد. برای رسم آن در پایتون از دستوری مانند sns.heatmap(data.corr(), cmap='RdBu_r', annot=True) استفاده می‌شود.

در فرآیند EDA چه مشکلاتی در داده‌ها باید شناسایی شوند؟

  [برگرد بالا]

در EDA باید به موارد زیر دقت کرد:

+ وجود داده‌های ناقص یا گمشده

+ مقادیر پرت (Outliers)

+ نوع داده‌های اشتباه (مثلا عددی که باید متنی باشد)

+ مقادیر غیرمنطقی.

آیا تحلیل اکتشافی داده‌ها فقط برای داده‌های عددی کاربرد دارد؟

  [برگرد بالا]

خیر. EDA شامل تحلیل هر دو نوع داده‌ی عددی و متنی (Categorical) است. هدف آن درک کلی از ساختار داده‌ها، توزیع‌ها و روابط بین متغیرهاست.

داده‌های پرت (Outliers) در EDA چگونه شناسایی می‌شوند؟

  [برگرد بالا]

با مشاهده‌ی هیستوگرام‌ها یا نمودار جعبه‌ای می‌توان داده‌هایی را که به‌طور غیرعادی بزرگ یا کوچک‌اند شناسایی کرد.

هدف از رسم نمودار جعبه‌ای (Boxplot) در EDA چیست؟

  [برگرد بالا]

نمودار جعبه‌ای برای مقایسه‌ی توزیع متغیر هدف (مثل قیمت) در بین کلاس‌های مختلف یک ویژگی طبقه‌ای (مثل نوع ملک یا منطقه) استفاده می‌شود.

چگونه می‌توان چند ردیف از داده‌ها را مشاهده کرد؟

  [برگرد بالا]

با استفاده از توابع ()data.head()، data.tail و ()data.sample می‌توان نمونه‌هایی از داده را مشاهده کرد تا درک بهتری از مقادیر و ستون‌ها به‌دست آید.

✓ مسعود اقدسی‌فام - ۳۰ شهریور ۱۴۰۲ - آخرین به‌روزرسانی: ۲۲ مهر ۱۴۰۴

نسخه‌ی اصلی این نوشته در لینکدین من منتشر شده است. برای مشاهده و ثبت نظر به این پیوند مراجعه کنید.


تا کنون ۰ امتیاز ثبت شده
نوشته لایک نداشت؟
 
به اشتراک گذاری نوشته

algs.ir/qhebks

اشتراک‌گذاری در LinkedIn     اشتراک‌گذاری در Twitter     ارسال با Telegram

نام: *  
پست الکترونیک (محرمانه):
تاریخ امروز با فرمت 14YYMMDD: *  
پیام: *