اکتشاف داده با پایتون

۳۰ شهریور ۱۴۰۲

المپیاد هوش مصنوعی پایتون هوش مصنوعی تحلیل داده لینکدین مقاله علمی یادگیری ماشین

شناخت درست داده اولین و مهمترین گام شروع عملیات حوزه‌‌‌های تحلیل داده و یادگیری ماشین است که بر اساس آن مراحل آماده‌سازی داده پایه‌ریزی می‌شوند. این شناخت از یک سو مربوط به منبع اطلاعات و چیستی آنهاست (به عنوان نمونه شناخت کسب و کاری که این دیتا مرتبط با آن است یا فرآیندی که در نهایت منجر به تولید این داده‌ها شده‌اند) و از سوی دیگر بررسی آنچه که اکنون در اختیار ما قرار گرفته است. در این مقاله ۱۱ گام مهم اکتشاف در داده‌ها با استفاده از زبان برنامه‌نویسی پایتون شرح داده شده است.

11 Essential Code Blocks for Complete EDA

جمع‌بندی و نکات تکمیلی

در ادامه جمع‌بندی نوشته‌های فوق به همراه برخی نکات تکمیلی و مفید آمده است.

تحلیل اکتشافی داده‌ها (Exploratory Data Analysis یا EDA) چیست؟

[برگرد بالا]

تحلیل اکتشافی داده‌ها یا EDA یکی از اولین مراحل در فرآیند علم داده است که هدف آن شناخت اولیه و شهودی از ساختار داده‌ها، ویژگی‌ها و الگوهای پنهان در آن‌هاست. در این مرحله بدون ورود به مدل‌سازی، داده‌ها بررسی، تمیز و تحلیل ابتدایی می‌شوند.

چرا انجام EDA در پروژه‌های علم داده اهمیت دارد؟

[برگرد بالا]

EDA کمک می‌کند تا ساختار داده‌ها بهتر درک شود، داده‌های ناقص یا ناهنجار شناسایی شوند، متغیر هدف (Target Variable) مشخص شود، و مسیر مدل‌سازی داده‌ها بهینه‌تر انتخاب گردد.

برای انجام تحلیل اکتشافی داده‌ها از چه کتابخانه‌هایی در پایتون استفاده می‌شود؟

[برگرد بالا]

کتابخانه‌های متداول در EDA عبارت‌اند از Pandas برای کار با داده‌ها و DataFrameها، NumPy برای محاسبات عددی، Matplotlib و Seaborn برای رسم نمودار و مصورسازی داده‌ها.

در EDA چه نوع تحلیل‌هایی انجام می‌شود؟

[برگرد بالا]

در فرآیند EDA معمولا تحلیل‌های زیر انجام می‌شود:

1. بررسی شکل کلی داده‌ها (تعداد سطر و ستون‌ها)،

2. شناسایی نوع داده‌ها (عددی یا متنی)،

3. بررسی مقادیر گمشده (NaN)،

4. تحلیل توزیع متغیرها (Histogram)،

5. خلاصه آماری داده‌های عددی،

6. تحلیل ویژگی‌های طبقه‌ای (Categorical)،

7. بررسی همبستگی (Correlation) بین متغیرها.

خلاصه آماری متغیرهای عددی در پایتون چگونه به‌دست می‌آید؟

[برگرد بالا]

برای مشاهده‌ی آمارهای کلیدی مانند میانگین، میانه، مینیمم و ماکسیمم از دستور ()data.describe استفاده می‌شود.

چگونه می‌توان توزیع ویژگی‌های عددی را در پایتون مشاهده کرد؟

[برگرد بالا]

می‌توان از دستور hist در Pandas استفاده مثل data.hist(figsize=(14,14), xrot=45) استفاده کرد.

چگونه می‌توان ویژگی‌های طبقه‌ای (Categorical) را تحلیل کرد؟

[برگرد بالا]

برای بررسی ویژگی‌های متنی یا طبقه‌ای می‌توان از دستور data.describe(include='object') بهره برد.

ماتریس همبستگی (Correlation Matrix) در EDA چه کاربردی دارد؟

[برگرد بالا]

ماتریس همبستگی میزان رابطه‌ی بین متغیرهای عددی را نشان می‌دهد. برای رسم آن در پایتون از دستوری مانند sns.heatmap(data.corr(), cmap='RdBu_r', annot=True) استفاده می‌شود.