کیفیت داده؛ از ضرب‌المثل «Garbage In, Garbage Out» تا ابزار Great Expectations

کیفیت داده؛ از ضرب‌المثل «Garbage In, Garbage Out» تا ابزار Great Expectations

✓ مسعود اقدسی‌فام - ۲۷ اسفند ۱۴۰۳ - آخرین به‌روزرسانی: ۱۷ مهر ۱۴۰۴

در دنیای علم کامپیوتر و فناوری اطلاعات، ضرب‌المثل معروفی وجود دارد که می‌گوید: «Garbage In, Garbage Out»؛ یعنی اگر داده‌های ورودی نامناسب باشند، خروجی نیز قابل اعتماد نخواهد بود. در حوزه‌ی علم داده که کیفیت اطلاعات ورودی نقش اساسی در نتایج نهایی دارد، می‌توان گفت معادل فارسی این مفهوم، همان ضرب‌المثل «خشت اول گر نهد معمار کج...» است؛ زیرا اگر از همان ابتدا داده‌ها به‌درستی آماده‌سازی نشوند، در مراحل بعدی پروژه نیز با مشکلات متعددی روبه‌رو خواهیم شد. به همین دلیل است که در بسیاری از منابع علمی و تجربی می‌خوانیم و مشاهده می‌کنیم که ۶۰ تا ۸۰ درصد زمان و انرژی پروژه‌های داده‌محور صرف آماده‌سازی و پاک‌سازی داده‌ها می‌شود.

در این میان، کتابخانه‌ی Great Expectations (GX) یکی از ابزارهای متن‌باز پایتون است که برای بررسی و تضمین کیفیت داده‌ها توسعه یافته است. با استفاده از GX می‌توان به‌سادگی انتظارات (Expectations) از داده‌ها را تعریف کرد؛ برای مثال می‌توان مشخص کرد که مقدارها تهی نباشند، مثبت باشند، یا حتی شرط‌های ترکیبی دلخواه بین چند ستون برقرار باشد. در ادامه، با اجرای کد (مشابه آزمون‌های واحد یا Unit Test) گزارشی از مواردی که با انتظارات تعریف‌شده هم‌خوانی ندارند تولید می‌شود. این گزارش قابلیت مشاهده در یک رابط کاربری گرافیکی ساده را نیز دارد. از سوی دیگر، GX امکان ساخت پروفایل داده‌ها (Data Profile) را فراهم می‌کند؛ نمایی کلی از داده شامل توزیع آماری، پراکندگی، تعداد مقادیر تهی و سایر شاخص‌های توصیفی که در مرحله‌ی تحلیل اکتشافی داده‌ها (EDA) بسیار مفید است.

به طور خلاصه، این ابزار به متخصصان داده کمک می‌کند تا کیفیت داده‌ها را به‌شکل شفاف، ساخت‌یافته و قابل تکرار ارزیابی کنند؛ امری که در پروژه‌های داده‌ای بزرگ و پیچیده اهمیت حیاتی دارد. افزون بر این، GX از ادغام با ابزارهای پرکاربردی مانند Pandas، Spark و SQLAlchemy نیز پشتیبانی می‌کند.


نسخه‌ی اصلی این نوشته در لینکدین من منتشر شده است. برای مشاهده و ثبت نظر به این پیوند مراجعه کنید.


تا کنون ۰ امتیاز ثبت شده
نوشته لایک نداشت؟
 
به اشتراک گذاری نوشته

algs.ir/q5lp8g

اشتراک‌گذاری در LinkedIn     اشتراک‌گذاری در Twitter     ارسال با Telegram

نام: *  
پست الکترونیک (محرمانه):
پیام: *