در دنیای علم کامپیوتر و فناوری اطلاعات، ضربالمثل معروفی وجود دارد که میگوید: «Garbage In, Garbage Out»؛ یعنی اگر دادههای ورودی نامناسب باشند، خروجی نیز قابل اعتماد نخواهد بود. در حوزهی علم داده که کیفیت اطلاعات ورودی نقش اساسی در نتایج نهایی دارد، میتوان گفت معادل فارسی این مفهوم، همان ضربالمثل «خشت اول گر نهد معمار کج...» است؛ زیرا اگر از همان ابتدا دادهها بهدرستی آمادهسازی نشوند، در مراحل بعدی پروژه نیز با مشکلات متعددی روبهرو خواهیم شد.
به همین دلیل است که در بسیاری از منابع علمی و تجربی میخوانیم و مشاهده میکنیم که ۶۰ تا ۸۰ درصد زمان و انرژی پروژههای دادهمحور صرف آمادهسازی و پاکسازی دادهها میشود.
در این میان، کتابخانهی Great Expectations (GX) یکی از ابزارهای متنباز پایتون است که برای بررسی و تضمین کیفیت دادهها توسعه یافته است. با استفاده از GX میتوان بهسادگی انتظارات (Expectations) از دادهها را تعریف کرد؛ برای مثال میتوان مشخص کرد که مقدارها تهی نباشند، مثبت باشند، یا حتی شرطهای ترکیبی دلخواه بین چند ستون برقرار باشد. در ادامه، با اجرای کد (مشابه آزمونهای واحد یا Unit Test) گزارشی از مواردی که با انتظارات تعریفشده همخوانی ندارند تولید میشود. این گزارش قابلیت مشاهده در یک رابط کاربری گرافیکی ساده را نیز دارد. از سوی دیگر، GX امکان ساخت پروفایل دادهها (Data Profile) را فراهم میکند؛ نمایی کلی از داده شامل توزیع آماری، پراکندگی، تعداد مقادیر تهی و سایر شاخصهای توصیفی که در مرحلهی تحلیل اکتشافی دادهها (EDA) بسیار مفید است.
به طور خلاصه، این ابزار به متخصصان داده کمک میکند تا کیفیت دادهها را بهشکل شفاف، ساختیافته و قابل تکرار ارزیابی کنند؛ امری که در پروژههای دادهای بزرگ و پیچیده اهمیت حیاتی دارد. افزون بر این، GX از ادغام با ابزارهای پرکاربردی مانند Pandas، Spark و SQLAlchemy نیز پشتیبانی میکند.