هر محصول علاوه بر توسعه نیاز به پشتیبانی و نگهداشت دارد. مدلهای تحلیل داده و یادگیری ماشین نیز از این قاعده مستثنی نیستند. این مدلها بر اساس مجموعهای از دادهها ساخته میشوند. اما پس از استقرار در محصول و گذشت زمان، غیرقابل اعتماد و قدیمی شده و دقت کاهش مییابد. دلیل این موضوع این است که دادههای ورودی جدید در محیط واقعی تغییر میکنند و ممکن است باعث عملکرد ناعادلانه مدل شود. تغییرات ممکن است در مفهوم داده یا توزیع ویژگیها اتفاق بیافتد.
مقالهی زیر در مورد اهمیت رصد تغییرات در دادهها، روشهای شناسایی این تغییرات با استفاده از تستهای مختلف و مدیریت این تغییرات در محصول با استفاده از زبان برنامهنویسی پایتون بحث میکند.
The Importance of Data Drift Detection that Data Scientists Do Not Know
جمعبندی و نکات تکمیلی
در ادامه جمعبندی نوشتههای فوق به همراه برخی نکات تکمیلی و مفید آمده است.
[برگرد بالا]رانش داده زمانی رخ میدهد که ویژگیهای آماری دادههای ورودی با گذشت زمان تغییر کنند. این تغییر باعث کاهش دقت مدلهای یادگیری ماشین و ایجاد خطا در پیشبینیها میشود.
[برگرد بالا]تشخیص رانش داده به حفظ پایداری و دقت مدلها در محیط واقعی (Production) کمک میکند. اگر رانش داده شناسایی نشود، مدل ممکن است به مرور عملکرد خود را از دست بدهد.
[برگرد بالا]زیرا دادهها همواره در حال تغییرند و مدلهایی که در گذشته دقیق بودهاند ممکن است در آینده نادرست عمل کنند. پایش مستمر رانش داده تضمین میکند که مدلها بهصورت پویا با محیط جدید هماهنگ بمانند و کیفیت پیشبینیهای آنها در طول زمان کاهش پیدا نکند.
[برگرد بالا]دو نوع اصلی رانش داده وجود دارد. در رانش مفهومی (Concept Drift) تغییر در رابطهی بین متغیر هدف و ویژگیها پیش آمده است. اما در رانش کوواریانس (Covariate Drift) تغییر در توزیع متغیرهای ورودی وجود دارد؛ حتی اگر رابطهی آنها با متغیر هدف ثابت مانده باشد.
[برگرد بالا]تفاوت این دو در نوع تغییری است که رخ میدهد. در رانش مفهومی، معنای خروجی یا متغیر هدف تغییر میکند، در حالی که در رانش کوواریانس فقط ویژگیهای ورودی تغییر میکنند اما رابطهی میان آنها و خروجی همچنان ثابت است.
[برگرد بالا]تغییر رفتار کاربران، تغییرات فصلی، بهروزرسانی سیستمها، یا شرایط جدید محیطی از دلایل رایج بروز رانش داده هستند.
[برگرد بالا]برای شناسایی رانش داده از روشهای آماری و الگوریتمی استفاده میشود. آزمونهایی مانند Kolmogorov–Smirnov (یا آزمون K-S(، شاخص پایداری جمعیت یا PSI، و روشهای یادگیری تطبیقی مثل ADWIN و Page-Hinkley از رایجترین تکنیکها هستند که اختلاف بین توزیع دادههای قدیمی و جدید را اندازهگیری میکنند.
[برگرد بالا]آزمون K-S یا Kolmogorov–Smirnov با مقایسهی توزیع تجمعی دادههای آموزشی و دادههای جدید بررسی میکند که آیا تفاوت آماری معناداری بین آنها وجود دارد یا نه. اگر این تفاوت زیاد باشد، نشان میدهد که دادهها دچار رانش شدهاند.
[برگرد بالا]PSI شاخصی است که میزان تغییر توزیع دادهها در طول زمان را نشان میدهد. اگر مقدار PSI کمتر از 0.1 باشد، تغییر خاصی در دادهها رخ نداده است. مقدار بین 0.1 و 0.2 نشاندهندهی تغییر جزئی و بالاتر از 0.2 نشانهی وقوع رانش داده قابلتوجه است که نیاز به بررسی و بازآموزی مدل دارد.
[برگرد بالا]الگوریتم ADWIN یا Adaptive Windowing با استفاده از پنجرههای لغزان، میانگین مقادیر داده را در طول زمان پایش میکند. هرگاه اختلاف میانگین در دو بخش از پنجره از حد مشخصی بیشتر شود، سیستم نتیجه میگیرد که رانش داده اتفاق افتاده است.
روش Page-Hinkley چه کاربردی در تشخیص رانش داده دارد؟
[برگرد بالا]روش Page-Hinkley یکی از الگوریتمهای کلاسیک برای شناسایی تغییر در توزیع دادههاست. این روش میانگین مقادیر مشاهدهشده را به مرور زمان دنبال میکند و زمانی که اختلاف میانگین از حد آستانهی تعریفشده بیشتر شود، اعلام میکند که رانش داده رخ داده است.
[برگرد بالا]بله، در بسیاری از سامانههای عملیاتی، تشخیص خودکار رانش داده ضروری است. سیستمهای مانیتورینگ خودکار میتوانند در زمان بروز تغییر در توزیع دادهها هشدار دهند و به تیم داده کمک کنند تا پیش از افت عملکرد مدل، اقدام اصلاحی انجام دهد.
[برگرد بالا]برای مقابله با رانش داده معمولاً از سه رویکرد استفاده میشود. یکی از آنها بازآموزی دورهای مدلهاست تا با دادههای جدید تطبیق پیدا کنند. روش دیگر استفاده از دادههای وزندار است که به دادههای تازه اهمیت بیشتری میدهد. همچنین یادگیری افزایشی یا Incremental Learning به مدل اجازه میدهد تا به مرور زمان با دادههای جدید سازگار شود بدون آنکه نیاز به بازآموزی کامل داشته باشد.
[برگرد بالا]ابزارهای متنوعی برای این کار طراحی شدهاند، از جمله Azure ML Dataset Monitors، Evidently AI، River، Skmultiflow و WhyLabs. این ابزارها با بررسی مداوم دادههای ورودی و خروجی مدل، وقوع رانش داده را شناسایی و گزارش میکنند.
[برگرد بالا]زمانی که شاخصهایی مانند PSI یا نتایج آزمونهای آماری از حد آستانهی تعیینشده فراتر روند یا عملکرد مدل در دقت پیشبینی کاهش پیدا کند، باید مدل بازآموزی شود تا دوباره با شرایط جدید دادهها سازگار گردد.