فرض کنید مجموعهی بزرگی از تصاویر حیوانات از سطح وب گردآوری کردهاید، اما هیچ برچسبی برای آنها وجود ندارد. برچسبگذاری دستی هر تصویر برای تعیین نوع حیوان فرایندی زمانبر و پرهزینه است. یا سناریویی مشابه را در نظر بگیرید که مجموعهای عظیم از اخبار متنی که بدون برچسب موضوعی (سیاسی، ورزشی، فناوری و...) جمعآوری شدهاند. در این حالت نیز برچسبزنی تکتک دادهها عملا مقرونبهصرفه نیست.
در چنین شرایطی، یادگیری خودنظارتی (Self-Supervised Learning یا SSL) بهعنوان یکی از رویکردهای کلیدی در مدلهای زبانی بزرگ (LLMs) و پردازش تصویر (Computer Vision) وارد عمل میشود. در این روش، مدل بدون نیاز به دادههای برچسبخورده، از خود دادهها برای تولید سیگنال آموزشی استفاده میکند.
برای نمونه، در مدلهای زبانی بزرگ، یادگیری خودنظارتی با وظایفی مانند پیشبینی توکن بعدی یا بازسازی توکنهای حذفشده از متن انجام میشود. این فرایند باعث میشود مدل ساختار زبان و معنا را از دل دادههای متنی گسترده بیاموزد. در حوزهی بینایی ماشین نیز از روشهایی مانند پیشبینی زاویهی چرخش تصویر یا بازسازی بخشهای حذفشده از تصویر برای استخراج ویژگیهای درونی داده استفاده میشود. به این ترتیب، مدل میتواند ویژگیهای قدرتمند و قابلانتقالی را از دادههای بدون برچسب یاد بگیرد، بدون نیاز به صرف زمان یا هزینهی زیاد برای برچسبگذاری دستی.
در ریپوی SSL، چند نمونه از الگوریتمهای یادگیری خودنظارتی با استفاده از زبان Python پیادهسازی شدهاند.