الگوریتمستان - مقاله آموزشی

نوشته‌ها با موضوع مقاله آموزشی

یکی از چالش‌های مهم مدل‌های زبانی بزرگ بحث پاسخ‌های متوهمانه‌ است. یعنی مدل مولد در درستی پاسخ‌هایی که می‌دهد هیچ شکی ندارد، در حالی که ممکن است اشتباه باشد. حال وقتی مدل را با داده‌های جدیدی که از قبل هیچ شناختی ندارد فاین‌تیون (تنظیم دقیق‌تر) می‌کنیم، نگران توهم بیشتر باشیم یا نه؟ مقاله‌ی «Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations» در این مورد بحث می‌کند ...

توزیع‌های آماری به ما کمک می‌کنند شناخت بهتری از داده‌ها داشته باشیم و در مورد احتمال وقوع پیشامدها با منطق بهتری نظر بدهیم. بنابراین فهم درست تعاریف، تفاوت‌ها و کاربردشان بسیار مهم است. جزوه‌ی بیست صفحه‌ای Probability Distributions Cheat Sheet شامل همه‌ی توزیع‌های احتمالاتی مشهور برای مرور کاربردها و تفاوت‌های آنها است ...

این روزها همه جا صحبت از هوش مصنوعی و اثر آن حتی در زندگی روزمره است. اما اگر در ابعاد کلان به عنوان پیشروان علم هوش مصنوعی یا توسعه‌دهندگان محصولات مبتنی بر این حوزه به قضیه نگاه کنیم، چالش‌های متنوعی از بحث‌های علمی و فنی تا بحث‌های اخلاقی و قانونی وجود دارند ...

یکی از کمک‌های بزرگ یادگیری ماشین به بشریت در حوزه‌ی سلامت و پزشکی است. در مقاله‌ی Machine Learning Meets Cancer آخرین پیشرفت‌های روش‌های یادگیری ماشین برای حل مشکلات مربوط به تشخیص سرطان، برنامه‌ریزی استراتژی‌های درمانی بهینه و همینطور پیش‌بینی احتمال بقای بیمار بررسی شده و مناسب برای شروع مطالعات محققانی‌ست که قصد پژوهش در این حوزه را دارند ...

هر محصول علاوه بر توسعه نیاز به پشتیبانی و نگهداشت دارد. مدل‌های تحلیل داده و یادگیری ماشین نیز از این قاعده مستثنی نیستند. این مدل‌ها بر اساس مجموعه‌ای از داده‌ها ساخته می‌شوند. اما پس از استقرار در محصول و گذشت زمان، غیرقابل اعتماد و قدیمی شده و دقت کاهش می‌یابد ...

یکی از چالش‌های مهم استفاده از الگوریتم‌های یادگیری ماشین در صنعت مربوط به کیفیت داده‌هاست. کم بودن داده، نامتوازن بودن آنها، نداشتن برچسب و مقادیر نامعتبر متنوع یا از دست رفته از جمله دغدغه‌های مهم هستند ...

معمولا وقتی در حوزه‌ی تحلیل داده صحبت از مباحثی مانند دسته‌بندی مشتریان می‌شود اولین ایده استفاده از کلاسترینگ و الگوریتم‌هایی مثل KMeans است. اما این مقاله ضمن دسته‌بندی مشتریان یکی از دیتاست‌های کگل با روش‌های KMeans و KPrototype مدل زبانی بزرگ (LLM) را هم وارد بازی کرده است ...

شناخت درست داده اولین و مهمترین گام شروع عملیات حوزه‌‌‌های تحلیل داده و یادگیری ماشین است که بر اساس آن مراحل آماده‌سازی داده پایه‌ریزی می‌شوند. این شناخت از یک سو مربوط به منبع اطلاعات و چیستی آنهاست (به عنوان نمونه شناخت کسب و کاری که این دیتا مرتبط با آن است یا فرآیندی که در نهایت منجر به تولید این داده‌ها شده‌اند) و از سوی دیگر بررسی آنچه که اکنون در اختیار ما قرار گرفته است ...

معمولا وقتی روی مدل‌سازی یا تحلیل داده کار می‌کنیم به انتخاب‌های تصادفی از داده یا پارامترهای مدل می‌رسیم و seed یا random_state نقش مهمی برای جلوگیری از نقش این انتخاب‌های تصادفی در مدل نهایی ایفا می‌کنند ...

وقتی ابعاد یا تعداد ویژگی‌های یک مدل یادگیری ماشین زیاد باشد می‌توانیم از تکنیک‌های کاهش ابعاد برای پایین آوردن تعداد ویژگی‌ها بدون از دست دادن اطلاعات اساسی استفاده کنیم. این کار معمولا باعث ساده‌تر شدن مجموعه داده‌های پیچیده و بالا رفتن کارآیی مدل‌ها می‌شود ...