معرفی ریپازیتوری گیت‌هاب رتبه‌بندی مدل‌های زبانی بزرگ بر اساس میزان توهم مدل

معرفی ریپازیتوری گیت‌هاب رتبه‌بندی مدل‌های زبانی بزرگ بر اساس میزان توهم مدل

✓ مسعود اقدسی‌فام - ۲۳ مهر ۱۴۰۴

یکی از نگرانی‌هایی که در نخستین روزهای معرفی مدل‌های زبانی بزرگ (LLMها) بسیار مطرح بود، موضوع توهم (Hallucination) در پاسخ‌های آن‌ها بود؛ حالتی که مدل با اطمینان کامل، اطلاعات نادرست یا ساختگی تولید می‌کند. در گذر زمان، با پیشرفت این مدل‌ها، روان‌تر شدن پاسخ‌ها و دسترسی آن‌ها به داده‌های به‌روزتر، به نظر می‌رسد این نگرانی تا حدی کمرنگ‌تر شده است. اما واقعیت این است که احساس آرامش امروز ما، خود نوعی توهم است.

افزایش سرعت تولید پاسخ یا بهبود لحن، لزوما به معنای کاهش توهم نیست. در نهایت، مدل‌های زبانی چیزی جز سامانه‌های آماری پیچیده نیستند که براساس احتمال، واژه‌ی بعدی را پیش‌بینی می‌کنند. بنابراین، به‌ویژه در حوزه‌های تخصصی و فنی، نمی‌توان با اطمینان کامل به خروجی آن‌ها تکیه کرد. شاید برای رفع یک خطا یا بررسی اولیه مناسب باشند، اما برای تصمیم‌گیری‌های جدی و حساس، هنوز فاصله داریم.

در همین راستا، ریپوی Hallucination Leaderboard با هدف اندازه‌گیری و مقایسه‌ی میزان توهم مدل‌های زبانی بزرگ ایجاد شده است. در این پروژه، بیش از هزار متن کوتاه خبری (عمدتا از مجموعه‌ی CNN/DailyMail) به مدل‌های مختلف داده شده تا هرکدام خلاصه‌ای وفادار به محتوای متن تولید کنند. سپس خروجی مدل‌ها با پاسخ‌های مرجع مقایسه شده تا مشخص شود چه میزان از خلاصه‌ها از نظر واقعیت‌سنجی صحیح بوده و چه مقدار شامل اطلاعات نادرست یا خیالی هستند.

hallucination-leaderboard

نتایج این ارزیابی در قالب یک جدول رتبه‌بندی منتشر می‌شود که نشان می‌دهد کدام مدل‌ها دقیق‌تر و واقع‌گراتر عمل کرده‌اند و کدام‌ها بیشتر دچار توهم می‌شوند.

شما چه فکر می‌کنید؟ کدام مدل زبانی کمتر دچار توهم است؟


نسخه‌ی اصلی این نوشته در لینکدین من منتشر شده است. برای مشاهده و ثبت نظر به این پیوند مراجعه کنید.


تا کنون ۰ امتیاز ثبت شده
نوشته لایک نداشت؟
 
به اشتراک گذاری نوشته

amasoudfam.ir/ql5v5j

اشتراک‌گذاری در LinkedIn     اشتراک‌گذاری در Twitter     ارسال با Telegram

نام: *
پست الکترونیک (محرمانه):
پیام: *