یکی از نگرانیهایی که در نخستین روزهای معرفی مدلهای زبانی بزرگ (LLMها) بسیار مطرح بود، موضوع توهم (Hallucination) در پاسخهای آنها بود؛ حالتی که مدل با اطمینان کامل، اطلاعات نادرست یا ساختگی تولید میکند. در گذر زمان، با پیشرفت این مدلها، روانتر شدن پاسخها و دسترسی آنها به دادههای بهروزتر، به نظر میرسد این نگرانی تا حدی کمرنگتر شده است. اما واقعیت این است که احساس آرامش امروز ما، خود نوعی توهم است.
افزایش سرعت تولید پاسخ یا بهبود لحن، لزوما به معنای کاهش توهم نیست. در نهایت، مدلهای زبانی چیزی جز سامانههای آماری پیچیده نیستند که براساس احتمال، واژهی بعدی را پیشبینی میکنند. بنابراین، بهویژه در حوزههای تخصصی و فنی، نمیتوان با اطمینان کامل به خروجی آنها تکیه کرد. شاید برای رفع یک خطا یا بررسی اولیه مناسب باشند، اما برای تصمیمگیریهای جدی و حساس، هنوز فاصله داریم.
در همین راستا، ریپوی Hallucination Leaderboard با هدف اندازهگیری و مقایسهی میزان توهم مدلهای زبانی بزرگ ایجاد شده است. در این پروژه، بیش از هزار متن کوتاه خبری (عمدتا از مجموعهی CNN/DailyMail) به مدلهای مختلف داده شده تا هرکدام خلاصهای وفادار به محتوای متن تولید کنند. سپس خروجی مدلها با پاسخهای مرجع مقایسه شده تا مشخص شود چه میزان از خلاصهها از نظر واقعیتسنجی صحیح بوده و چه مقدار شامل اطلاعات نادرست یا خیالی هستند.
hallucination-leaderboard
نتایج این ارزیابی در قالب یک جدول رتبهبندی منتشر میشود که نشان میدهد کدام مدلها دقیقتر و واقعگراتر عمل کردهاند و کدامها بیشتر دچار توهم میشوند.
شما چه فکر میکنید؟ کدام مدل زبانی کمتر دچار توهم است؟