
توهم در مدلهای جدید OpenAI/ وقتی هوش مصنوعی با اطمینان، اشتباه میگوید

رونمایی اخیر OpenAI از مدلهای استدلالگر o3 و o4-mini در حالی با هیاهوی زیادی همراه بود که بررسیها نشان میدهد این مدلها، برخلاف انتظار، دچار سطح بالایی از توهم هستند؛ پدیدهای که میتواند به چالشی جدی برای اعتماد کاربران و کاربردهای دقیق هوش مصنوعی تبدیل شود.
به گزارش اقتصادآنلاین، OpenAI چند روز پیش مدلهای جدید استدلالگر خود به نامهای o۳ و o۴-mini را معرفی کرد؛ مدلهایی که از منظر تواناییهای تحلیلی و پردازش اطلاعات، بهبودهایی نسبت به نسخههای قبلی نشان دادهاند. اما آنچه توجه منتقدان را جلب کرده، نه سرعت یا کارایی این مدلها، بلکه میزان بالای «توهم» آنهاست؛ پدیدهای که بهمعنای تولید پاسخهای نادرست با اعتمادبهنفس بالا توسط هوش مصنوعی است.
بر اساس گزارشی از تککرانچ و دادههای رسمی OpenAI، این دو مدل حتی بیش از نسخههای قبلی خود دچار توهم میشوند. مدل o۳ در ۳۳ درصد از تستهای PersonQA – بنچمارکی برای سنجش دقت پاسخهای مدل درباره اشخاص – دچار خطا شده است. برای مقایسه، نرخ توهم در مدلهای o۱ و o۳-mini بهترتیب ۱۶ و ۱۴.۸ درصد بوده است. این در حالی است که مدل o۴-mini وضعیت نگرانکنندهتری دارد: توهم در ۴۸ درصد از پاسخها.
هرچند OpenAI در گزارش فنی خود اعلام کرده که o۳ و o۴-mini در زمینههایی مانند کدنویسی و مسائل ریاضی عملکرد دقیقتری دارند، اما همزمان به این نکته اشاره میکند که این مدلها بهدلیل «تعداد بیشتر ادعاهایی که مطرح میکنند»، به همان نسبت نیز پاسخهای نادرست بیشتری تولید میکنند. بهعبارتی، پیشرفت در برخی حوزهها با افت دقت در دیگر زمینهها همراه بوده است.
نکته نگرانکنندهتر، ابهام خود OpenAI نسبت به دلایل این افزایش توهم است. در گزارش این شرکت آمده است: «هنوز نمیدانیم چرا با توسعه مدلهای استدلالی، نرخ توهم نیز افزایش یافته است. تحقیقات بیشتری نیاز است.» این جمله، در دل خود، ضعف بنیادینی را در درک ساختارهای یادگیری و استنتاج مدلهای مولد نمایان میسازد.
توهم در مدلهای زبانی بزرگ، پیشتر نیز بهعنوان یکی از چالشهای کلیدی در هوش مصنوعی مطرح بوده است. این اشکال زمانی خطرناک میشود که کاربران به صحت پاسخها اعتماد کنند و از آن در تصمیمگیریهای حساس – از مالی گرفته تا پزشکی – استفاده کنند.
برخی کارشناسان معتقدند استفاده از قابلیت جستجوی وب میتواند به کاهش نرخ توهم کمک کند. برای مثال، مدل GPT-۴o با بهرهگیری از جستوجوی لحظهای، توانسته در بنچمارک SimpleQA به دقت ۹۰ درصدی دست یابد. اما مشخص نیست آیا این راهکار برای مدلهای استدلالگر مانند o۳ و o۴-mini نیز کاربردی خواهد بود یا خیر.
در مجموع، مدلهای جدید OpenAI علیرغم جهشهایی در توان محاسباتی، درگیر مشکلی عمیق و تکرارشوندهاند: ناتوانی در تشخیص حقیقت از خطا. برای کاربردهای عمومی ممکن است این ضعف قابل چشمپوشی باشد، اما برای حوزههایی که دقت اطلاعات حیاتی است، این یک تهدید جدی محسوب میشود. OpenAI اگر میخواهد اعتماد جامعه را حفظ کند، باید راهی برای مقابله با این توهمات بیابد – و آن هم، پیش از آنکه کاربران واقعی هزینهاش را بپردازند.