
انویدیا در خط مقدم جنگ مدلهای هوش مصنوعی/ Llama 3.1 Ultra متنباز از راه رسید

در حالی که متا همچنان درگیر حواشی و ابهامات پیرامون خانواده مدلهای Llama 4 است، انویدیا بیسروصدا با معرفی مدل قدرتمند و متنباز Llama 3.1 Nemotron Ultra، رقابت در عرصه هوش مصنوعی را وارد مرحله تازهای کرده است. این مدل نهتنها از نظر فنی چشمگیر است، بلکه در برخی آزمونها از رقبای مطرح پیشی گرفته و حالا به یکی از جدیترین بازیگران متنباز در حوزه LLM تبدیل شده است.
به گزارش اقتصادآنلاین، مدل جدید انویدیا با نام کامل Llama-۳.۱-Nemotron-Ultra-۲۵۳B-v۱ یکی از پیشرفتهترین نمونههای زبان بزرگ متنباز به شمار میرود که بر پایه نسخه ۴۰۵B مدلهای Llama ۳.۱ متا توسعه داده شده، اما با بازطراحی معماری و تکنیکهای اختصاصی انویدیا، به خروجیهایی رسیده که پیشتر تنها از مدلهای تجاری انتظار میرفت. این مدل با ۲۵۳ میلیارد پارامتر طراحی شده و بهطور خاص برای وظایف دشواری مانند استدلال منطقی، پیروی دقیق از دستورات و ایفای نقش بهعنوان دستیار هوش مصنوعی توسعه یافته است.
معرفی اولیه این مدل در مارس گذشته و در جریان کنفرانس GTC انویدیا انجام شد، اما حالا نسخه کامل، متنباز و قابلاستفاده آن در پلتفرم Hugging Face منتشر شده است. نکته مهم اینکه نهتنها خود مدل، بلکه وزنها، کدها و دادههای پسآموزش نیز بهطور کامل در دسترس عموم قرار گرفتهاند، اقدامی که انویدیا را از بسیاری رقبای بستهتر در حوزه هوش مصنوعی متمایز میکند.
طراحی معماری متفاوت برای هوش مصنوعی کمهزینهتر و سریعتر
آنچه مدل جدید انویدیا را از دیگر مدلهای متنباز هوش مصنوعی جدا میکند، نحوه طراحی و معماری آن است. شرکت از فرایند پیشرفتهای به نام جستوجوی معماری عصبی (NAS) بهره برده و در ساختار مدل تغییراتی نوآورانه مانند حذف لایههای کلاسیک توجه (attention)، استفاده از شبکههای Fused feedforward و فشردهسازی متغیر اعمال کرده است. نتیجه این تغییرات، مدلی است که ضمن کاهش مصرف منابع محاسباتی، همچنان خروجیهایی با کیفیت بالا تولید میکند. نکته قابلتوجه دیگر اینکه کل این مدل را میتوان تنها با هشت کارت گرافیک H۱۰۰ اجرا کرد، در حالی که بسیاری از مدلهای رقیب به زیرساختهای بسیار گرانتری نیاز دارند.
انویدیا این مدل را برای اجرا روی معماریهای پیشرفتهتر خود مانند B۱۰۰ و Hopper نیز بهینه کرده و پشتیبانی از حالتهای دقت BF۱۶ و FP۸ را به آن افزوده تا در سناریوهای پردازشی سنگین هم عملکرد مطلوبی داشته باشد. این ترکیب از کارایی بالا و بهینهسازی سختافزاری دقیق، مدل Llama ۳.۱ Nemotron Ultra را به گزینهای جدی برای توسعهدهندگان مستقل، استارتاپها و مراکز تحقیقاتی بدل کرده که بهدنبال استفاده از قدرت هوش مصنوعی بدون هزینههای میلیاردی هستند.
از سوی دیگر، انویدیا برای ارتقای عملکرد مدل در وظایف پیچیدهتر، از پسآموزش چندمرحلهای بهره برده که شامل آموزش نظارتشده در حوزههایی مانند ریاضی، تولید کد، چت و کار با ابزارها بوده است. همچنین بهمنظور بهبود دقت در استدلال و اجرای دستورات، الگوریتم GRPO (بهینهسازی نسبی سیاست گروهی) نیز در این مدل بهکار رفته است. این اقدامات باعث شده عملکرد مدل در تستهای عمومی مانند GPQA، IFEval و LiveCodeBench در سطح رقابت با برترین مدلهای موجود قرار گیرد.
در تست MATH۵۰۰، دقت مدل از ۸۰.۴ درصد به ۹۷ درصد در حالت استدلال ارتقا یافته و در AIME۲۵ نیز از ۱۶.۶۷ درصد به ۷۲.۵۰ درصد رسیده است. این اعداد برای یک مدل متنباز، بیسابقه محسوب میشود. هرچند در برخی آزمونها مانند نسخه پیشرفته AIME۲۵، مدل DeepSeek R۱ همچنان جلوتر است، اما اختلاف آنقدر نیست که برتری کلی انویدیا را زیر سؤال ببرد.
این مدل از زبانهای متعددی از جمله انگلیسی، فرانسوی، آلمانی، اسپانیایی و حتی تایلندی پشتیبانی میکند و در پروژههایی مانند ساخت چتباتهای پیچیده، تولید کد با استفاده از بازیابی افزوده (RAG)، ساخت عاملهای هوش مصنوعی مستقل و تحلیل اطلاعات میتواند نقش مهمی ایفا کند.
با انتشار این مدل، انویدیا نشان داد که دیگر صرفاً سازنده سختافزار نیست، بلکه یکی از معماران اصلی آینده هوش مصنوعی جهانی است؛ و اگر متا نتواند پاسخ روشنی به این حرکت بدهد، ممکن است رقابت در قلمرو هوش مصنوعی متنباز خیلی زود از دستش خارج شود.