انویدیا در خط مقدم جنگ مدل‌های هوش مصنوعی/ Llama 3.1 Ultra متن‌باز از راه رسید

در حالی که متا همچنان درگیر حواشی و ابهامات پیرامون خانواده مدل‌های Llama 4 است، انویدیا بی‌سروصدا با معرفی مدل قدرتمند و متن‌باز Llama 3.1 Nemotron Ultra، رقابت در عرصه هوش مصنوعی را وارد مرحله تازه‌ای کرده است. این مدل نه‌تنها از نظر فنی چشمگیر است، بلکه در برخی آزمون‌ها از رقبای مطرح پیشی گرفته و حالا به یکی از جدی‌ترین بازیگران متن‌باز در حوزه LLM تبدیل شده است.

کد خبر: ۲۰۴۹۱۵۴

به گزارش اقتصادآنلاین، مدل جدید انویدیا با نام کامل Llama-۳.۱-Nemotron-Ultra-۲۵۳B-v۱ یکی از پیشرفته‌ترین نمونه‌های زبان بزرگ متن‌باز به شمار می‌رود که بر پایه نسخه ۴۰۵B مدل‌های Llama ۳.۱ متا توسعه داده شده، اما با بازطراحی معماری و تکنیک‌های اختصاصی انویدیا، به خروجی‌هایی رسیده که پیش‌تر تنها از مدل‌های تجاری انتظار می‌رفت. این مدل با ۲۵۳ میلیارد پارامتر طراحی شده و به‌طور خاص برای وظایف دشواری مانند استدلال منطقی، پیروی دقیق از دستورات و ایفای نقش به‌عنوان دستیار هوش مصنوعی توسعه یافته است.

معرفی اولیه این مدل در مارس گذشته و در جریان کنفرانس GTC انویدیا انجام شد، اما حالا نسخه کامل، متن‌باز و قابل‌استفاده آن در پلتفرم Hugging Face منتشر شده است. نکته مهم اینکه نه‌تنها خود مدل، بلکه وزن‌ها، کد‌ها و داده‌های پس‌آموزش نیز به‌طور کامل در دسترس عموم قرار گرفته‌اند، اقدامی که انویدیا را از بسیاری رقبای بسته‌تر در حوزه هوش مصنوعی متمایز می‌کند.

طراحی معماری متفاوت برای هوش مصنوعی کم‌هزینه‌تر و سریع‌تر

آنچه مدل جدید انویدیا را از دیگر مدل‌های متن‌باز هوش مصنوعی جدا می‌کند، نحوه طراحی و معماری آن است. شرکت از فرایند پیشرفته‌ای به نام جست‌وجوی معماری عصبی (NAS) بهره برده و در ساختار مدل تغییراتی نوآورانه مانند حذف لایه‌های کلاسیک توجه (attention)، استفاده از شبکه‌های Fused feedforward و فشرده‌سازی متغیر اعمال کرده است. نتیجه این تغییرات، مدلی است که ضمن کاهش مصرف منابع محاسباتی، همچنان خروجی‌هایی با کیفیت بالا تولید می‌کند. نکته قابل‌توجه دیگر اینکه کل این مدل را می‌توان تنها با هشت کارت گرافیک H۱۰۰ اجرا کرد، در حالی که بسیاری از مدل‌های رقیب به زیرساخت‌های بسیار گران‌تری نیاز دارند.

انویدیا این مدل را برای اجرا روی معماری‌های پیشرفته‌تر خود مانند B۱۰۰ و Hopper نیز بهینه کرده و پشتیبانی از حالت‌های دقت BF۱۶ و FP۸ را به آن افزوده تا در سناریو‌های پردازشی سنگین هم عملکرد مطلوبی داشته باشد. این ترکیب از کارایی بالا و بهینه‌سازی سخت‌افزاری دقیق، مدل Llama ۳.۱ Nemotron Ultra را به گزینه‌ای جدی برای توسعه‌دهندگان مستقل، استارتاپ‌ها و مراکز تحقیقاتی بدل کرده که به‌دنبال استفاده از قدرت هوش مصنوعی بدون هزینه‌های میلیاردی هستند.

از سوی دیگر، انویدیا برای ارتقای عملکرد مدل در وظایف پیچیده‌تر، از پس‌آموزش چندمرحله‌ای بهره برده که شامل آموزش نظارت‌شده در حوزه‌هایی مانند ریاضی، تولید کد، چت و کار با ابزار‌ها بوده است. همچنین به‌منظور بهبود دقت در استدلال و اجرای دستورات، الگوریتم GRPO (بهینه‌سازی نسبی سیاست گروهی) نیز در این مدل به‌کار رفته است. این اقدامات باعث شده عملکرد مدل در تست‌های عمومی مانند GPQA، IFEval و LiveCodeBench در سطح رقابت با برترین مدل‌های موجود قرار گیرد.

در تست MATH۵۰۰، دقت مدل از ۸۰.۴ درصد به ۹۷ درصد در حالت استدلال ارتقا یافته و در AIME۲۵ نیز از ۱۶.۶۷ درصد به ۷۲.۵۰ درصد رسیده است. این اعداد برای یک مدل متن‌باز، بی‌سابقه محسوب می‌شود. هرچند در برخی آزمون‌ها مانند نسخه پیشرفته AIME۲۵، مدل DeepSeek R۱ همچنان جلوتر است، اما اختلاف آن‌قدر نیست که برتری کلی انویدیا را زیر سؤال ببرد.

این مدل از زبان‌های متعددی از جمله انگلیسی، فرانسوی، آلمانی، اسپانیایی و حتی تایلندی پشتیبانی می‌کند و در پروژه‌هایی مانند ساخت چت‌بات‌های پیچیده، تولید کد با استفاده از بازیابی افزوده (RAG)، ساخت عامل‌های هوش مصنوعی مستقل و تحلیل اطلاعات می‌تواند نقش مهمی ایفا کند.

با انتشار این مدل، انویدیا نشان داد که دیگر صرفاً سازنده سخت‌افزار نیست، بلکه یکی از معماران اصلی آینده هوش مصنوعی جهانی است؛ و اگر متا نتواند پاسخ روشنی به این حرکت بدهد، ممکن است رقابت در قلمرو هوش مصنوعی متن‌باز خیلی زود از دستش خارج شود.

برچسب ها:

هوش مصنوعی انویدیا متا

ارسال نظرات