Компания NVIDIA выпустила новую открытую языковую модель Nemotron-Cascade 2, построенную на архитектуре Mixture-of-Experts (MoE). Несмотря на общий размер в 30 млрд параметров, модель использует всего ~3 млрд активных параметров на токен, что делает её крайне эффективной с точки зрения вычислений при сохранении высокой точности.
Главный фокус модели — reasoning-задачи, кодинг и агентные сценарии, где она демонстрирует результаты уровня топовых open-weight решений.
Архитектура: 30B MoE с высокой «плотностью интеллекта»
Nemotron-Cascade 2 реализует классическую схему MoE:
общий объём параметров: 30B
активные параметры на инференсе: ≈3B
условная активация экспертов (sparse routing)
Это позволяет достичь примерно 10× экономии вычислений относительно dense-моделей аналогичного масштаба, сохраняя высокую expressiveness.
В NVIDIA делают акцент на концепции intelligence density — максимизация качества reasoning при минимальном числе активных параметров.
Контекст и режимы работы
Модель поддерживает:
контекст до 256K токенов (в реализации, например через Ollama [https://ollama.com/library/nemotron-cascade-2])
в исследованиях — до 1M токенов long-context reasoning
два режима:
thinking mode (chain-of-thought / reasoning)
instruct mode (обычный inference)
Это делает её пригодной как для агентных систем, так и для production API.
Post-training pipeline: ключ к производительности
Основное отличие модели — не столько архитектура, сколько сложный пост-тренинг пайплайн.
1. Supervised Fine-Tuning (SFT)
Датасет ориентирован на reasoning-heavy задачи:
~1.9M Python reasoning traces
~1.3M tool-calling примеров
~816K математических доказательств
SWE-сет: ~500K+ примеров (agentic + non-agentic)
Дополнительно:
sequence packing до 256K токенов
сильный перекос в сторону программирования и формальной математики
2. Cascade Reinforcement Learning (Cascade RL)
Ключевая идея — поэтапное RL-обучение по доменам, а не единый RLHF-процесс:
отдельные стадии под:
instruction following
coding
math
long-context
agentic tasks
Преимущества:
снижение catastrophic forgetting
возможность настраивать hyperparameters под каждый домен
более стабильная сходимость
3. Multi-domain On-Policy Distillation (MOPD)
Главная инновация — интеграция on-policy distillation прямо в RL pipeline.
Суть:
на каждом этапе используются промежуточные teacher-модели
происходит token-level distillation
корректируется политика модели в процессе обучения
Формально (упрощённо):
оптимизируется разница лог-вероятностей между teacher и текущей моделью
Это позволяет:
восстанавливать деградации после RL
повышать sample efficiency
удерживать качество на ранее обученных задачах
Бенчмарки и реальные показатели
Модель показывает сильные результаты в reasoning-доменах:
Математика:
AIME 2025: 92.4
HMMT 2025: 94.6
Кодинг:
LiveCodeBench v6: ~87
уверенное превосходство над Qwen3.5-35B
Alignment / IF:
ArenaHard v2: 83.5
IFBench: 82.9
Также:
Gold-level результаты на:
IMO 2025
IOI 2025
ICPC World Finals
Важно: это достигается при 20× меньшем числе параметров, чем у некоторых конкурентов.
Практическое позиционирование
Nemotron-Cascade 2 — это не универсальная «всё умеющая» модель, а специализированный инструмент для reasoning-heavy задач:
Лучше всего подходит для:
AI-агентов (tool use, planning)
генерации и анализа кода
математических задач
сложных multi-step reasoning сценариев
При этом может уступать в:
general knowledge
open-domain QA
Итог
Nemotron-Cascade 2 — это пример сдвига от «больше параметров» к более умному обучению:
MoE (30B / 3B active) → эффективность
Cascade RL → контроль обучения по доменам
MOPD → стабильный рост качества
сильный упор на reasoning и агентность
Фактически, модель демонстрирует, что правильный post-training pipeline может конкурировать с более крупными LLM, оставаясь в разумных вычислительных рамках.