NVIDIA выпустила Nemotron-Cascade 2: открытую MoE-модель на 30 млрд параметров

NVIDIA Nemotron-Cascade 2 • Все права принадлежат AInDev.ru

Компания NVIDIA выпустила новую открытую языковую модель Nemotron-Cascade 2, построенную на архитектуре Mixture-of-Experts (MoE). Несмотря на общий размер в 30 млрд параметров, модель использует всего ~3 млрд активных параметров на токен, что делает её крайне эффективной с точки зрения вычислений при сохранении высокой точности.

Главный фокус модели — reasoning-задачи, кодинг и агентные сценарии, где она демонстрирует результаты уровня топовых open-weight решений.

Архитектура: 30B MoE с высокой «плотностью интеллекта»

Nemotron-Cascade 2 реализует классическую схему MoE:

общий объём параметров: 30B
активные параметры на инференсе: ≈3B
условная активация экспертов (sparse routing)

Это позволяет достичь примерно 10× экономии вычислений относительно dense-моделей аналогичного масштаба, сохраняя высокую expressiveness.

В NVIDIA делают акцент на концепции intelligence density — максимизация качества reasoning при минимальном числе активных параметров.

Контекст и режимы работы

Модель поддерживает:

контекст до 256K токенов (в реализации, например через Ollama [https://ollama.com/library/nemotron-cascade-2])
в исследованиях — до 1M токенов long-context reasoning
два режима:
- thinking mode (chain-of-thought / reasoning)
- instruct mode (обычный inference)

Это делает её пригодной как для агентных систем, так и для production API.

Post-training pipeline: ключ к производительности

Основное отличие модели — не столько архитектура, сколько сложный пост-тренинг пайплайн.

1. Supervised Fine-Tuning (SFT)

Датасет ориентирован на reasoning-heavy задачи:

~1.9M Python reasoning traces
~1.3M tool-calling примеров
~816K математических доказательств
SWE-сет: ~500K+ примеров (agentic + non-agentic)

Дополнительно:

sequence packing до 256K токенов
сильный перекос в сторону программирования и формальной математики

2. Cascade Reinforcement Learning (Cascade RL)

Ключевая идея — поэтапное RL-обучение по доменам, а не единый RLHF-процесс:

отдельные стадии под:
- instruction following
- coding
- math
- long-context
- agentic tasks

Преимущества:

снижение catastrophic forgetting
возможность настраивать hyperparameters под каждый домен
более стабильная сходимость

3. Multi-domain On-Policy Distillation (MOPD)

Главная инновация — интеграция on-policy distillation прямо в RL pipeline.

Суть:

на каждом этапе используются промежуточные teacher-модели
происходит token-level distillation
корректируется политика модели в процессе обучения

Формально (упрощённо):

оптимизируется разница лог-вероятностей между teacher и текущей моделью

Это позволяет:

восстанавливать деградации после RL
повышать sample efficiency
удерживать качество на ранее обученных задачах

Бенчмарки и реальные показатели

Модель показывает сильные результаты в reasoning-доменах:

Математика:

AIME 2025: 92.4
HMMT 2025: 94.6

Кодинг:

LiveCodeBench v6: ~87
уверенное превосходство над Qwen3.5-35B

Alignment / IF:

ArenaHard v2: 83.5
IFBench: 82.9

Также:

Gold-level результаты на:
- IMO 2025
- IOI 2025
- ICPC World Finals

Важно: это достигается при 20× меньшем числе параметров, чем у некоторых конкурентов.

Практическое позиционирование

Nemotron-Cascade 2 — это не универсальная «всё умеющая» модель, а специализированный инструмент для reasoning-heavy задач:

Лучше всего подходит для:

AI-агентов (tool use, planning)
генерации и анализа кода
математических задач
сложных multi-step reasoning сценариев

При этом может уступать в:

general knowledge
open-domain QA

Итог

Nemotron-Cascade 2 — это пример сдвига от «больше параметров» к более умному обучению:

MoE (30B / 3B active) → эффективность
Cascade RL → контроль обучения по доменам
MOPD → стабильный рост качества
сильный упор на reasoning и агентность

Фактически, модель демонстрирует, что правильный post-training pipeline может конкурировать с более крупными LLM, оставаясь в разумных вычислительных рамках.

NVIDIA выпустила Nemotron-Cascade 2: открытую MoE-модель на 30 млрд параметров

Архитектура: 30B MoE с высокой «плотностью интеллекта»

Контекст и режимы работы

Post-training pipeline: ключ к производительности

1. Supervised Fine-Tuning (SFT)

2. Cascade Reinforcement Learning (Cascade RL)

3. Multi-domain On-Policy Distillation (MOPD)

Бенчмарки и реальные показатели

Практическое позиционирование

Итог

Алексей Воронов

Екатерина Морозова

NVIDIA выпустила Nemotron-Cascade 2: открытую MoE-модель на 30 млрд параметров

Архитектура: 30B MoE с высокой «плотностью интеллекта»

Контекст и режимы работы

Post-training pipeline: ключ к производительности

1. Supervised Fine-Tuning (SFT)

2. Cascade Reinforcement Learning (Cascade RL)

3. Multi-domain On-Policy Distillation (MOPD)

Бенчмарки и реальные показатели

Практическое позиционирование

Итог

Алексей Воронов

Екатерина Морозова

Похожие материалы

World запускает бета-тест AgentKit для привязки ИИ-агентов к скану радужки

Sequen привлекла $16 млн на TikTok-подобную персонализацию для брендов

Стартап Eragon привлек $12 млн на AI-ОС для бизнеса с интерфейсом промптов

ИИ OpenClaw обвинил мейнтейнера Matplotlib в дискриминации после отказа патча