← Все новости

NVIDIA выпустила Nemotron-Cascade 2: открытую MoE-модель на 30 млрд параметров

NVIDIA Nemotron-Cascade 2

NVIDIA Nemotron-Cascade 2 • Все права принадлежат AInDev.ru

• Категория: Generative AI • Автор: Алексей Воронов • Проверил: Екатерина Морозова • 21.03.2026 18:15

Компания NVIDIA выпустила новую открытую языковую модель Nemotron-Cascade 2, построенную на архитектуре Mixture-of-Experts (MoE). Несмотря на общий размер в 30 млрд параметров, модель использует всего ~3 млрд активных параметров на токен, что делает её крайне эффективной с точки зрения вычислений при сохранении высокой точности.

Главный фокус модели — reasoning-задачи, кодинг и агентные сценарии, где она демонстрирует результаты уровня топовых open-weight решений.


Архитектура: 30B MoE с высокой «плотностью интеллекта»

Nemotron-Cascade 2 реализует классическую схему MoE:

  • общий объём параметров: 30B

  • активные параметры на инференсе: ≈3B

  • условная активация экспертов (sparse routing)

Это позволяет достичь примерно 10× экономии вычислений относительно dense-моделей аналогичного масштаба, сохраняя высокую expressiveness.

В NVIDIA делают акцент на концепции intelligence density — максимизация качества reasoning при минимальном числе активных параметров.


Контекст и режимы работы

Модель поддерживает:

  • контекст до 256K токенов (в реализации, например через Ollama [https://ollama.com/library/nemotron-cascade-2])

  • в исследованиях — до 1M токенов long-context reasoning

  • два режима:

    • thinking mode (chain-of-thought / reasoning)

    • instruct mode (обычный inference)

Это делает её пригодной как для агентных систем, так и для production API.


Post-training pipeline: ключ к производительности

Основное отличие модели — не столько архитектура, сколько сложный пост-тренинг пайплайн.

1. Supervised Fine-Tuning (SFT)

Датасет ориентирован на reasoning-heavy задачи:

  • ~1.9M Python reasoning traces

  • ~1.3M tool-calling примеров

  • ~816K математических доказательств

  • SWE-сет: ~500K+ примеров (agentic + non-agentic)

Дополнительно:

  • sequence packing до 256K токенов

  • сильный перекос в сторону программирования и формальной математики


2. Cascade Reinforcement Learning (Cascade RL)

Ключевая идея — поэтапное RL-обучение по доменам, а не единый RLHF-процесс:

  • отдельные стадии под:

    • instruction following

    • coding

    • math

    • long-context

    • agentic tasks

Преимущества:

  • снижение catastrophic forgetting

  • возможность настраивать hyperparameters под каждый домен

  • более стабильная сходимость


3. Multi-domain On-Policy Distillation (MOPD)

Главная инновация — интеграция on-policy distillation прямо в RL pipeline.

Суть:

  • на каждом этапе используются промежуточные teacher-модели

  • происходит token-level distillation

  • корректируется политика модели в процессе обучения

Формально (упрощённо):

  • оптимизируется разница лог-вероятностей между teacher и текущей моделью

Это позволяет:

  • восстанавливать деградации после RL

  • повышать sample efficiency

  • удерживать качество на ранее обученных задачах


Бенчмарки и реальные показатели

Модель показывает сильные результаты в reasoning-доменах:

Математика:

  • AIME 2025: 92.4

  • HMMT 2025: 94.6

Кодинг:

  • LiveCodeBench v6: ~87

  • уверенное превосходство над Qwen3.5-35B

Alignment / IF:

  • ArenaHard v2: 83.5

  • IFBench: 82.9

Также:

  • Gold-level результаты на:

    • IMO 2025

    • IOI 2025

    • ICPC World Finals

Важно: это достигается при 20× меньшем числе параметров, чем у некоторых конкурентов.


Практическое позиционирование

Nemotron-Cascade 2 — это не универсальная «всё умеющая» модель, а специализированный инструмент для reasoning-heavy задач:

Лучше всего подходит для:

  • AI-агентов (tool use, planning)

  • генерации и анализа кода

  • математических задач

  • сложных multi-step reasoning сценариев

При этом может уступать в:

  • general knowledge

  • open-domain QA


Итог

Nemotron-Cascade 2 — это пример сдвига от «больше параметров» к более умному обучению:

  • MoE (30B / 3B active) → эффективность

  • Cascade RL → контроль обучения по доменам

  • MOPD → стабильный рост качества

  • сильный упор на reasoning и агентность

Фактически, модель демонстрирует, что правильный post-training pipeline может конкурировать с более крупными LLM, оставаясь в разумных вычислительных рамках.

Автор

Алексей Воронов

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервисной архитектуры и SaaS-решений. Основная...

Проверил

Екатерина Морозова

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрении AI-технологий в веб-приложения. Основ...

Теги: #нейросети, #ИИ, #Nvidia, #открытый код, #MoE, #агентные модели, #Nemotron-Cascade 2