17 марта NVIDIA представила модель Nemotron 3 Nano 4B, обладающую 3,97 миллиардами параметров и построенную на основе гибридной архитектуры Mamba-2. Модель была сжата из предшествующей версии Nemotron Nano v2 с 9 миллиардами параметров методом структурного прунинга. Nemotron 3 Nano 4B вписывается в объем памяти 8 ГБ, что позволяет ей работать на платформе Jetson Orin Nano.
Модель демонстрирует высокую производительность, достигая 95,4% точности на тесте MATH500 в режиме логического вывода. Она поддерживает квантизацию BF16, FP8 и GGUF (Q4_K_M), что обеспечивает скорость генерации текста в 18 токенов в секунду на Jetson Orin Nano с 8 ГБ памяти. Nemotron 3 Nano 4B распространяется под лицензией NVIDIA Nemotron Open Model, разрешающей коммерческое использование.
Архитектура модели включает в себя соотношение 5:1 между слоями Mamba и слоями внимания. Это позволяет эффективно обрабатывать длинные последовательности, сохраняя при этом высокую производительность в задачах логического вывода. На практике это означает, что модель способна успешно справляться как с математическими задачами, так и с инструкциями и извлечением информации.
Тестирование показало, что Nemotron 3 Nano 4B достигает 95,4% точности на MATH500 и 78,5% на AIME25 в режиме логического вывода. Модель также демонстрирует конкурентоспособные результаты в задачах следования инструкциям и извлечении информации.
Гибридная архитектура, сочетающая слои Mamba-2 и трансформерные слои, позволяет использовать эффективную память для обработки длинных последовательностей, сохраняя при этом внимание к деталям в задачах, требующих высокой точности. Это делает Nemotron 3 Nano 4B оптимальным выбором для развертывания на краевых устройствах без необходимости использования мощного оборудования.
Для команд, которым требуется выполнение инференса на краевых устройствах без использования дорогостоящих серверов с H100, Nemotron 3 Nano 4B представляет собой интересное и эффективное решение, обеспечивающее баланс между производительностью и ограничениями аппаратных ресурсов.