Команда Qwen из Alibaba представила серию нейросетевых моделей Qwen3.5 Small, включающую Large Language Models (LLMs) с количеством параметров от 0.8 до 9 миллиардов. В то время как ранее индустрия стремилась к увеличению числа параметров для достижения наилучшей производительности, эта серия фокусируется на концепции "Больше умений, меньше вычислений". Эти модели предназначены для развертывания мощного ИИ на потребительских устройствах и устройствах на краю сети (edge devices) без потери качества в области логики или мультимодальности.
Серия Qwen3.5 доступна на платформах Hugging Face и ModelScope, где представлены как инструкционные, так и базовые версии моделей.
Иерархия моделей: оптимизация по масштабу
Серия Qwen3.5 Small подразделяется на четыре уровня, каждый из которых адаптирован для конкретных аппаратных ограничений и требований к задержке:
Qwen3.5-0.8B и Qwen3.5-2B: Эти модели разработаны для высокопроизводительных, низкозадержечных приложений на устройствах на краю сети. Оптимизация процесса плотного обучения токенов позволяет снизить потребление VRAM, делая их совместимыми с мобильными чипами и IoT-устройствами.
Qwen3.5-4B: Эта модель служит мультимодальным базовым решением для легких агентов. Она обеспечивает баланс между текстовыми и визуально-языковыми моделями (VLMs), позволяя выполнять задачи, требующие понимания изображений, такие как навигация по интерфейсу или анализ документов, при этом оставаясь достаточно компактной для локального развертывания.
Qwen3.5-9B: Флагманская модель серии с 9 миллиардами параметров направлена на улучшение логики и рассуждений. Она тщательно настроена для сокращения разрыва в производительности по сравнению с моделями, имеющими значительно больше параметров (30+ миллиардов) благодаря продвинутым методам обучения.
Нативная мультимодальность против адаптеров
Одним из значительных технических изменений в моделях Qwen3.5-4B и выше является переход к нативной мультимодальной способности. В предыдущих версиях малых моделей мультимодальность часто достигалась через адаптеры или мосты, связывающие предобученный визуальный энкодер (например, CLIP) с языковой моделью.
В Qwen3.5 мультимодальность интегрирована непосредственно в архитектуру модели. Это позволяет обрабатывать текстовые и визуальные токены в едином латентном пространстве с самого начала обучения, что улучшает пространственное рассуждение, повышает точность OCR (оптического распознавания символов) и обеспечивает более связные ответы на основе визуальной информации по сравнению с системами, использующими адаптеры.
Масштабируемое обучение с подкреплением: улучшение рассуждений в компактных моделях
Высокая производительность модели Qwen3.5-9B во многом обусловлена внедрением Масштабируемого обучения с подкреплением (Scaled Reinforcement Learning, Scaled RL). В отличие от стандартной тонкой настройки (Supervised Fine-Tuning, SFT), которая учит модели воспроизводить высококачественный текст, Scaled RL использует сигналы вознаграждения для оптимизации правильных логических путей.
Преимущества использования Scaled RL в модели с 9 миллиардами параметров включают:
- Улучшенное выполнение инструкций: Модель более точно следует сложным, многошаговым системным командам.
- Снижение галлюцинаций: Подкрепление логической последовательности во время обучения повышает надежность модели в извлечении фактов и математических рассуждений.
- Эффективность инференса: 9 миллиардов параметров позволяют генерировать токены быстрее (больше токенов за секунду), чем модели с 70 миллиардами параметров, при этом сохраняя конкурентоспособные логические оценки на таких бенчмарках, как MMLU и GSM8K.
Основные характеристики Qwen3.5 Small Series
| Размер модели | Основное применение | Ключевые технические особенности |
|---|---|---|
| 0.8B / 2B | Устройства на краю сети / IoT | Низкое потребление VRAM, высокоскоростная инференция |
| 4B | Легкие агенты | Интеграция нативной мультимодальности |
| 9B | Рассуждения и логика | Масштабируемое обучение с подкреплением для улучшения производительности |
Серия Qwen3.5 фокусируется на архитектурной эффективности и передовых методах обучения, таких как Масштабируемое обучение с подкреплением и нативная мультимодальность. Это позволяет разработчикам создавать сложные AI-приложения без необходимости в огромных облачных моделях.
Ключевые выводы:
- Больше умений, меньше вычислений: Серия (0.8B до 9B параметров) приоритизирует архитектурную эффективность над чистым количеством параметров, обеспечивая высокую производительность на потребительских устройствах и устройствах на краю сети.
- Интеграция нативной мультимодальности (4B модель): В отличие от моделей с подключаемыми визуальными модулями, 4B-модель имеет архитектуру, где текстовые и визуальные данные обрабатываются в едином латентном пространстве, значительно улучшая пространственное рассуждение и точность OCR.
- Уровень передовой производительности через масштабируемое обучение с подкреплением: 9B-модель использует Масштабируемое обучение с подкреплением для оптимизации логических путей, эффективно сокращая разрыв в производительности по сравнению с моделями, в 5–10 раз большего размера.
- Оптимизация для устройств на краю сети и IoT: Модели 0.8B и 2B разработаны для минимальной задержки и низкого потребления VRAM, что делает их идеальными для локальных приложений, мобильных устройств и сред с повышенными требованиями к конфиденциальности.