DeepSeek выпустила V4 с 1,6 трлн параметров на чипах Huawei Kirin
Стартап DeepSeek из Ханчжоу представил превью своей новой большой языковой модели V4. Это наиболее производительная разработка компании на текущий момент: система насчитывает 1,6 трлн параметров и поддерживает контекстное окно объемом 1 млн токенов. Примечательно, что данный релиз стал первой масштабной моделью, оптимизированной для работы на ускорителях Ascend от Huawei, а не на графических процессорах Nvidia.
Архитектура и производительность моделей
Разработчики предлагают две версии решения. Флагманский вариант — V4-Pro — оценивается в 3,48 доллара за миллион выходных токенов. Более компактная конфигурация V4-Flash с 284 млрд параметров предлагается по цене 0,28 доллара за тот же объем. Для сравнения, стоимость генерации миллиона токенов в GPT-5.4 составляет 30 долларов, а в Claude Opus 4.6 — 25 долларов.В DeepSeek честно признают, что по уровню развития V4 отстает от ведущих проприетарных моделей примерно на три-шесть месяцев. Тем не менее, компания заявляет, что в задачах, связанных с написанием кода и рассуждениями (agentic reasoning), V4 обходит всех существующих конкурентов с открытым кодом.
Переход на аппаратную базу Huawei
Предыдущая версия, V3, активно обучалась на кластере из 2048 ускорителей Nvidia H800. В отношении DeepSeek неоднократно проводились проверки по факту возможного использования посредников в Сингапуре для закупки оборудования, попадающего под экспортные ограничения США.При создании V4 компания полностью исключила зависимость от цепочек поставок Nvidia, переведя процесс обучения на чипы линейки Ascend. Huawei подтвердила полную совместимость модели с экосистемой Ascend SuperNode, включая использование новейших процессоров серии 950. По прогнозам представителей стартапа, стоимость использования V4-Pro может дополнительно снизиться по мере наращивания объемов производства чипов Ascend 950 во второй половине года.
Контекст геополитического давления
Релиз модели совпал по времени с появлением сообщений о том, что Государственный департамент США направил дипломатические депеши в посольства по всему миру. Сотрудникам дипмиссий было дано указание предупреждать власти других стран о предполагаемых нарушениях интеллектуальной собственности рядом китайских ИИ-компаний, включая DeepSeek, Moonshot AI и MiniMax.Подобные действия со стороны США стали продолжением претензий, озвученных еще в феврале. Тогда Anthropic заявила, что китайские фирмы предположили использование 24 тысяч учетных записей для проведения 16 миллионов циклов взаимодействия с моделью Claude, что, по мнению истцов, было направлено на «дистилляцию» (вытягивание знаний) из американских систем. OpenAI также выступала с аналогичными обвинениями в адрес DeepSeek.Буквально за два дня до выпуска модели Управление по научно-технической политике Белого дома выпустило меморандум, в котором деятельность китайских компаний была охарактеризована как «промышленные кампании» по копированию американских технологий.Китайский МИД назвал данные обвинения беспочвенными. Со своей стороны, представители DeepSeek ранее подчеркивали, что при обучении модели V3 опирались на массивы данных, собранные путем краулинга открытого интернета, и не использовали синтетические данные, созданные моделями OpenAI специально для дообучения. Запуск V4 состоялся в преддверии предстоящего визита президента Трампа в Пекин, где ожидается обсуждение контроля над экспортом полупроводников и споров в сфере интеллектуальной собственности.