Generative AI 13.03.2026 00:45

Grok 4.20 от xAI отстает от Gemini и GPT-5.4 в бенчмарках, но бьет рекорд по минимальным галлюцинациям

Grok 4.20 от xAI, судя по всему, продемонстрировал уникальное сочетание характеристик. Согласно оценкам Artificial Analysis, новая бета-версия модели, оснащенная функцией рассуждения, достигает 48 баллов по Intelligence Index. Этот показатель, хоть и отстает от результатов конкурентов вроде Gemini 3.1 Pro Preview и GPT-5.4, чьи оценки составляют 57 баллов, тем не менее, представляет собой значительный шаг вперед. Если быть точнее, это на 6 пунктов выше, чем у предыдущей версии Grok 4.

xAI предлагает разработчикам три версии API Grok 4.20: с активным механизмом рассуждения, без него, а также в режиме multi-agent, то есть для взаимодействия нескольких агентов. Модель поддерживает контекстное окно объемом до 2 миллионов токенов. Стоимость использования варьируется от 2 до 6 долларов за миллион токенов, что делает ее более доступной по сравнению с Grok 4 и вполне конкурентоспособной на фоне других западных решений.

Наиболее примечательной особенностью Grok 4.20 является его способность к обеспечению достоверности фактов, а именно – снижение количества галлюцинаций. Тестирование AA Omniscience показало впечатляющий результат – 78% ответов без вымышленных данных, что является рекордным показателем, по данным Artificial Analysis. Тест Omniscience оценивает не только точность фактических данных, но и способность модели признавать отсутствие информации вместо того, чтобы генерировать ложные ответы. Grok 4.20 допускал ошибки лишь примерно в одном из пяти случаев, когда у него не было точного ответа.

#нейросети #галлюцинации #xAI #ИИ #Grok #Grok 4.20 #бенчмарки

Авторы и эксперты

Автор

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрен...

Экспертная проверка

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервис...