Arena: бенчмарк для LLM от проекта Беркли до $1,7 млрд
За семь месяцев платформа эволюционировала в de facto стандарт оценки frontier-моделей, влияя на funding и PR. Основатели делятся, как динамические слепые тесты обеспечивают нейтральность даже с поддержкой OpenAI, Google и Anthropic.