Новые работы ИИ: модели пере- и недодумывают, мультимодалки нарушают логику шагов, LLM-судьи дают 21% улучшения
Новые работы показывают: модели пере- и недодумывают одновременно, мультимодальные системы нарушают логику шагов, а LLM-судьи с хорошей корреляцией захватывают лишь 21% потенциального улучшения при Best-of-N.