Три исследования arXiv: агенты слабы в офисных задачах, новые safety gate и оптимизация RL
Claude Opus 4.5 достигает лишь 37,4% успеха на реалистичных корпоративных workflow. ILION блокирует риски за 143 мкс без обучения, AutoTool снижает затраты RL на 81% при росте точности на 9,8%.