← Все новости

Принстонские ученые представили OpenClaw-RL для обучения ИИ на пользовательском фидбеке

Страница из работы иследовательской группы

Страница из работы иследовательской группы • Скриншот сайта arxiv.org

• Категория: RAG / AI-агенты / автоматизация • Автор: Алексей Воронов • Проверил: Екатерина Морозова • 15.03.2026 22:14

Исследователи из Принстонского университета представили фреймворк OpenClaw-RL, который пересматривает подход к обучению ИИ-агентов. Традиционно данные, полученные в процессе взаимодействия с пользователем или средой, используются лишь как контекст для следующего шага, после чего удаляются. Новая архитектура предлагает рассматривать каждый сигнал — ответ пользователя, результат выполнения команды в терминале или изменение состояния GUI — как непрерывный источник для дообучения модели в реальном времени.

Механика извлечения сигналов из взаимодействия

Авторы работы указывают на то, что текущие системы допускают «системную расточительность», игнорируя фидбек. В OpenClaw-RL входящие сигналы делятся на два типа: оценочные и направляющие. Оценочные сигналы позволяют автоматически определять качество работы без ручной разметки. Проще говоря, если пользователь повторно задает тот же вопрос, система фиксирует неудовлетворенность результатом, а успешное прохождение автоматического теста в программной среде служит подтверждением правильности действий.

Направляющие сигналы несут более глубокую информацию. Если пользователь пишет: «Тебе следовало сначала проверить файл», это не просто констатация ошибки, а конкретная инструкция по ее исправлению. Стандартные методы обучения с подкреплением (RL) обычно сжимают такой фидбек до числового значения (награды), теряя содержательную часть. OpenClaw-RL сохраняет эту детализацию для корректировки весов модели.

Архитектура и компоненты обучения

Система построена на четырех независимых компонентах, работающих асинхронно. Пока один модуль отвечает на запрос пользователя, другой оценивает качество предыдущего ответа, а третий параллельно обновляет веса модели. Такая децентрализация позволяет проводить обучение без пауз в работе агента. Для персональных ассистентов связь с сервером обучения осуществляется через конфиденциальный API, а для общих задач (например, работы с кодом) система масштабируется в облаке, поддерживая до 128 параллельных инстансов.

В основе оптимизации лежат два метода. Первый — Binary RL — использует модель-оценщик для классификации действий на «хорошие», «плохие» или «нейтральные» на основе мажоритарного голосования. Второй, более сложный метод — Hindsight-Guided On-Policy Distillation (OPD). Он работает следующим образом: на основе полученного фидбека модель-оценщик формулирует краткую подсказку-исправление и добавляет ее к исходному запросу. Затем основная модель анализирует, насколько вероятно она сгенерировала бы каждый токен своего первоначального ответа, имей она эту подсказку заранее. Разница в вероятностях дает четкий сигнал: какие речевые обороты или действия стоит закрепить, а каких избегать на уровне отдельных токенов.

Результаты тестирования и практическое применение

Эффективность OpenClaw-RL проверялась на модели Qwen3-4B в различных сценариях. В тестах на персонализацию, где агент имитировал поведение студента или преподавателя с определенным стилем общения, значительные улучшения фиксировались уже после нескольких десятков взаимодействий. Например, в роли «студента» показатель персонализации вырос с 0,17 до 0,76 всего за восемь шагов обучения. ИИ научился избавляться от типичных «машинных» формулировок, жирного шрифта и избыточного структурирования, переходя к более естественному стилю письма.

Для специализированных агентов результаты также показали рост производительности: точность работы в терминале выросла с 0,17 до почти 0,50, а в задачах по разработке ПО — до 0,18. OpenClaw-RL стал первой системой, объединившей несколько потоков взаимодействия — от личных переписок до написания кода — в единый цикл обучения. Исходный код проекта опубликован в открытом доступе.

Несмотря на использование названия популярного ИИ-агента OpenClaw, данный фреймворк является независимым исследовательским проектом и не связан напрямую с основной командой разработчиков платформы. Возможно, таким образом, создатели решили привлечь внимание к своему продукту.

Посмотреть сам проект можно на https://github.com/Gen-Verse/OpenClaw-RL

Теги: #ИИ, #машинное обучение, #reinforcement learning, #OpenClaw-RL, #Принстонский университет, #фидбек агентов, #онлайн-дообучение