RAG / AI-агенты / автоматизация 15.03.2026 22:14

Принстонские ученые представили OpenClaw-RL для обучения ИИ на пользовательском фидбеке

Исследователи из Принстонского университета представили фреймворк OpenClaw-RL, который пересматривает подход к обучению ИИ-агентов. Традиционно данные, полученные в процессе взаимодействия с пользователем или средой, используются лишь как контекст для следующего шага, после чего удаляются. Новая архитектура предлагает рассматривать каждый сигнал — ответ пользователя, результат выполнения команды в терминале или изменение состояния GUI — как непрерывный источник для дообучения модели в реальном времени.

Механика извлечения сигналов из взаимодействия

Авторы работы указывают на то, что текущие системы допускают «системную расточительность», игнорируя фидбек. В OpenClaw-RL входящие сигналы делятся на два типа: оценочные и направляющие. Оценочные сигналы позволяют автоматически определять качество работы без ручной разметки. Проще говоря, если пользователь повторно задает тот же вопрос, система фиксирует неудовлетворенность результатом, а успешное прохождение автоматического теста в программной среде служит подтверждением правильности действий.

Направляющие сигналы несут более глубокую информацию. Если пользователь пишет: «Тебе следовало сначала проверить файл», это не просто констатация ошибки, а конкретная инструкция по ее исправлению. Стандартные методы обучения с подкреплением (RL) обычно сжимают такой фидбек до числового значения (награды), теряя содержательную часть. OpenClaw-RL сохраняет эту детализацию для корректировки весов модели.

Архитектура и компоненты обучения

Система построена на четырех независимых компонентах, работающих асинхронно. Пока один модуль отвечает на запрос пользователя, другой оценивает качество предыдущего ответа, а третий параллельно обновляет веса модели. Такая децентрализация позволяет проводить обучение без пауз в работе агента. Для персональных ассистентов связь с сервером обучения осуществляется через конфиденциальный API, а для общих задач (например, работы с кодом) система масштабируется в облаке, поддерживая до 128 параллельных инстансов.

В основе оптимизации лежат два метода. Первый — Binary RL — использует модель-оценщик для классификации действий на «хорошие», «плохие» или «нейтральные» на основе мажоритарного голосования. Второй, более сложный метод — Hindsight-Guided On-Policy Distillation (OPD). Он работает следующим образом: на основе полученного фидбека модель-оценщик формулирует краткую подсказку-исправление и добавляет ее к исходному запросу. Затем основная модель анализирует, насколько вероятно она сгенерировала бы каждый токен своего первоначального ответа, имей она эту подсказку заранее. Разница в вероятностях дает четкий сигнал: какие речевые обороты или действия стоит закрепить, а каких избегать на уровне отдельных токенов.

Результаты тестирования и практическое применение

Эффективность OpenClaw-RL проверялась на модели Qwen3-4B в различных сценариях. В тестах на персонализацию, где агент имитировал поведение студента или преподавателя с определенным стилем общения, значительные улучшения фиксировались уже после нескольких десятков взаимодействий. Например, в роли «студента» показатель персонализации вырос с 0,17 до 0,76 всего за восемь шагов обучения. ИИ научился избавляться от типичных «машинных» формулировок, жирного шрифта и избыточного структурирования, переходя к более естественному стилю письма.

Для специализированных агентов результаты также показали рост производительности: точность работы в терминале выросла с 0,17 до почти 0,50, а в задачах по разработке ПО — до 0,18. OpenClaw-RL стал первой системой, объединившей несколько потоков взаимодействия — от личных переписок до написания кода — в единый цикл обучения. Исходный код проекта опубликован в открытом доступе.

Несмотря на использование названия популярного ИИ-агента OpenClaw, данный фреймворк является независимым исследовательским проектом и не связан напрямую с основной командой разработчиков платформы. Возможно, таким образом, создатели решили привлечь внимание к своему продукту.

Посмотреть сам проект можно на https://github.com/Gen-Verse/OpenClaw-RL

#ИИ #машинное обучение #reinforcement learning #OpenClaw-RL #Принстонский университет #фидбек агентов #онлайн-дообучение

Авторы и эксперты

Автор

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервис...

Экспертная проверка

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрен...

Предыдущий материал

Карпати оценил подверженность ИИ всех профессий США

Алексей Воронов • 15.03.2026 21:47

Следующий материал

OpenViking: открытая контекстная база для ИИ-агентов с файловой системой памяти

Алексей Воронов • 15.03.2026 22:18