В сфере обработки естественного языка и компьютерного зрения масштабирование моделей давно стало стандартом, приведшим к технологическим прорывам. Однако обучение с подкреплением (Reinforcement Learning, RL), где агенты обучаются методом проб и ошибок, долгое время оставалось в стороне от этого тренда. В то время как современные языковые модели вроде Llama 3 используют сотни слоев, большинство RL-систем по-прежнему ограничиваются архитектурами из двух-пяти слоев. Исследователи из Принстонского университета и Варшавского технологического университета представили работу, доказывающую, что глубокое масштабирование в RL не только возможно, но и обеспечивает прирост производительности от 2 до 50 раз.
Преодоление проблемы разреженной обратной связи
Основным препятствием для масштабирования RL-агентов традиционно была нехватка обучающего сигнала. Если при обучении LLM каждое слово в тексте служит подсказкой, то RL-агент часто получает лишь «разреженную» обратную связь: он узнает, достиг ли он цели, только в самом конце цепочки действий. Чтобы решить эту проблему, ученые применили алгоритм Contrastive RL (CRL), который переносит принципы самообучения из языковых моделей в среду подкрепления.
Суть CRL заключается в обучении агента базовому навыку: определять, является ли конкретное действие частью пути, ведущего к цели. Проще говоря, система постоянно анализирует свои попытки и сопоставляет их с итоговым результатом. В процессе обучения удачные комбинации действий «сближаются» в математическом представлении модели, а ошибочные — отдаляются друг от друга. Это позволяет агенту извлекать пользу из собственного опыта без предварительных человеческих примеров или сложных систем наград, прописанных вручную.
Архитектурные решения для стабильности глубоких сетей
Для обеспечения стабильности нейросетей, глубина которых в экспериментах достигала 1024 слоев, исследователи интегрировали три ключевых технических компонента: остаточные связи (residual connections) для предотвращения потери информации, специфические методы нормализации для стабилизации шагов обучения и специализированную функцию активации. На практике это значит, что масштабирование глубины дает эффект только при одновременном использовании всех трех элементов; отсутствие любого из них делает обучение глубокой сети неэффективным.
Эмерджентное поведение и акробатика гуманоидов
Одним из наиболее значимых результатов исследования стало обнаружение качественных скачков в поведении агентов при преодолении определенных порогов глубины. В симуляции с гуманоидной фигурой, перемещающейся по лабиринту, модель с 4 слоями не могла решить задачу, просто хаотично двигаясь в сторону цели. При увеличении глубины до 16 слоев агент освоил стабильную ходьбу в вертикальном положении. На уровне 256 слоев у ИИ проявились сложные стратегии: агент начал демонстрировать «акробатические» приемы, преодолевая препятствия и перепрыгивая через стены. Это первые зафиксированные случаи подобного поведения в задачах RL для гуманоидных сред, обусловленных достижением цели.
В восьми из десяти протестированных сценариев масштабируемый подход CRL превзошел все существующие базовые модели. В наиболее сложных тестах преимущество глубокой сети над стандартными архитектурами составило более чем 1000-кратный разрыв в эффективности.
Глубина против ширины: смена парадигмы
Исследование подчеркивает, что глубина сети является более важным рычагом влияния на результат, чем ее ширина (количество нейронов в одном слое). Удвоение глубины до восьми слоев показало лучшие результаты, чем использование максимально широких сетей, при этом глубокая модель требовала меньше параметров. Примечательно, что традиционные методы RL не получают сопоставимых выгод от наращивания количества слоев — решающим фактором здесь выступает именно алгоритм самообучения CRL.
Однако внедрение таких решений сопряжено с определенными трудностями. Глубокие сети требуют значительно больших вычислительных мощностей и времени на обучение. Кроме того, на текущий момент все тесты проводились исключительно в симуляциях. Пока неясно, насколько хорошо агент сможет адаптироваться к радикально новым сценариям, хотя начальные тесты с неизвестными ранее комбинациями целей выглядят многообещающе. Также было замечено, что в режиме оффлайн-обучения (когда агент не взаимодействует со средой напрямую, а учится на заранее собранных данных) дополнительная глубина пока не дает существенного преимущества.
Данная работа дополняет исследования прошлых лет (например, анализ Университета Гёте в 2022 году), подтверждая, что законы масштабирования, характерные для больших языковых моделей, применимы и к сегменту RL. Ключевым выводом остается то, что для достижения новых уровней автономности ИИ-агентов критически важна именно глубина нейронной сети в сочетании с правильным алгоритмом обработки опыта.