Увеличение глубины сети до 1024 слоев повышает производительность RL-агентов в 50 раз
Команда из Принстонского и Варшавского университетов применила Contrastive RL для преодоления проблемы редкого отклика. Агенты эволюционировали от простых падений к сложным акробатическим маневрам в лабиринтах.