Команда Physical Intelligence представила новую архитектуру под названием MEM (Multi-scale Embodied Memory), разработанную для улучшения навигационных и манипуляционных возможностей роботов. Эта система представляет собой многоуровневый подход к управлению памятью, который интегрирует различные типы хранения данных для обеспечения более сложного когнитивного поведения роботов.
Архитектура и функциональность MEM
В основе MEM лежит многомасштабная архитектура, которая позволяет роботу оперировать как с кратковременной, так и с долговременной памятью. Кратковременная память используется для обработки текущих задач и оперативных данных, в то время как долговременная память отвечает за хранение накопленных знаний и освоенных навыков. Это дополняется пространственной памятью для эффективной навигации в окружающей среде и временной памятью для анализа и понимания последовательности событий.
Ключевым аспектом MEM является концепция воплощенного обучения (Embodied Learning), подразумевающая тесную интеграцию системы с физическими платформами роботов. Такой подход позволяет роботу обучаться непосредственно через взаимодействие с реальным миром. Для обработки и интерпретации информации в MEM используются большие языковые модели (LLM), в частности Gemma 3-4B VLA, что обеспечивает улучшенное понимание сложных инструкций и характеристик окружающей среды.
Преимущества и области применения
MEM направлена на то, чтобы наделить роботов способностью запоминать и воспроизводить сложные последовательности действий, значительно повышая их адаптивность. Система позволяет накапливать опыт, который затем может быть применен в новых, ранее не встречавшихся ситуациях. Это критически важно для выполнения многошаговых манипуляций и автономной навигации.
Практическое применение MEM охватывает широкий спектр задач, включая выполнение комплексных операций, обучение на основе предыдущего опыта и улучшенное взаимодействие с динамичной средой. Концепция MEM ориентирована на то, чтобы вывести роботов за рамки простых реактивных алгоритмов, предоставив им возможность к более изощренному обучению с использованием памяти.
Значимость разработки
Разработка MEM указывает на вектор развития роботизированных систем в сторону приобретения более сложного когнитивного инструментария. Интеграция с крупными языковыми моделями, такими как Gemma 3-4B, демонстрирует потенциал для значительного расширения возможностей роботов в интерпретации сложных инструкций и глубоком анализе окружающей среды через развитые механизмы памяти и обучения.