Стартап Physical Intelligence представил π0.7 — фундаменальную модель для робототехники, принцип работы которой концептуально перекликается с архитектурой больших языковых моделей (LLM). По своей сути это попытка перенести механизмы генерации текста в физический мир: вместо предсказания следующего токена модель оперирует набором навыков, комбинируя их для выполнения целевых задач.
Механика композиционной генерализации
Разработчики утверждают, что π0.7 демонстрирует признаки «композиционной генерализации». Если упростить, это способность системы дробить сложные операции на элементарные составляющие, изученные в ходе обучения, и собирать из них новые алгоритмы действий. Обучающая выборка модели охватывает широкий спектр задач, включая предметную манипуляцию, навигацию в пространстве и распознавание объектов. На практике это значит, что робот под управлением π0.7 может решать составные задачи, не имея пошагового программирования для каждой из них — модель просто «пересобирает» ранее усвоенные паттерны движений.
Ограничения и проблематика переноса навыков
Несмотря на прогрессивный подход, π0.7 наследует ряд архитектурных недостатков, типичных для современных трансформеров. Исследователи отмечают, что модель подвержена ошибкам генерализации, которые часто наблюдаются при работе с LLM. Если говорить коротко, система «ломается», когда сталкивается с комбинациями навыков, которые не имели достаточного пересечения в процессе обучения. Это указывает на то, что способность к абстрагированию у π0.7 ограничена: модель не всегда корректно экстраполирует усвоенные знания на сценарии, выходящие за рамки обучающего распределения.
Перспективы внедрения
Создание π0.7 можно рассматривать как очередной этап перехода от жестко заданных алгоритмов к адаптивным роботизированным системам. Возможность динамического комбинирования навыков — ключевой фактор для повышения автономности роботов в непредсказуемых реальных условиях. Хотя на текущем этапе эффективность обобщения все еще требует доработки, сама архитектура закладывает потенциальный фундамент для более гибких систем, где обучение происходит не через создание бесконечных библиотек сценариев, а через масштабируемое усвоение базовых двигательных компетенций.