Исследовательское подразделение Apple представило технологию LiTo (Surface Light Field Tokenization), направленную на решение одной из наиболее сложных задач компьютерного зрения — высокоточную 3D-реконструкцию объектов на основе одиночных 2D-изображений. Основным препятствием в этой области до настоящего момента оставалась недостаточная реалистичность отображения световых эффектов при смене ракурса.
Механика работы LiTo
Традиционные подходы к генерации 3D-моделей зачастую не справляются с сохранением согласованности освещения: при повороте объекта блики и отражения теряют физическую достоверность, искажаясь или исчезая. Разработчики LiTo реализовали принципиально иной подход, перейдя от простого копирования текстур к использованию инновационного представления в латентном пространстве.
Проще говоря, модель оперирует не массивами пикселей, а математическими векторами, описывающими фундаментальные законы взаимодействия света с поверхностью. На практике это значит, что система обладает способностью «достраивать» сцену: основываясь на фронтальном снимке, LiTo вычисляет параметры зеркальных бликов и френелевских отражений, которые должны наблюдаться с обратной стороны объекта в условиях заданного освещения.
Обучение и метрики производительности
Для достижения высокой точности передачи деталей исследователи использовали специализированный датасет, состоящий из тысяч 3D-объектов. Каждый из них был отрендерен в 150 ракурсах и при трех различных схемах освещения. Подобная детализация данных позволила модели продемонстрировать превосходство над архитектурой TRELLIS в тестах на точность воспроизведения освещения с разных точек обзора — если коротко, модель значительно лучше справляется с реалистичным рендерингом сложных поверхностей.
Перспективы внедрения
Фокус на физической корректности световых взаимодействий указывает на стремление Apple сформировать технологический фундамент для развития экосистемы пространственных вычислений. Автоматизированная трансформация 2D-контента в полноценные 3D-ассеты может стать ключевым фактором для расширения возможностей аппаратных решений, таких как Vision Pro. Внедрение LiTo позволит интегрировать объекты, снятые на iPhone, в виртуальную среду с сохранением достоверного освещения, что обеспечивает компании существенный задел в развитии инструментов для создания контента нового поколения.