Yandex Infrastructure пересмотрела принципы проектирования и эксплуатации центров обработки данных для обеспечения работы растущих нейросетевых нагрузок. Ключевые изменения затронули архитектуру размещения серверных мощностей и системы терморегулирования, что направлено на ускорение разработки и релизов ИИ-продуктов компании.
Переход к архитектуре кампусов
Для оптимизации вычислительных ресурсов «Яндекс» переходит от разрозненных площадок к концепции кампусов. Такая структура предполагает объединение нескольких независимых дата-центров в рамках одной локации при использовании общих объектов внешней инфраструктуры. Проще говоря, это позволяет централизовать управление энергетическими и инженерными узлами, повышая утилизацию ресурсов и общую отказоустойчивость. На практике это значит возможность масштабирования мощности до показателя в 180 МВт в одной точке — на сегодняшний день это рекордный объем для российского рынка центров обработки данных.
Модернизация систем охлаждения
Одной из главных технических сложностей при эксплуатации современных GPU-серверов остается отвод тепла, выделяемого мощными вычислительными чипами. В новых условиях инфраструктура «Яндекса» внедряет жидкостное охлаждение, однако инженеры компании нашли способ интегрировать его в старые площадки без полной перестройки зданий. Для этого были разработаны так называемые сайдкары — дополнительные стойки с жидкостно-воздушными радиаторами.Эта технология позволяет внедрять жидкостное охлаждение в залах, где ранее применялся только традиционный фрикулинг (охлаждение при помощи наружного воздуха). Если коротко, сайдкары выступают своего рода «надстройкой», которая модифицирует воздушные системы, адаптируя их под нужды высотных стоек с ИИ-оборудованием. Такой симбиоз технологий обеспечивает эффективное терморегулирование и позволяет не прибегать к капитальной реконструкции.
Энергоэффективность как целевой показатель
Согласно данным аналитиков IDC за 2024 год, на жидкостное охлаждение приходится около 22% всех центров обработки данных в мире. Переход к этой технологии обусловлен необходимостью снижать энергопотребление на фоне роста вычислительной плотности. На данный момент показатель энергоэффективности (PUE) дата-центров «Яндекса» составляет 1,1, что достигается за счет использования фрикулинга и минимизации доохлаждения. Интеграция жидкостных систем призвана дополнительно оптимизировать затраты энергии, поддерживая статус инфраструктуры как энергоэффективной и соответствующей требованиям экологических стандартов.Команда Yandex Infrastructure продолжает обеспечивать технологический стек для всех сервисов компании, включая ML-платформы, сети, хранилища эксабайтного уровня и инструменты для деплоя, которые теперь опираются на обновленную аппаратную базу.