Ливневые паводки являются одними из самых смертельных природных явлений, ежегодно унося более 5000 жизней. Прогнозирование таких событий крайне сложно из-за их кратковременного характера и локализации. Однако Google нашел необычный способ решения этой проблемы — анализ новостных сообщений с помощью ИИ.
Хотя у людей накоплено множество метеорологических данных, ливневые паводки слишком кратковременны и локализованы, чтобы их можно было измерять так же comprehensively, как температуру или уровень рек. Это приводит к дефициту данных, который ограничивает возможности глубинного обучения в прогнозировании паводков.
Для преодоления этой проблемы исследователи Google использовали свою большую языковую модель Gemini для анализа 5 миллионов новостных статей со всего мира. Они выделили из этих статей сообщения о 2,6 миллионах различных паводков и преобразовали их в геометрически помеченные временные ряды, названные "Groundsource". По словам Гилы Лойке, менеджера по продуктам Google Research, это первый случай использования языковых моделей для такой задачи. Исследование и данные были опубликованы в четверг утром.
С "Groundsource" как базовым источником данных, исследователи обучили модель на основе нейронной сети с долгосрочной и краткосрочной памятью (LSTM) для обработки глобальных метеорологических прогнозов и генерации вероятности возникновения ливневых паводков в конкретных регионах.
Теперь модель Google по прогнозированию ливневых паводков выделяет риски для городских районов в 150 странах на платформе Flood Hub компании и обменивается данными с организациями по чрезвычайным ситуациям во всем мире. Антониу Жозе Белеза, сотрудник по чрезвычайным ситуациям в Сообществе развития Южной Африки, отметил, что эта модель помогла его организации быстрее реагировать на паводки.
Однако у модели есть ограничения. Во-первых, она имеет относительно низкое разрешение, определяя риск в областях площадью 20 квадратных километров. Во-вторых, она не столь точна, как система предупреждений о паводках Национальной метеорологической службы США, так как не использует локальные данные радаров для реального времени.
Однако проект был разработан с учетом работы в странах, где местные правительства не могут позволить себе инвестиции в дорогое оборудование для наблюдения за погодой или у них недостаточно метеорологических данных. "Сбор миллионов отчетов помогает сбалансировать карту", — заявила Джулиет Ротенберг, менеджер программы команды Google по устойчивости, на пресс-конференции этой недели. — Это позволяет нам экстраполировать данные в регионы, где информации меньше.
Ротенберг также отметила, что команда надеется применить метод использования языковых моделей для создания количественных наборов данных из качественных источников к другим феноменам, таким как жаркие волны и оползни.
Маршалл Мутенот, CEO компании Upstream Tech, использующей схожие модели глубинного обучения для прогнозирования уровня рек для клиентов, таких как гидроэлектростанции, считает, что вклад Google является частью растущих усилий по сбору данных для моделей прогнозирования погоды на основе глубинного обучения. Мутенот основал dynamical.org — группу, собирающую коллекцию данных о погоде, готовых к использованию в машинном обучении, для исследователей и стартапов.
"Недостаток данных является одной из самых сложных проблем в геофизике", — отметил Мутенот. — "Существует слишком много данных о Земле, но когда требуется проверка против реальных фактов, их оказывается недостаточно. Это был действительно творческий подход к получению данных."