С 2022 года более трети новых сайтов созданы ИИ – исследование Стэнфорда

Современная иллюстрация: генерация множества однотипных веб-сайтов с помощью искусственного интеллекта
Современная иллюстрация: генерация множества однотипных веб-сайтов с помощью искусственного интеллекта • Все права на публикацию принадлежат AInDev.ru

Коллаборация исследователей из Стэнфордского университета, Имперского колледжа Лондона и специалистов проекта Internet Archive представила аналитическую работу под названием «Влияние текста, сгенерированного ИИ, на интернет». Согласно их выводам, с конца 2022 года архитектура веб-контента претерпела фундаментальные изменения: на текущий момент более трети всех новых веб-ресурсов создается с применением нейросетей. Анализ показал, что экспансия алгоритмов делает цифровую среду более позитивной по тональности, но одновременно с этим существенно снижает её разнообразие.

Методология исследования и роль цифровых архивов

В основу работы легла проверка популярной концепции «мёртвого интернета», предполагающей, что значительная доля сетевого трафика и контента генерируется ботами для взаимодействия с другими ботами. Для верификации этой гипотезы ученые проанализировали массив данных Internet Archive за 33-месячный период — с августа 2022 года по май 2025 года. Использование API сервиса CDX Wayback Machine позволило извлекать наиболее ранние снимки HTML-кода выбранных URL-адресов для их последующей локальной обработки.

Идентификация происхождения текстов осуществлялась с помощью программного обеспечения Pangram v3. По заявлению авторов работы, этот инструмент демонстрирует наиболее высокую точность в определении признаков нейросетевой генерации. Исследователи отмечают, что к середине 2025 года доля сайтов, классифицированных как созданные или обработанные ИИ, достигла 35%, тогда как до релиза ChatGPT в конце 2022 года этот показатель стремился к нулю.

Соавтор исследования из Стэнфорда Йонаш Долежал подчеркивает беспрецедентную скорость этих изменений. По его словам, цифровая среда, которая формировалась людьми на протяжении десятилетий, трансформировалась под влиянием алгоритмов всего за три года. Фактически мы наблюдаем перестройку глобального ландшафта данных, темпы которой значительно опережают скорость его первоначального создания.

Проверка гипотез: дезинформация, стерильность и монокультура

В центре внимания ученых оказались шесть критических аспектов, которые часто приписывают нейросетевому контенту. Исследователей интересовало, ведет ли ИИ к сужению спектра мнений, росту дезинформации из-за галлюцинаций моделей, «стерильности» языка, отсутствию ссылок на источники, низкой семантической плотности текстов и возникновению стилистического единообразия.

Для проверки каждой гипотезы был разработан измеримый индикатор. Например, вопрос распространения ложной информации проверялся через экстракцию фактологических утверждений и их сверку с базами знаний. Проблема цитирования анализировалась через плотность исходящих ссылок в массивах сгенерированного текста. Проще говоря, ученые искали математическую корреляцию между присутствием ИИ и качественными изменениями контента.

Неожиданные результаты: парадокс достоверности

Результаты исследования оказались двоякими: подтвердились лишь две из шести теорий. Выяснилось, что ИИ действительно способствует снижению семантического разнообразия и создает более жизнерадостный, позитивный фон в сети. Однако гипотеза о «распаде истины» не нашла подтверждения. Несмотря на ожидания, авторы не обнаружили взрывного роста заведомо ложной информации, напрямую связанного с деятельностью нейросетей.

Йонаш Долежал отмечает, что отсутствие роста проверенной лжи стало самым неожиданным итогом работы. Это может указывать на несколько факторов: либо существующие инструменты проверки фактов пока не способны улавливать тонкие манипуляции ИИ, либо качество информации в интернете изначально было не слишком высоким, и нейросети лишь поддерживают существующий уровень достоверности, не снижая его намеренно.

Исследовательская группа планирует масштабировать проект, создав инструмент для непрерывного мониторинга сети в режиме реального времени. Это позволит уйти от статичных снимков и детально изучить распределение ИИ-контента по языковым группам и тематическим категориям. По мнению Долежала, ключевой вызов современности заключается в том, чтобы интегрировать ИИ в творческие процессы без потери индивидуальности. На практике это означает отказ от создания «идеально послушных» и стерильных моделей в пользу систем, способных проявлять характер и выступать в роли полноценных творческих партнеров, а не просто инструментов для клонирования однотипных текстов.