OpenSeeker: открытый ИИ-агент для поиска обходит монополию данных

Проект OpenSeeker представляет собой открытую альтернативу AI-агентам для поиска информации в интернете, которые ранее были прерогативой крупных технологических компаний. С использованием всего 11,700 точек данных и одного тренировочного запуска, OpenSeeker демонстрирует результаты, сопоставимые с решениями от Alibaba и других игроков. Все данные, код и модель доступны для свободного использования.

Потенциально мощные AI-агенты поиска, способные самостоятельно выполнять многошаговые запросы информации в интернете, до сих пор оставались в руках больших технологических компаний. OpenAI, Google и Alibaba держат свои данные для обучения в секрете. Даже проекты, публикующие веса моделей, не раскрывают данные, на которых они обучены. Этот монополизм данных, по мнению исследователей из Шанхайского университета Цзяотун, замедлил развитие открытого научного сообщества почти на год.

С OpenSeeker академическая команда стремится изменить эту ситуацию: все тренировочные данные (лицензия MIT), код и веса модели открыто доступны. OpenSeeker базируется на двух ключевых идеях для генерации данных.

Первая идея заключается в использовании реальной структуры ссылок веб-страниц как основы для создания вопросов-ответов. Система начинает с случайно выбранных страниц (примерно 68 ГБ английских и 9 ГБ китайских данных) и следует гиперссылкам, извлекая наиболее важную информацию. Затем конкретные имена и термины заменяются общими описаниями, что делает невозможным простой поиск ответов по ключевым словам. Это вынуждает агента выполнять многократный поиск и анализ.

Двухэтапный фильтр удаляет непригодные вопросы: модель должна не уметь отвечать на них без инструментов, но быть способной решить их с полным контекстом. Если хотя бы одно из условий не выполняется, вопрос исключается.

Вторая идея касается путей поиска, которые модель учится воспроизводить. Веб-страницы содержат много шума, который снижает качество записанных решений. Во время генерации данных учительская модель получает очищенный свод предыдущих результатов и принимает лучшие решения на их основе. Во время обучения студенческая модель видит неочищенные данные, но ожидается, что она воспроизведет высококачественные решения учителя. Это вынуждает её самостоятельно разбираться в том, как отделять полезную информацию от шума.

OpenSeeker основан на модели Qwen3-30B-A3B и был обучен с использованием 11,700 точек данных за один запуск с помощью управляемого дообучения, без использования методов усиленного обучения или многократной корректировки. Согласно статье, модель достигла 48.4% на китайском бенчмарке BrowseComp-ZH, превзойдя Alibaba's Tongyi DeepResearch, который показал 46.7%. Модель от Alibaba прошла трёхэтапный процесс: расширенное предобучение, управляемое дообучение и усиленное обучение.

На английском бенчмарке BrowseComp от OpenAI, OpenSeeker набрал 29.5%, что почти вдвое больше 15.3% у DeepDive — предыдущего лидера среди полностью открытых агентов. Сравнение с MiroThinker подчеркивает важность качества данных: эта модель была обучена на 147,000 примерах и набрала всего 13.8% на BrowseComp-ZH. OpenSeeker достигает в три раза лучшего результата при использовании менее одной двенадцатой части данных.

Однако по-прежнему существует разрыв с самыми мощными проприетарными системами. GPT-5-High от OpenAI набирает 54.9% на BrowseComp, а DeepSeek-V3.2 с 671 миллиардом параметров достигает 51.4%. OpenSeeker работает при значительно меньшем размере модели и затратах на обучение.

Вопрос о доступе к высококачественным данным для обучения остается ключевым в AI-индустрии уже давно. В прошлом году исследовательская команда выпустила Common Pile, 8 ТБ текстовых данных из открытых источников. Однако это пока не оказало значительного влияния на доминирование коммерческих моделей.

OpenSeeker: открытый ИИ-агент для поиска обходит монополию данных

Алексей Воронов

Екатерина Морозова

OpenSeeker: открытый ИИ-агент для поиска обходит монополию данных

Алексей Воронов

Екатерина Морозова

Похожие материалы

Стоимость обучения ИИ-моделей упала в 10 раз: обход защит доступен малым командам

Карпати: люди — узкое место в ИИ-исследованиях с измеримыми результатами

Проект N.O.M.A.D.: автономный компьютер с ИИ-ассистентом выложен в открытый доступ

ИИ разработал модульного робота, устойчивого к повреждениям