НИУ ВШЭ адаптирует языковые модели для русскоязычной научной терминологии
Анализ колоссальных массивов научно-технических данных — патентов, отчетов и публикаций — сегодня становится критически важной задачей. Исследователи из Института статистических исследований и экономики знаний (ИСИЭЗ) НИУ ВШЭ представили проект, направленный на адаптацию больших языковых моделей (LLM) к специфике российского научного дискурса. Основная проблема текущих рыночных решений заключается в их мультиязычной природе с сильным перекосом в сторону англоязычного контента, что создает риск «монокультуры данных» и снижает качество работы с глубокой узкопрофильной терминологией на русском языке.
Методология оптимизации и дообучения
В основу новой разработки лег корпус данных iFORA-QA, сформированный силами более 150 профильных экспертов ИСИЭЗ. В него вошли отобранные вручную аналитические материалы в области науки, технологий и инноваций (НТИ). Дообучение существующих открытых LLM на этом массиве позволило добиться более точной интерпретации семантических связей в текстах, написанных российскими специалистами.
Техническая оптимизация модели принесла значительный прирост производительности: показатели скорости генерации ответов выросли в 2,7 раза, а объем потребляемой оперативной памяти снизился на 73% по сравнению с исходной «тяжелой» версией нейросети. Если говорить проще, разработчикам удалось создать инструмент, который сохраняет высокую точность в узких доменах, но при этом требует менее мощного «железа», что делает внедрение модели доступным для более широкого спектра вычислительных систем.
Функциональная экосистема и планы развития
Прошедшая государственную регистрацию модель станет фундаментом для целого стека прикладных инструментов. В текущем году команда планирует реализовать систему интеллектуального поиска, минимизирующую вероятность классических галлюцинаций LLM. Принцип работы поисковика прост: каждый вывод системы будет верифицироваться ссылками на конкретные научные первоисточники.
Вторым важным компонентом станет построение графов связей для выявления скрытых закономерностей внутри массивов научной документации. Разработчики также внедряют механизм «рассуждения» (reasoning): перед генерацией ответа модель должна будет проанализировать полноту имеющихся данных. В случае неоднозначности запроса система будет самостоятельно уточнять недостающие характеристики у пользователя, а не предлагать готовый, но потенциально некорректный вариант ответа.
В перспективе эти модули будут интегрированы в мультиагентную среду, способную к полуавтономному решению комплексных аналитических задач. Идея состоит в том, чтобы превратить ИИ в полноценного партнера-исследователя, который способен не только обрабатывать текст, но и выстраивать логические цепочки. Проект реализуется Центром искусственного интеллекта НИУ ВШЭ при поддержке гранта Минэкономразвития России.