Якутский язык интегрирован в ИИ-помощник ГигаЧат Сбербанка
Модель «ГигаЧат» от Сбербанка получила поддержку якутского языка, что делает его одним из первых национальных языков России, интегрированных в крупную языковую модель на уровне с английским и русским. Реализация этого проекта стала результатом междисциплинарного сотрудничества между региональными ИТ-специалистами, учеными, представителями академической сферы и медиаиндустрии.
Техническая реализация и подготовка данных
Процесс обучения модели потребовал формирования специализированного корпуса данных. Сбором и подготовкой материалов занималась профильная Лаборатория искусственного интеллекта Якутии при участии экспертов из Северо-Восточного федерального университета (СВФУ). Важную роль в наполнении обучающей выборки сыграли Национальная библиотека, издательские дома «Сахапечать» и «Сахамедиа», а также холдинг «Ситим-Медиа» и Верхневилюйский лицей-интернат.
Если говорить о практическом применении, то дообучение модели позволяет пользователям вести диалог с «ГигаЧатом» на якутском языке, запрашивать генерацию текстов и использовать систему в качестве ассистента для решения повседневных, образовательных или профессиональных задач. Проще говоря, участие региональных институтов позволило локализовать модель, настроив её на лингвистические особенности языка.
Значение интеграции для цифровой среды
По словам главы Республики Саха (Якутия) Айсена Николаева, внедрение якутского языка в ИИ-сервисы является частью стратегии по сохранению и развитию национального языка в современной цифровой экосистеме. Разработчики придерживаются концепции, согласно которой жизнеспособность любого языка сегодня напрямую зависит от его присутствия в технологических продуктах и актуальных форматах коммуникации.
Проект демонстрирует методику масштабирования больших языковых моделей на региональные языки, что делает современные цифровые инструменты более доступными для носителей национальных языков внутри страны. Эксперты отмечают, что подобная интеграция открывает новые возможности не только для пользовательского взаимодействия, но и для цифровизации культуры в целом.