Generative AI 05.03.2026 11:32

НГУ запустил ИИ-сервис для создания аудиоверсий научных книг

Новосибирский государственный университет (НГУ) инициировал пилотный проект, направленный на автоматизированное преобразование печатных изданий в аудиоформат. Задачей сервиса является создание звуковых версий книг, изначально представленных в оцифрованной части библиотечного фонда НГУ.

Технологические аспекты проекта

На первом этапе в аудиоформат переводятся публикации университетского издательства, а также материалы из его электронной библиотеки. Суммарно это около семи тысяч наименований, для которых получено разрешение от правообладателей. Процесс полностью автоматизирован: нейросеть анализирует PDF-файлы, извлекая текстовую информацию, обрабатывает её и генерирует соответствующую звуковую дорожку. В долгосрочной перспективе предполагается озвучивание всего контента электронной библиотеки университета.

Важно отметить, что проект не нацелен на создание художественной озвучки с выразительными интонациями. Основной акцент сделан на тиражировании и обеспечении доступности технологии как альтернативного способа получения информации, а не замены традиционного чтения.

Ресурсные требования и используемые инструменты

По словам Евгения Павловского, ведущего научного сотрудника Центра искусственного интеллекта НГУ, решение не отличается высокой ресурсоёмкостью. Для обработки одной книги требуется примерно полчаса на 16-ядерном процессоре, при этом использование видеокарты не является обязательным.

Основой для реализации проекта послужил фреймворк «Каппа», разработанный в Центре ИИ НГУ. Эта платформа предназначена для управления наборами данных и моделями искусственного интеллекта, а также для их тестирования, что позволяет минимизировать ошибки, включая "галлюцинации" нейросетей (то есть, неверные или вымышленные ответы). В данном проекте «Каппа» используется для подготовки обучающих данных и сбора обратной связи относительно качества сгенерированных аудиозаписей.

Перспективы и масштабирование

На текущий момент в пилотном режиме уже озвучено около ста книг. Разработчики ожидают результатов обратной связи от библиотеки и первых пользователей. В университете подчёркивают, что проект имеет выраженный технологический характер. После окончательной отладки всех процессов и механизмов взаимодействия с библиотечными системами сервис может быть предложен другим университетам и публичным библиотекам, возможно, посредством партнёрских платформ.

По оценкам специалистов, теоретически весь имеющийся библиотечный фонд может быть озвучен в течение месяца. Однако с учётом организационных аспектов и необходимости верификации готового материала этот процесс может занять до одного года.

#ИИ #НГУ #аудиокниги #научные книги #автоматическая озвучка #фреймворк Каппа #библиотеки

Авторы и эксперты

Автор

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрен...

Экспертная проверка

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервис...