Новосибирский государственный университет (НГУ) инициировал пилотный проект, направленный на автоматизированное преобразование печатных изданий в аудиоформат. Задачей сервиса является создание звуковых версий книг, изначально представленных в оцифрованной части библиотечного фонда НГУ.
Технологические аспекты проекта
На первом этапе в аудиоформат переводятся публикации университетского издательства, а также материалы из его электронной библиотеки. Суммарно это около семи тысяч наименований, для которых получено разрешение от правообладателей. Процесс полностью автоматизирован: нейросеть анализирует PDF-файлы, извлекая текстовую информацию, обрабатывает её и генерирует соответствующую звуковую дорожку. В долгосрочной перспективе предполагается озвучивание всего контента электронной библиотеки университета.
Важно отметить, что проект не нацелен на создание художественной озвучки с выразительными интонациями. Основной акцент сделан на тиражировании и обеспечении доступности технологии как альтернативного способа получения информации, а не замены традиционного чтения.
Ресурсные требования и используемые инструменты
По словам Евгения Павловского, ведущего научного сотрудника Центра искусственного интеллекта НГУ, решение не отличается высокой ресурсоёмкостью. Для обработки одной книги требуется примерно полчаса на 16-ядерном процессоре, при этом использование видеокарты не является обязательным.
Основой для реализации проекта послужил фреймворк «Каппа», разработанный в Центре ИИ НГУ. Эта платформа предназначена для управления наборами данных и моделями искусственного интеллекта, а также для их тестирования, что позволяет минимизировать ошибки, включая "галлюцинации" нейросетей (то есть, неверные или вымышленные ответы). В данном проекте «Каппа» используется для подготовки обучающих данных и сбора обратной связи относительно качества сгенерированных аудиозаписей.
Перспективы и масштабирование
На текущий момент в пилотном режиме уже озвучено около ста книг. Разработчики ожидают результатов обратной связи от библиотеки и первых пользователей. В университете подчёркивают, что проект имеет выраженный технологический характер. После окончательной отладки всех процессов и механизмов взаимодействия с библиотечными системами сервис может быть предложен другим университетам и публичным библиотекам, возможно, посредством партнёрских платформ.
По оценкам специалистов, теоретически весь имеющийся библиотечный фонд может быть озвучен в течение месяца. Однако с учётом организационных аспектов и необходимости верификации готового материала этот процесс может занять до одного года.