Исследователи из ННГУ представили алгоритм машинного обучения, способный классифицировать психоэмоциональное состояние человека, опираясь исключительно на фоновые характеристики речевого сигнала. В рамках работы, получившей поддержку РНФ, удалось достичь точности распознавания тревожного состояния на уровне 91,9%, анализируя акустические маркеры, связанные с вегетативными реакциями организма.
Методология анализа акустических признаков
Фундамент исследования строится на прямой корреляции между активностью вегетативной нервной системы и параметрами голосообразования. Стрессовая реакция трансформирует мышечный тонус и динамику дыхания, что неизбежно отражается на тембре, высоте тона, ритмике и амплитудных характеристиках речи. Для фиксации этих микроизменений была выбрана методика извлечения мел-частотных кепстральных коэффициентов (MFCC). Если коротко, MFCC — это способ компактного представления спектральной огибающей звукового сигнала, который крайне устойчив к фоновым помехам и не требует огромных массивов данных для эффективного обучения модели.
Организация эксперимента и архитектура классификатора
В ходе пилотного тестирования был сформирован датасет на основе записей десяти добровольцев. Сценарий подразумевал фиксацию аудиопотока в полярных условиях: в контексте публичной научной презентации перед аудиторией и в режиме приватного выступления в изолированном помещении. Исходный материал подвергся стандартизации и декомпозиции на фрагменты длительностью пять секунд. Итоговая выборка составила 565 сегментов «нейтральной» речи и 569 — в состоянии стресса.
В качестве классификатора команда проекта применила алгоритм градиентного бустинга (Gradient Boosting), обученный на извлеченных MFCC-признаках. На практике это значит, что система итеративно выстраивает ансамбль решающих правил, последовательно исправляя ошибки предыдущих подмоделей. В ходе валидации предложенный аппарат показал высокую результативность: при анализе 110 нейтральных фрагментов алгоритм допустил ошибки лишь в 8 случаях, а из 111 стрессовых сегментов неверно класифицировал только 10.
Перспективы развития технологии
Опубликованные результаты работы в Springer Nature Link задают вектор для дальнейшей технической доработки системы. Ближайшие цели группы включают масштабирование тренировочной выборки и интеграцию дополнительных акустических признаков. Кроме того, планируется переход к более сложным архитектурам нейронных сетей, чтобы повысить робастность модели при использовании в «полевых» условиях, где уровень шума и вариативность контекстной речи существенно выше, чем в контролируемой лабораторной среде.