Искусственный интеллект 17.03.2026 10:45

Ученые ННГУ создали ИИ-модель для выявления стресса по голосу

Исследователи из ННГУ представили алгоритм машинного обучения, способный классифицировать психоэмоциональное состояние человека, опираясь исключительно на фоновые характеристики речевого сигнала. В рамках работы, получившей поддержку РНФ, удалось достичь точности распознавания тревожного состояния на уровне 91,9%, анализируя акустические маркеры, связанные с вегетативными реакциями организма.

Методология анализа акустических признаков

Фундамент исследования строится на прямой корреляции между активностью вегетативной нервной системы и параметрами голосообразования. Стрессовая реакция трансформирует мышечный тонус и динамику дыхания, что неизбежно отражается на тембре, высоте тона, ритмике и амплитудных характеристиках речи. Для фиксации этих микроизменений была выбрана методика извлечения мел-частотных кепстральных коэффициентов (MFCC). Если коротко, MFCC — это способ компактного представления спектральной огибающей звукового сигнала, который крайне устойчив к фоновым помехам и не требует огромных массивов данных для эффективного обучения модели.

Организация эксперимента и архитектура классификатора

В ходе пилотного тестирования был сформирован датасет на основе записей десяти добровольцев. Сценарий подразумевал фиксацию аудиопотока в полярных условиях: в контексте публичной научной презентации перед аудиторией и в режиме приватного выступления в изолированном помещении. Исходный материал подвергся стандартизации и декомпозиции на фрагменты длительностью пять секунд. Итоговая выборка составила 565 сегментов «нейтральной» речи и 569 — в состоянии стресса.

В качестве классификатора команда проекта применила алгоритм градиентного бустинга (Gradient Boosting), обученный на извлеченных MFCC-признаках. На практике это значит, что система итеративно выстраивает ансамбль решающих правил, последовательно исправляя ошибки предыдущих подмоделей. В ходе валидации предложенный аппарат показал высокую результативность: при анализе 110 нейтральных фрагментов алгоритм допустил ошибки лишь в 8 случаях, а из 111 стрессовых сегментов неверно класифицировал только 10.

Перспективы развития технологии

Опубликованные результаты работы в Springer Nature Link задают вектор для дальнейшей технической доработки системы. Ближайшие цели группы включают масштабирование тренировочной выборки и интеграцию дополнительных акустических признаков. Кроме того, планируется переход к более сложным архитектурам нейронных сетей, чтобы повысить робастность модели при использовании в «полевых» условиях, где уровень шума и вариативность контекстной речи существенно выше, чем в контролируемой лабораторной среде.

#ИИ #машинное обучение #стресс #голосовой анализ #ННГУ #MFCC #градиентный бустинг

Авторы и эксперты

Автор

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрен...

Экспертная проверка

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервис...