← Все новости

Ученые ННГУ создали ИИ-модель для выявления стресса по голосу

Ученые ННГУ создали ИИ-модель для выявления стресса по голосу

Все права принадлежат AInDev.ru

• Категория: Искусственный интеллект • Автор: Екатерина Морозова • Проверил: Алексей Воронов • 17.03.2026 10:45

Исследователи из ННГУ представили алгоритм машинного обучения, способный классифицировать психоэмоциональное состояние человека, опираясь исключительно на фоновые характеристики речевого сигнала. В рамках работы, получившей поддержку РНФ, удалось достичь точности распознавания тревожного состояния на уровне 91,9%, анализируя акустические маркеры, связанные с вегетативными реакциями организма.

Методология анализа акустических признаков

Фундамент исследования строится на прямой корреляции между активностью вегетативной нервной системы и параметрами голосообразования. Стрессовая реакция трансформирует мышечный тонус и динамику дыхания, что неизбежно отражается на тембре, высоте тона, ритмике и амплитудных характеристиках речи. Для фиксации этих микроизменений была выбрана методика извлечения мел-частотных кепстральных коэффициентов (MFCC). Если коротко, MFCC — это способ компактного представления спектральной огибающей звукового сигнала, который крайне устойчив к фоновым помехам и не требует огромных массивов данных для эффективного обучения модели.

Организация эксперимента и архитектура классификатора

В ходе пилотного тестирования был сформирован датасет на основе записей десяти добровольцев. Сценарий подразумевал фиксацию аудиопотока в полярных условиях: в контексте публичной научной презентации перед аудиторией и в режиме приватного выступления в изолированном помещении. Исходный материал подвергся стандартизации и декомпозиции на фрагменты длительностью пять секунд. Итоговая выборка составила 565 сегментов «нейтральной» речи и 569 — в состоянии стресса.

В качестве классификатора команда проекта применила алгоритм градиентного бустинга (Gradient Boosting), обученный на извлеченных MFCC-признаках. На практике это значит, что система итеративно выстраивает ансамбль решающих правил, последовательно исправляя ошибки предыдущих подмоделей. В ходе валидации предложенный аппарат показал высокую результативность: при анализе 110 нейтральных фрагментов алгоритм допустил ошибки лишь в 8 случаях, а из 111 стрессовых сегментов неверно класифицировал только 10.

Перспективы развития технологии

Опубликованные результаты работы в Springer Nature Link задают вектор для дальнейшей технической доработки системы. Ближайшие цели группы включают масштабирование тренировочной выборки и интеграцию дополнительных акустических признаков. Кроме того, планируется переход к более сложным архитектурам нейронных сетей, чтобы повысить робастность модели при использовании в «полевых» условиях, где уровень шума и вариативность контекстной речи существенно выше, чем в контролируемой лабораторной среде.

Теги: #ИИ, #машинное обучение, #стресс, #голосовой анализ, #ННГУ, #MFCC, #градиентный бустинг