Искусственный интеллект 13.03.2026 15:52

MIT ученые раскрыли механизм фокуса мозга на одном голосе в шуме

Исследователи из Массачусетского технологического института (MIT) выявили нейробиологический механизм, позволяющий мозгу выделять один голос из множества, что проливает свет на давнюю нейробиологическую задачу, известную как «проблема коктейльной вечеринки».

Проблема коктейльной вечеринки

Эта способность к избирательному вниманию становится критически важной в любой многолюдной обстановке, например, на коктейльной вечеринке, где одновременно ведётся множество разговоров. Несмотря на обилие фоновых звуков, мозг человека каким-то образом умудряется отслеживать речь конкретного собеседника.

Применяя вычислительную модель слуховой системы, команда MIT установила, что усиление активности нейронных обрабатывающих единиц, которые реагируют на специфические характеристики целевого голоса, такие как его высота, позволяет выдвинуть этот голос на передний план слухового внимания.

Джош Макдермотт, профессор когнитивных наук и наук о мозге в MIT, сотрудник Института исследования мозга Макговерна и Центра изучения мозга, разума и машин MIT, а также старший автор исследования, отмечает: «Этот простой механизм достаточен для возникновения большинства фенотипических проявлений человеческого слухового внимания, и модель в итоге воспроизводит очень широкий спектр поведенческих реакций человека на звук в условиях избирательного внимания».

Полученные данные согласуются с предыдущими исследованиями, которые демонстрировали, что при фокусировке внимания человека или животного на определённом звуковом стимуле нейроны слуховой коры, настроенные на характеристики целевого стимула, усиливают свою активность. Это первое исследование, которое показало, что такого усиления достаточно для объяснения того, как мозг решает «проблему коктейльной вечеринки».

Иэн Гриффит, аспирант Гарвардской программы по биомедицинским наукам и технологиям речи и слуха, работающий под руководством Макдермотта, является ведущим автором статьи. В соавторстве с ним также выступил аспирант MIT Р. Престон Хесс. Работа опубликована в журнале Nature Human Behavior.

Моделирование внимания

Десятилетиями нейробиологи исследуют феномен избирательного внимания. Множество исследований на людях и животных показали, что при концентрации на определённом стимуле, например, на голосе, нейроны, которые реагируют на характеристики этого голоса (например, высокую высоту тона), усиливают свою активность.

При этом усилении частота импульсации нейронов увеличивается, как если бы она умножалась на коэффициент, превышающий единицу. Было предложено, что такое «мультипликативное усиление» позволяет мозгу фокусировать внимание на определённых стимулах. Нейроны, не настроенные на целевую характеристику, демонстрируют соответствующее снижение активности.

Гриффит поясняет: «Реакции нейронов, настроенных на признаки, находящиеся в фокусе внимания, масштабируются вверх. Эти эффекты известны давно, но оставалось неясным, достаточно ли этого эффекта, чтобы объяснить, что происходит, когда вы пытаетесь сосредоточиться на голосе или избирательно на одном объекте».

Этот вопрос оставался без ответа, поскольку вычислительные модели восприятия не могли выполнять задачи, связанные с вниманием, такие как выбор одного голоса из нескольких. Такие модели легко справляются со слуховыми задачами, когда есть однозначный целевой звук для идентификации, но они не могли выполнять эти задачи, когда другие стимулы конкурировали за их внимание.

«Ни одна из наших моделей не обладала той способностью, которая есть у людей, – получать информацию о конкретном объекте или звуке, а затем основывать свою реакцию на этом объекте или звуке. Это было серьёзным ограничением», – говорит Макдермотт.

В данном исследовании команда MIT стремилась выяснить, можно ли обучить модели выполнять подобные задачи, позволив им генерировать усиление нейронной активности, аналогичное тому, что наблюдается в человеческом мозге.

Для этого они взяли за основу нейронную сеть, которую они и другие исследователи использовали для моделирования слуха, а затем модифицировали её, чтобы каждый её этап мог реализовывать мультипликативное усиление. В такой архитектуре активация обрабатывающих единиц внутри модели может быть усилена или ослаблена в зависимости от конкретных признаков, которые они представляют, например, высоты тона.

Для обучения модели исследователи на каждом этапе сначала подавали ей «подсказку»: аудиоклип голоса, на который модель должна была обратить внимание. Активации единиц, вызванные подсказкой, затем определяли мультипликативное усиление, которое применялось, когда модель слышала последующий стимул.

«Представьте, что подсказка — это отрывок голоса с низким тоном. Затем единицы в модели, которые представляют низкий тон, будут умножаться на большое усиление, тогда как единицы, которые представляют высокий тон, будут ослабляться», — объясняет Гриффит.

Затем модели предлагались аудиоклипы со смешением голосов, включая целевой голос, и ей нужно было определить второе слово, произнесённое целевым голосом. Активации модели в ответ на эту смесь умножались на коэффициенты усиления, полученные от предыдущего стимулирующего сигнала. Ожидалось, что это приведёт к «усилению» целевого голоса внутри модели, но было неясно, будет ли этого эффекта достаточно для достижения внимательного поведения, подобного человеческому.

Исследователи выяснили, что в различных условиях модель работала очень похоже на людей и имела тенденцию совершать ошибки, аналогичные человеческим. Например, как и люди, она иногда ошибалась, пытаясь сосредоточиться на одном из двух мужских или женских голосов, которые с большей вероятностью имеют схожую высоту тона.

«Мы проводили эксперименты по измерению того, насколько хорошо люди могут различать голоса в довольно широком диапазоне условий, и модель довольно точно воспроизводит эту модель поведения», — говорит Гриффит.

Влияние местоположения

Предыдущие исследования показали, что помимо высоты тона, пространственное расположение является ключевым фактором, помогающим людям сосредоточиться на определённом голосе или звуке. Команда MIT обнаружила, что модель также научилась использовать пространственное расположение для избирательного внимания, работая лучше, когда целевой голос находился в другом месте, чем отвлекающие голоса.

Затем исследователи применили модель для выявления новых свойств пространственного внимания человека. Используя свою вычислительную модель, они смогли протестировать все возможные комбинации местоположений цели и источников отвлекающих факторов, что было бы чрезвычайно трудоёмким при работе с людьми.

«Модель можно использовать как инструмент для скрининга большого количества условий с целью поиска интересных закономерностей, а затем, когда вы находите что-то интересное, можно провести эксперимент на людях», — объясняет Макдермотт.

Эти эксперименты показали, что модель значительно лучше справлялась с правильным выбором целевого голоса, когда цель и отвлекающий фактор находились в разных точках горизонтальной плоскости. Когда же звуки были разделены в вертикальной плоскости, эта задача становилась гораздо сложнее. Когда исследователи провели аналогичный эксперимент с участием людей, они наблюдали тот же результат.

«Это был лишь один из примеров, когда мы смогли использовать модель в качестве двигателя для открытий, что, на мой взгляд, является захватывающим применением для такого рода моделей», — заключает Макдермотт.

Ещё одно направление, которое исследуют учёные, — это применение данной модели для симуляции слуха при использовании кохлеарного имплантата. Они надеются, что эти исследования могут привести к усовершенствованиям кохлеарных имплантатов, которые помогут людям с такими имплантатами успешнее концентрировать внимание в шумной обстановке.

Исследование было профинансировано Национальными институтами здравоохранения.

#MIT #нейронаука #мозг #внимание #слух #коктейльная вечеринка #нейронная модель

Авторы и эксперты

Автор

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервис...

Экспертная проверка

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрен...