Искусственный интеллект научат точнее распознавать наши эмоции по голосу

Исследователи НИУ ВШЭ — Нижний Новгород представили новый алгоритм, который позволяет точно измерять частоту основного тона речи — важного параметра для распознавания эмоций и диагностики заболеваний. Предложенный подход работает даже в условиях шума и без задержки во времени, при этом задействует меньше вычислительных ресурсов, чем известные аналоги. Результаты исследования опубликованы в журнале Journal of Communications Technology and Electronics.

Исследование выполнено в рамках проекта Российского научного фонда (РНФ) «Эффективные методы аудиовизуального анализа динамики эмоционального состояния на основе теоретико-информационного подхода».

Сейчас голосовые команды понимают не только смартфоны, но даже «умные» чайники и утюги. Однако несмотря на значительные успехи в области машинного обучения и технологий обработки речи, точное распознавание эмоций остаётся существенным вызовом. Чтобы различные устройства, оснащенные искусственным интеллектом, могли распознавать эмоции, им нужно лучше распознавать голос человека. Одним из важных параметров для этого является частота основного тона, которая отражает колебания голосовых связок при произнесении гласных.

Целью исследования учёных из НИУ ВШЭ — Нижний Новгород стала разработка эффективного метода измерения частоты основного тона в речевых сигналах. Авторы статьи оценили динамику частоты основного тона, которая изменяется в широком диапазоне (например, у женщин — от 200 до 400 Гц, у мужчин — от 80 до 200 Гц). Для анализа аудиозаписей и учёта изменений они применяли специальные математические методы, включая быстрое преобразование Фурье.

В условиях фонового шума или использования некачественного микрофона простое применение быстрого преобразования Фурье может оказаться неэффективным и неточным. Для решения этой проблемы авторы статьи воспользовались дополнительной обработкой аудиоспектра. Они создали самообучающийся алгоритм, основанный на однослойной нейронной сети, применяющей принцип обеляющего фильтра. Этот метод фокусируется на частях аудиозаписи, связанных с частотой основного тона и, следовательно, с выражением эмоций.

Обеляющий фильтр инвертирует процесс речеобразования: из поступающего на вход речевого сигнала извлекаются параметры (коэффициенты линейного предсказания), и на выходе получаем белый шум. Мы предлагаем оценивать параметры обеляющего фильтра так, чтобы получаемый с его помощью спектр сигнала (спектральная плотность мощности) был максимально близок к преобразованию Фурье.

Андрей Савченко
Руководитель проекта, профессор НИУ ВШЭ в Нижнем Новгороде

Учёные отмечают, что новый инструмент для работы с акустическими данными может применяться во множестве областей, включая психологию и медицину. Например, определение основной частоты тона может помочь выявлять патологии голоса при диагностике нейродегенеративных заболеваний.
IQ

November 02, 2023