ИИ определит эмоции человека по структуре речи, мимике и голосу

В России разработали инновационную систему искусственного интеллекта, которая может более точно извлекать информацию об эмоциях ее пользователя. Она способна одновременно анализировать мимику, голос и речь. Разработка на 10% превосходит лучшие алгоритмы такого рода, опирающиеся в своей работе лишь на один источник данных об эмоциях, сообщила пресс-служба Сбербанка.

Система, созданная учеными Центра практического Искусственного Интеллекта Сбербанка и Высшей школы экономики, призвана улучшить сервисы для бизнеса и повседневной жизни.

Новая технология сочетает временные сверточные сети (TCN) и трансформерные мультимодальные архитектуры. Это позволяет точнее учитывать изменения эмоционального состояния во времени. Система демонстрирует рост точности более чем на 10% по сравнению с лучшими моделями, которые анализируют только выражения лиц. Ее можно использовать в бизнесе, безопасности и социальной сфере.

«Наша система делает взаимодействие человека и искусственного интеллекта более естественным и осмысленным. Мы научились не просто распознавать базовые эмоции, но и учитывать их динамику в реальных условиях — при разном освещении, фоновом шуме и других помехах. Это особенно важно для тех отраслей бизнеса, где понимание эмоций клиентов помогает повышать качество сервиса. Наша технология уже показывает отличные результаты в тестах, а в перспективе ее можно адаптировать для виртуальных ассистентов, систем безопасности и даже телемедицины. Главное преимущество — гибкость. Аудиовизуальная модель работает даже при недостаточных данных, например, когда не видно лицо или плохо слышно голос», — рассказал Андрей Савченко, научный директор Центра Практического Искусственного Интеллекта Сбербанка.

Разработка актуальна для кол-центров, чтобы анализировать настроения клиентов, в маркетинговых исследованиях для оценки реакции на продукты, системах безопасности для выявления агрессии или паники, образовательных и медицинских сервисах.

Исследование опубликовано в материалах международной конференции AIST'24 и представлено в статье.