Систему распознавания эмоций человека по видео и речи придумали в Санкт-Петербурге

Ученые Санкт-Петербургского Федерального исследовательского центра РАН (СПб ФИЦ РАН) создали интеллектуальную программную систему MASAI. Разработка включает в себя комплекс нейросетей, способных распознавать естественные эмоции человека по аудиовизуальной информации (видео, звук и текст). В перспективе новая система позволит создавать более эффективные цифровые помощники, работающие на принципах эмоционального искусственного интеллекта, сообщили в пресс-службе Минобрнауки России.

По мнению исследователей, для дальнейшего внедрения искусственного интеллекта (ИИ) и связанных с ним сервисов, важно научить его распознавать весь спектр разнородной информации от пользователя: речь, мимику, жесты, взгляд, поведение, а также текстовую информацию. Подобные системы смогут работать даже в сложных условиях: шума, плохого освещения или когда человек просто молчит или не смотрит в камеру. Более того, ИИ-сервисы смогут распознавать такие сложные эмоциональные проявления, как сарказм или ирония — когда смысл сказанного не совпадает с интонацией или выражением лица. В итоге это позволит повысить качество работы цифровых помощников.

«Мы разработали интеллектуальную систему MASAI многомодального анализа видео, звука и текста для распознавания эмоций человека, например, радости, злости, грусти и прочих эмоциональных проявлений. Кроме того, программа может проводить сентимент-анализ информации — определять отношение человека к какому-либо событию — отрицательное, положительное или нейтральное», — рассказал один из авторов разработки, руководитель лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Алексей Карпов.

Разработка представляет собой программное приложение, через интерфейс которого можно загрузить и обработать любые аудиовизуальные данные. В основе системы — несколько нейронных сетей, которые проходили обучение на более чем десятке находящихся в свободном доступе баз данных, содержащих мультиязычную аудиовизуальную информацию о людях разного возраста и пола из различных стран мира. В частности, в создании базы данных на русском языке принимали участие молодые актеры театральных вузов, которые имитировали различные эмоции.

Ученые использовали наиболее распространенную в психологии классификацию эмоциональных состояний человека. Программа может распознавать семь базовых человеческих эмоций (радость, грусть, страх, отвращение, удивление, злость и спокойствие), а также положительный, отрицательный и нейтральный сентименты.

«Система MASAI может быть встроена в различные виды цифровых помощников, которые сейчас используются во многих сферах жизни человека. Например, в телефонных службах скорой помощи или психологической поддержке, где эмоциональный искусственный интеллект позволит эффективнее реагировать на потребности человека», — объяснил Алексей Карпов.

По точности распознавания эмоций приложение ученых СПб ФИЦ РАН превосходит все существующие аналоги, этот показатель у нее составляет 75-80 %.

Разработка поддержана грантом Российского научного фонда.