Сегодня голосовые команды широко используются как в работе, так и в повседневной жизни людей. Однако при ощутимых шумах эффективность цифровых алгоритмов падает, и слова либо не распознаются, либо их смысл искажается. Для решения этой проблемы исследователи из Санкт-Петербурга создали нейросеть, которая собирает два вида информации, звуковую (речь) и визуальную (движения губ). При это она может автоматически принимать решение о том, какие из полученных данных при распознавании дадут максимальную точность.
Разработка уже была протестирована с помощью водителей шумных большегрузных автомобилей одной из логистических компаний. Для этого программа была установлена на их смартфоны. Результаты подтвердили предположение о том, что совмещение двух видов информации повышает эффективность работы алгоритмов искусственного интеллекта.
«Мы предполагаем, что в будущем наше приложение может найти применение у пилотов самолетов и тяжелой промышленной техники или для использования в интерактивных информационных киосках в торговых центрах и других местах массового скопления людей», — сказал старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Денис Иванько.