Ученые Санкт-Петербургского федерального исследовательского центра (СПб ФИЦ) РАН создали технологию, которая с помощью анализа видео распознает жестовый язык и преобразовывает его в текст. Приложение повысит эффективность оказания врачебной помощи для пациентов с нарушениями слуха, сообщается на сайте академии.
Программное обеспечение работает следующим образом: видеокамера фиксирует движения, которые затем автоматически преобразуются в текст в режиме реального времени. При этом система учитывает, что одни и те же элементы могут различаться в зависимости от возраста и пола человека. Точность программы составляет более 90%.
Для обучения нейросети ученые разработали уникальную базу данных жестов, которые используются при описании сфер, связанных с медициной и здоровьем. Она состоит из 85 высказываний, записанных 12 дикторами в пяти вариантах и снятых с разных ракурсов, что повышает информативность. Общая продолжительность всех видеозаписей составила около семи часов.
«Мы надеемся, что в перспективе наше приложение позволит упростить оказание медицинских услуг и для врачей, и для людей с ограниченными возможностями. Сейчас мы работаем над созданием удобного интерфейса для программы», – сообщил старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН, кандидат технических наук Дмитрий Рюмин.
Проект поддержан грантом Российского научного фонда (РНФ). В исследовании принимали участие представители Межрегионального центра реабилитации лиц с проблемами слуха города Павловска.