Куда смотрит ИИ: как работает технология компьютерного зрения

Недавно нейробиологи провели интересный эксперимент: крысам показывали изображения, делая паузы, чтобы животные успевали их запомнить. Каждый раз, когда грызуны понимали, что картинка повторялась, и реагировали на это, в поилке появлялась вода. Исследование позволило специалистам узнать, как работает кратковременная память и какие нейронные процессы происходят при повторяющихся сенсорных стимулах.

Эта работа вдохновила российских ученых на создание новой модели нейросети. Ее особенность как раз в том, что она имитирует работу кратковременной памяти — запоминает нужные объекты и выдает более точные результаты обработки изображения. Такие модели используют для компьютерного зрения, одной из областей искусственного интеллекта.

Как работает технология и какие еще исследования проводят в этой сфере, разбираемся в нашем материале.

Нейросеть с кратковременной памятью

Компьютерное зрение — это набор различных методов, связанных с обработкой изображений и видео. Именно эта технология позволяют компьютеру «видеть» и изучать информацию. Круг задач у нее весьма широк: от медицины, робототехники, промышленности, сельского хозяйства до безопасности, креативной индустрии и медиа. Ученые постоянно работают над тем, чтобы сделать такое зрение более совершенным.

Интересный подход предложили в Нижегородском государственном университете имени Н. И. Лобачевского (ННГУ). Специалисты совместили нейросеть с математическими моделями информационных процессов в мозге и смогли сделать компьютерное зрение на 15% точнее.

«Мы совместили классические методы машинного обучения и алгоритмы построения систем ИИ для распознавания изображений с математической моделью кратковременной памяти», — объяснил научный сотрудник Университета Лобачевского, кандидат физико-математических наук Сергей Стасенко.

Новая модель, по словам авторов проекта, расширяет базовые возможности сверточной нейронной сети. Эта сеть относится к классу глубоких нейросетей, созданных специально для анализа данных, имеющих структуру сетки — собственно, изображений и видео. В свое время на создание такого алгоритма ученых вдохновили биологические процессы, происходящие в зрительной коре головного мозга живых существ.

Поладить с роботом-пылесосом

Допустим, теперь компьютерное зрение, как и человек, запоминает картинки. В чем же тогда технология превосходит наши возможности? Дело в том, что человек способен внимательно изучать лишь один видеоматериал. А вот компьютерное зрение, при достаточном объеме вычислительных мощностей, может обрабатывать большее количество видеопотоков, при этом с любой скоростью. Но и это еще не все.

Разработками в этой области сегодня занимаются в лаборатории цифровых систем специального назначения Московского физико-технического института (МФТИ).


Одну из таких нейросетей, созданную для мониторинга людей в кадре, научили контролировать посещаемость студентов, причем буквально «знать» всех по именам. Система не просто способна определять человека по лицу на далеком расстоянии, но и по одежде, проследить его движения от камеры к камере, запомнить и соотнести с первой записью.

«В качестве интересного применения этой системы (помимо очевидной для обеспечения безопасности) мы придумали ее использовать для учета посещаемости. Одна камера высокого разрешения и каскад правильно обученных нейросетей позволили пересчитать поименно до сотни студентов в аудитории, а также сказать, кто из них и сколько времени присутствовал на занятии. Если бы этот учет вел преподаватель, на лекцию времени не осталось бы», — рассказал ведущий научный сотрудник лаборатории Андрей Леус.

Другая, достаточно распространенная задача — поиск и подсчет транспорта. Конечно, автоматическое чтение номеров с камер уже прочно вошло в ряд повседневных технологий. Но что, если нужно, например, оценить количество вредных выбросов в атмосферу?

Для этого нейросети обучают классифицировать объекты, оценивать тоннаж транспорта, отслеживать динамику движения. А также учитывать, что в потоке машин может оказаться электромобиль, который на первый взгляд не отличается от обычного автомобиля.

Компьютерное зрение можно встроить и в уже существующую, привычную нам технику. Например, роботы-пылесосы, которые неуклюже ездят по квартирам, натыкаясь на предметы. Или беспилотные автомобили, в которых пока еще ездят водители-испытатели. Роботы-доставщики, застревающие в сугробах. В институте занимаются разработками, которые позволят добиться большей эффективности от подобных устройств.

Нейросеть выпишет направление

Что касается медицины, то здесь компьютерное зрение активно внедряют в диагностику и хирургию. Об этом рассказал заведующий Лабораторией цифрового микроскопического анализа Сеченовского Университета, кандидат медицинских наук Алексей Файзуллин.


Например, разрабатывают нейросеть, способную определять степень злокачественности опухолей почек и прогнозировать течение болезни.

Дело в том, что обычно после удаления опухоли врачу-патологоанатому нужно тщательно ее изучить, чтобы оценить риск рецидива и выбрать стратегию лечения. Для этого используют систему классификации, основанную на оценке внешнего вида и структуры ядер и ядрышек в клетках опухоли. Однако этот анализ выполняется вручную и занимает много времени, а на результат зачастую влияет человеческий фактор.

Новая нейросеть будет искать ядра, значимые для прогноза раковых клеток. Чтобы повысить точность, ее обучают с помощью баз данных с изображениями опухоли. Таким образом можно автоматизировать процесс: технология возьмет на себя часть рутинных задач, позволив специалистам сосредоточиться на работе с другими параметрами опухоли.

Разработкой занимаются исследователи Лаборатории цифрового микроскопического анализа совместно со специалистами ПАО «Вымпелком». Технические испытания стартуют уже в следующем году.

Сколько вешать в граммах

Технологиями компьютерного зрения для сельского хозяйства занимаются в Южно-Уральском государственном университете (ЮУрГУ). Одна из последних разработок — нейросеть для оценки веса и прогноза прироста мяса у животных.

По словам авторов проекта, взвешивание зачастую вызывает у животных стресс и даже может привести к потере веса. С помощью камер и глубоких нейронных сетей можно будет проводить процедуру бесконтактно. Но обучить нейросеть для этой задачи непросто. Точность методики напрямую зависит от обширности базы данных. Нужно постоянно проводить эксперименты по бесконтактному взвешиванию разных животных — коров, свиней, овец. Исследования проводятся совместно с Федеральным научным центром биологических систем и агротехнологий РАН.

«Наша инновационная разработка заменяет физический труд на автоматический и исключает стресс животного. Согласитесь, для фермеров сама идея навести камеру на теленка и узнать, каким будет его мясо спустя полгода, выглядит довольно привлекательной», — поделился старший научный сотрудник ЮУрГУ Алексей Ручай.

В настоящий момент технологию тестируют. Специалисты проверяют камеры и способы их установки, отрабатывают алгоритм нейросети на разных видах животных, включая крупный и мелкий рогатый скот.

Когда диспетчеру нужен отдых

Однако не стоит переживать, что искусственный интеллект заменит человека. В тех областях, где специалист незаменим, нейросеть используют в качестве полезного инструмента, в том числе, чтобы сделать работу человека безопаснее.

Например, в Санкт-Петербургском Федеральном исследовательском центре РАН создали программное обеспечение, позволяющее отследить утомляемость операторов в аэропортах и на вокзалах. Система распознает и анализирует через камеру физиологические параметры: частота вдохов и выдохов, сердцебиение, насыщенность крови кислородом и кровяное давление.


«Сначала в кадре определяется лицо и торс человека. Затем ключевая точка, соответствующая центру груди. На каждом следующем кадре отслеживаются перемещения этой точки, получается график перемещений. Число пиков на графике соответствует количеству вдохов в минуту. Частота сердцебиения и кровяное давление определяются по области, находящейся в центре лба», — рассказал старший научный сотрудник СПб ФИЦ РАН Алексей Кашевник.

Изучив эти изменения, программа оценивает состояние оператора и сообщает, насколько сильно он нуждается в отдыхе. В будущем система поможет избежать ошибок и повысит безопасность в инфраструктуре. Ученые уже создали прототип и сейчас продолжают развивать технологию.


Анна Шиховец