С помощью датасета можно значимо улучшить точность распознавания продуктов в реальных супермаркетах – он учитывает изображения объектов с полиэтиленовыми пакетами, пересечением объектов и «шумным» фоном на прилавках, сообщили в пресс-службе Сколхеха.
Для датасета PackEat команда собрала изображения 34 видов и 65 сортов фруктов и овощей. Это привычные для покупателей товары с овощных и фруктовых прилавков, снятые с разных точек обзора в реальных магазинах. Было собрано свыше 100 тысяч снимков более 370 тысяч отдельных объектов в магазинах разных городов. Около 9 тысяч изображений содержат разметку каждого отдельного объекта, для каждого снимка указано количество объектов и общий вес упаковки. Этот набор данных является крупнейшем в мире и поможет решать ключевые задачи компьютерного зрения в ритейле: различать виды и сорта продуктов, выделять каждый объект отдельно даже, когда они пересекаются или частично закрыты, а также автоматически подсчитывать количество единиц товара.
В розничных сетях сохраняется проблема ручной идентификации видов, сортов и дефектов весового товара (фрукты, овощи), что приводит к убыткам. Исследования показывают: нейросети могут достичь 92% точности, подтверждая важность автоматизации.
Статья с описанием датасета опубликована в открытом доступе в журнале Scientific Data. Набор изображений размещен на платформе Zenodo, а код и примеры моделей — на платформе Kaggle, что позволяет исследователям и разработчикам сразу использовать их в своих проектах и сравнивать получающиеся решения с результатами авторов.
Ключевую роль в исследовании сыграли Сергей Нестерук из Yandex Cloud и Светлана Илларионова из Центра ИИ Сколтеха.
Научная деятельность Сергея Нестерука, выпускника программы аспирантуры «Вычислительные системы и анализ данных в науке и технике» в Сколтехе, связана с изучением компьютерного зрения. Среди работ присутствуют публикации в международных журналах и сборниках IEEE. Он регулярно выступает на профильных конференциях. Сейчас Сергей руководитель команды безопасности искусственного интеллекта Yandex Cloud. Соавтор материалов по безопасной разработке ИИ-агентов и мультиагентных систем. Команда Сергея обеспечивает безопасность при использовании искусственного интеллекта, а также разрабатывает ИИ-инструменты для защиты данных и безопасности Yandex Cloud.
Светлана Илларионова, руководитель группы «Компьютерное зрение для обработки данных» Центра ИИ Сколтеха. В 2023 году защитила PhD в Сколтехе по тематике компьютерного зрения для дистанционного зондирования Земли. В Сколтехе Светлана занимается реализацией исследовательских проектов по применению алгоритмов компьютерного зрения для обработки мультимодальных данных, в частности, применительно к спутниковому мониторингу окружающей среды, а также в задачах медицинского анализа. Также Светлана является руководителем гранта РНФ с 2023 года. Автор более 25 научных статей в ведущих рецензируемых журналах, на конференциях и в книгах. Также было получено несколько патентов на изобретения. Основная область интересов Светланы – разработка методов компьютерного зрения, направленных на решение прикладных задач с учетом их специфики и анализа свойств изучаемых объектов.