ПО также сравнивает ИИ-продукты с аналогичными решениями, которые доступны в открытых репозиториях и собственной библиотеке полигона. В сравнении с классическими способами тестирования, разработка ученых ИТМО сокращает время на подготовку всестороннего испытания модели от нескольких дней и недель до пары минут.
«Полиокс» — цифровой полигон для систем ИИ со значительно более широким функционалом по сравнению с существующими. ПО позволяет оценивать эффективность системы ИИ по нескольким критериям одновременно и сравнивать с аналогичными решениями. Еще одно преимущество — простота использования. Даже неподготовленный пользователь может самостоятельно запустить программу и проанализировать отчет с результатами тестирования.
Сначала на платформе вручную или автоматически собирают сценарии испытаний модели ИИ с учетом конкретных прикладных задач, условий эксплуатации и ожидаемой точности. Затем встроенный в систему ИИ генерирует синтетические данные для проверки моделей, после чего в автоматическом режиме проводятся испытания по заданным схемам. Финальный этап — анализ данных тестирования с помощью ML-моделей и классических методов статистики, что позволяет получить объективные выводы об эффективности работы новой ИИ-технологии.
По его словам, модели для сравнения подбираются либо из открытых библиотек, либо создаются на самом полигоне с помощью автоматического машинного обучения, например, фреймворка Fedot — также разработки ИТМО. Это является критически важным критерием при оценке системы
Классическое тестирование систем ИИ редко включает больше двух-трех метрик точности. «Полиокс» предоставляет детализированный результат — текстовый отчет со схемами, графиками и другими визуальными данными с оценкой качества системы ИИ. В нем содержатся десятки показателей точности, рассчитанные в разных условиях, разъясняются принципы работы модели и указаны численные показатели характеристик, необходимые для аттестации систем ИИ и установленные ГОСТом. Эти данные могут использоваться не только для оценки эффективности новых моделей, но и оптимизации дообучения уже существующих. Цифровой полигон поможет пользователям регулярно проводить виртуальные испытания для подтверждения заявленных характеристик ИИ-системы и при необходимости обращаться к разработчикам за обновлением.Сейчас полигон ориентирован на работу с табличными данными и временными рядами. Также в «Полиокс» внедрен ряд специализированных методов для оценки ИИ-моделей компьютерного зрения — это позволяет учитывать такие сложные факторы, как тонкость настроек и неопределенность условий их практического применения. Таким образом, с помощью «Полиокса» тестирование систем ИИ проходит в максимально короткие сроки при сохранении необходимого уровня доверия к метрикам точности.
«В перспективе мы планируем дополнить цифровой полигон методиками оценки качества языковых моделей, которые выступают сейчас основным драйвером развития ИИ-систем. В настоящий момент такие системы оценивают по набору стандартных тестов, что не всегда свидетельствует об их эффективности в реальных условиях эксплуатации. Значительный интерес представляет и оценка качества больших языковых моделей для генерации программного кода — этот вопрос также решается нашей командой. Однако на сегодня главная цель нашей исследовательской группы — получить сертификат качества на сам полигон как средство объективной оценки ИИ-систем, что позволит интегрировать его в промышленность и бизнес», — добавил Сергей Иванов.