Капча (CAPTCHA) — это компьютерный тест, который используется для определения, человек или компьютер использует систему или пытается попасть на какой‑либо сайт. Пользователю предлагают задачу, которую он, в отличие от компьютера, может легко решить человек. Например, напечатать изображенные в искаженном виде символы или отметить на фотографиях определенные объекты: светофоры, велосипеды и другое. Как правило, искусственный интеллект плохо различает искаженные объекты.
Однако быстрое развитие технологий ИИ поставило под сомнение эффективность такого теста как инструмента защиты от вредоносных программ. Некоторые технологии уже умеют распознавать необходимые объекты, даже несмотря на искажения.
«Предложенный нами метод позволяет учить систему — решатель капчи на наборе данных (датасете) из небольшого числа изображении. Одна из значительных проблем при работе с моделями искусственного интеллекта — это сбор датасета, достаточного для обучения объема, — рассказала старший преподаватель СПбГУ (кафедра информатики) Анастасия Корепанова. — Основное отличие нашего подхода от аналогов в том, что он позволяет распознавать гораздо более сложные текстовые тесты, в которых содержится более 20 искажений сразу (изменение размеров и интервалов между буквами, создание „шума“, наложение элементов друг на друга и другие)».
Подход состоит из двух этапов: сначала потребовалось дополнить модель генерацией изображений, чтобы увеличить датасет — тот объем данных, который позволит системе в дальнейшем решать задачу. Второй шаг предполагает обучение модели на полученном наборе данных.
Разработка позволила даже на основании ограниченного набора данных распознать 63% искаженных изображений, предлагаемых в качестве компьютерного текста. По словам ученых, этот показать говорит о небезопасности сайтов, использующих подобный вид капчи.
«Результаты исследования могут применяться для улучшения безопасности интернет‑ресурсов. При обращении внимания специалистов по информационной безопасности на уязвимости, выявленные в ходе исследования, могут быть эффективнее доработаны методы распознавания и обхода капчи и на этой основе разработаны улучшенные алгоритмы защиты от автоматизированных атак», — отметил руководитель лаборатории теоретических и междисциплинарных проблем информатики (ЛТиМПИ) СПб ФИЦ РАН Максим Абрамов.
Результаты исследования опубликованы в «Научно‑техническом вестнике информационных технологий, механики и оптики».