Нейросеть научили распознавать подозрительные транзакции

Ученые Южно-Уральского государственного университета научили искусственный интеллект распознавать подозрительные банковские транзакции с помощью градиентного бустинга. Алгоритм можно использовать как в повседневной работе службы безопасности банков, так и при контроле за «цифровой валютой».

Результат испытаний на общедоступной базе транзакций Elliptic показал высокий уровень безошибочности – 99.21% верных попаданий. Это впервые удовлетворяет требованиям банковской сферы к таким алгоритмам. Конкурирующие группы добивались безошибочности 97.8%, что считалось недостаточным.

Транзакция – действие банка с деньгами, перевод их с одного счета на другой и так далее. Для компьютера транзакция – это строка данных, в которой отображается история движения денежных средств. Задача ИИ – научиться выявлять подозрительные транзакции. Компьютеру достаточно создать математический критерий. Для обучения используются уже наработанные базы транзакций, где подозрительные строки помечены заранее. В реальной деятельности банка подозрительные транзакции составляют очень небольшую долю. 

Старший научный сотрудник ЮУрГУ, кандидат физико-математических наук Алексей Ручай с коллегами использовал для обучения и тестирования своей системы базу Elliptic, в которой подобраны транзакции биткоина. Эта база не сбалансирована: в ней примерно двести тысяч транзакций, из которых десятая часть – подозрительна. Чтобы подготовить ее, ученым пришлось предварительно провести ресемплинг. Им удалось перекрыть все предыдущие результаты с помощью градиентного бустинга. Он помогает повысить точность предсказаний. Например, слабая модель, обученная преимущественно на белых кошках, может ошибочно распознать чёрную. Бустинг создает новые модели, в которых ошибкам, сделанным в прошлый раз, придаётся большее внимание.

Пройдя итерацию и перебрав всю базу данных, система концентрируется уже на тех примерах, на которых в прошлый раз дала ложный результат. Слово «градиентный» пришло из анализа, такой бустинг подобен «градиентному спуску», оптимизирующему функцию, находящему ее максимальные и минимальные значения.

Главный критерий работы искусственного интеллекта – безошибочность ответов. 100%-ной безошибочности не может быть в принципе. Результат, полученный алгоритмом ученых ЮУрГУ XGBClassifier, – 0.9921 верных ответов по базе Elliptic, тогда как предыдущий опубликованный результат составлял лишь 0.9780. Разница между двумя этими числами принципиальна: прежнее не удовлетворяло требованиям к надежности выявления аномальных транзакций, теперь условия выполнены.

Результаты работы опубликованы в журнале «Communications in Computer and Information Science», а также в серии «Безопасность в цифровой среде» Вестника УрФО и Челябинском физико-математическом журнале.