Российская компания Smart Engines представила первый в стране масштабный набор данных с поддельными документами MIDV-DM. В него вошли 8 тысяч изображений удостоверений личности России, стран СНГ и других государств, сфальсифицированных наиболее распространенными у мошенников методами. Этот датасет позволит разработчикам по всему миру обучать и совершенствовать свои системы искусственного интеллекта для борьбы с мошенничеством. Об этом IT Speaker рассказали в пресс-службе Smart Engines.

MIDV-DM стал первым публичным набором данных, который систематизирует все ключевые способы подделки документов. Он создан на основе тысячи исходных изображений из ранее опубликованного датасета MIDV-2020, включающего российские внутренние паспорта, а также национальные паспорта и ID-карты Азербайджана, Латвии, Эстонии, Финляндии и других стран. Специалисты применили такие манипуляции, как вставка текста или фотографии из другого документа, закрашивание отдельных полей, склейка фрагментов из разных источников, а также добавление посторонних элементов – эмблем или голограмм.

Создание датасета особенно актуально на фоне роста мошенничества с документами. По данным совместного исследования Smart Engines и юридической фирмы INTELLECT, количество уголовных дел о фальсификации и обороте подделок в России за 2024 год выросло на 34%, достигнув 3,9 тысяч. Новый набор данных призван помочь разработчикам повысить точность антифрод-решений.

«При создании MIDV-DM мы сознательно вышли за рамки сценариев с текстовыми манипуляциями, детекция которых уже не является проблемой для современных систем. В датасет вошли подделки с изменением подписи, фотографии держателя и отдельных полей документа – то есть полный спектр типичных атак, с которыми на практике сталкиваются банки, МФО и госструктуры. Это позволит ИИ-системам учиться с повышенной точностью видеть не только замененные ФИО, но и сложные структурные несоответствия в документе», – отмечает генеральный директор Smart Engines, доктор технических наук Владимир Арлазаров.

Ранее в России была зафиксирована новая схема мошенничества, при которой злоумышленники массово рассылают смс-сообщения, маскируя их под уведомления от антифрод-системы. Новый датасет MIDV-DM станет важным инструментом в борьбе против таких схем злоупотреблений.

В дальнейшем с помощью MIDV-DM Smart Engines планирует развивать собственную антифрод-систему «Шерлок 2о» – мультимодальную ИИ-модель, способную одновременно работать с изображениями документов из оптического, ультрафиолетового и инфракрасного спектров, текстовыми полями, данными NFC-чипа, штрих-кодами, метаданными и сигнатурами. В общей сложности система проверяет документ на подлинность по 600 параметрам.

От Дмитрий Соколов

Гик-писака🤓