ИИ начали применять для поиска неучтенных персональных данных в корпоративных архивах

Документы и удостоверения личности в серверной стойке
Документы и удостоверения личности в серверной стойке • Все права на публикацию принадлежат AInDev.ru

В сегменте enterprise-решений растет спрос на автоматизацию аудита корпоративных хранилищ данных. ИТ-компания ARTW недавно завершила кейс для телеком-оператора, где требовалось выявить неучтенные персональные данные в архиве объемом 80 ГБ. Исходный массив насчитывал около 30 тыс. документов, включая PDF, офисные форматы и растровые изображения (сканы, фото удостоверяющих документов). При классическом подходе ручной аудит подобного объема потребовал бы от 250 до 500 человеко-часов в зависимости от качества исходников.

Технический стек и архитектура решения

Для выполнения задачи инженеры ARTW развернули локальный контур обработки. Такой подход гарантирует безопасность данных, так как анализ информации происходит в полностью контролируемой среде без передачи внешним сервисам. Программный комплекс базируется на комбинации классических методов компьютерного зрения и современных LLM-фреймворков.

Если говорить о технологиях, в конвейер обработки включили OCR (оптическое распознавание символов), инструменты анализа визуальных паттернов, а также высокопроизводительные языковые модели, запущенные через vLLM. В проект также встроили систему поиска характерных признаков документа — по сути, она ищет «отпечатки» паспортных данных или других документов, удостоверяющих личность.

Многоступенчатая автоматизация процесса

Проблема использования только OCR в масштабах терабайтных архивов заключается в качестве входных данных. На практике это значит, что при обработке документов, снятых под углом, имеющих низкий контраст или размытые фрагменты, традиционный OCR выдает высокий процент ошибок или просто «не видит» текст. Поэтому архитектуру решения выстроили как многоступенчатый пайплайн.

Первый этап — фильтрация, отсекающая заведомо нерелевантные файлы. Затем наступает стадия препроцессинга: коррекция масштаба, баланса контрастности и очистка шумов на изображениях. На следующем шаге к анализу подключаются более тяжелые алгоритмы: распознавание текста, структурный анализ документа и поиск типовых шаблонов с помощью языковых моделей. Финальная проверка человеком потребовалась лишь в минимальном количестве спорных ситуаций, где алгоритм не смог однозначно классифицировать файл.

Рациональное распределение вычислительных мощностей позволило уйти от тотального сканирования всех байтов архива. Система фокусируется на файлах с высокой вероятностью наличия в них персональных данных. По итогу работы заказчик получил структурированный перечень документов для последующего изучения специалистами по безопасности или комплаенс-отделом.

Тенденция показывает, что подобные инструменты становятся стандартом для компаний, накопивших значительные объемы данных в CRM-системах, хранилищах исторических документов или после миграций между облачными платформами. В условиях роста неструктурированного контента автоматизированный аудит остается единственным эффективным способом предотвращения утечек данных.