Распознавание паспорта в Dbrain

Распознаваниепаспорта РФ:
как мы это делаем

Алгоритм Dbrain — быстрый и точный инструмент для обработки любых страниц паспорта, в том числе рукописных.

Система находит паспорт среди других документов, очищает изображение от искажений, выравнивает документ и извлекает из него данные за 5 секунд. Решение работает не только со сканами, но и с фотографиями плохого качества, а также позволяет сравнивать селфи с фотографией на документе.

Какие страницы паспорта распознает алгоритм

Главный разворот. Алгоритм полностью и без ошибок распознает данные с первой страницы паспорта: серию, номер, ФИО, дату рождения, дату выдачи и другие поля.

Рукописные страницы. Последняя версия алгоритма распознает первую страницу старого рукописного паспорта.

Прописку. Система распознает адрес прописки, дату регистрации, наименование подразделения, выдавшего регистрацию и его код. Ответ возвращается по отдельным строкам адреса: город, улица и так далее.

Как устроен процесс распознавания

Система состоит из набора микросервисов, каждый из которых берет на себя отдельный этап распознавания. Такая структура не требует значительных мощностей для работы решения, повышая при этом его производительность.

Алгоритм классификации определяет, сколько документов на изображении и к какому типу они относятся.

Алгоритм поиска полей находит поля с требуемой информацией — у паспорта и водительского удостоверения они расположены по-разному. Это помогает нейросети правильно разрезать изображение и отправить каждый фрагмент на распознавание.

Алгоритм выравнивания находит границы документа и устраняет искажения на картинке.

Алгоритм OCR распознает данные, подготовленные разметчиком, и переводит их в цифровой вид.

Алгоритм проверки и дораспознавания ищет ошибки, которые могли возникнуть при распознавании, и исправляет их.

Чтобы весь комплекс алгоритмов работал надежно, мы обучили их на большом объеме данных: поработав с десятками тысяч паспортов, алгоритмы выделили для себя отличительные черты документа и теперь ориентируются по ним. Увидев паспорт, система классифицирует его с точностью до 99,97%.

Какие еще документы распознает алгоритм

Алгоритм обрабатывает 23 типа документов, которые имеют до 10 подтипов. Среди них: загранпаспорт РФ, паспорта Киргизии, Таджикистана и Узбекистана, водительское удостоверение, СНИЛС, ИНН, СТС, ПТС, банковские карты, полисы ОМС и другие документы — список все время пополняется, его актуальная версия здесь.

Система умеет проверять документы на предмет подделки, точно сверяет селфи клиента с фотографией на паспорте и распознает специфические символы. Например, это подписи и печати на документах — алгоритм проверяет, что они соответствуют установленному образцу и находятся в нужных местах.

Безопасность решения

Алгоритм не сохраняет и не передает личные данные клиентов на обработку третьим лицам. Информация попадает на сервера Dbrain в анонимизированном виде: каждый документ сначала разбивается на отдельные поля. Восстановить по ним документ целиком невозможно.

Во время обработки Dbrain хранит отдельные поля документов в оперативной памяти и удаляет их сразу после возвращения ответа клиенту. При работе с клиентами из России используются только сервера на территории Российской Федерации.

Безопасность решения Dbrain подтверждена заключением юридической фирмы, которая входит в тройку крупнейших в мире компаний в области работы с персональными данными. Меморандум подтверждает соответствие деперсонализации требованиям 152–ФЗ «О персональных данных» от 27.07.2006 г.

Как происходит интеграция

Dbrain работает на основе REST API — стандарта, который позволяет интегрировать алгоритм с любой современной системой документооборота. Интеграция решения занимает несколько часов, мы оказываем поддержку процесса на каждом этапе.

Алгоритмы легко встраиваются в мобильное приложение, сайт или систему документооборота, установленную в офлайн-офисе. Попробуйте решение бесплатно — связаться с нами можно .