На нашем сайте используются cookie–файлы, в том числе сервисов веб–аналитики (Яндекс.Метрика и top.mail.ru). Используя сайт, вы соглашаетесь на обработку персональных данных при помощи cookie–файлов. Подробнее об обработке персональных данных вы можете узнать в Политике конфиденциальности
В чём разница между IDP и OCR
Если за месяц через вашу компанию проходят тысячи документов — читайте дальше и впитывайте. Если же вы ИП с небольшим документооборотом, вам пока рано смотреть в сторону автоматизации бумажной работы. Но когда-нибудь вы станете больше и тоже захотите узнать, что лучше: OCR или IDP. Заранее подсказываем:
Объясняем даже для тех, кто не знает, что это за наборы букв
Где и как у вас хранятся документы компании за 2019 год?
Распечатанные доки разложены по пластиковым папкам или вы уже потратили силы, чтобы отсканировать документы, и теперь всё лежит в компе. Любой вариант может быть окей, если вы без боли в голосе ответите на ещё один вопрос: как вы будете искать 100 документов от 16 апреля 2019 года и извлекать из них только некоторые поля, которые внезапно понадобились вашему контрагенту?
Сначала люди придумали OCR
Если просто:
OCR — это технология, которая «читает» текст на фотографиях и сканах, и переносит его в цифровой вид.
Если по Википедии:
Ваши 100 документов от 16 апреля 2019 года можно прогнать через OCR — и тогда появится возможность искать нужные документы по дате сканирования или ключевым словам. Но конкретные поля всё ещё придётся извлекать вручную.

Кто использует OCR: компании, которые много лет назад установили себе OCR, чтобы облегчить документооборот, и после этого не искали более новых и классных решений. Работает же? Работает. А на метрики никто не смотрит. Как минимум на процент документов, которые можно распознать вообще без участия людей.
Затем гении создали IDP
OCR или оптическое распознавание символов (англ.optical character recognition) — механическая или электронная конвертация изображений рукописного, машинописного или печатного текста в текстовые данные, использующиеся для представления символов в компьютере (например, в текстовом редакторе)
Microsoft дал почти человеческое определение:
IDP не просто бездумно вытаскивает текст из документа. Он использует продвинутые технологии — ИИ, в частности, различает виды документов, классифицирует их, разделяет на логичные поля, извлекает напечатанные и рукописные тексты, распознаёт печати, подписи, чекбоксы и фотографии. А ещё может без вас обработать тысячи документов и направить их нужному контрагенту, системе или бухгалтеру.

С помощью IDP можно извлекать данные из структурированных документов (паспорт РФ, СТС, ПТС, еще сотни видов) и неструктурированных сложных документов, будь то накладная, рукописное заявление или таблица.

Кто использует IDP: около 10% компаний. Это крупный бизнес, который может себе позволить обновления и делает это быстро, так как знает, как это сэкономит ему время, деньги и нервы сотрудников.
IDP или интеллектуальная обработка документов (англ. Intelligent Document Processing) — это программное решение, которое собирает, преобразовывает и обрабатывает данные из документов (например, электронной почты, текста, Word, PDF-файла или отсканированных документов)
Как OCR и IDP справятся с одной и той же задачей — архивом из 60 000 документов
Дано: архив из 60 000 отсканированных документов, названия документов индивидуальные, нет системы.

Задача: составить цифровой архив с удобным быстрым поиском и оставить для работы с этими документами только одного сотрудника — Людочку.

OCR: справился с чтением документов, но не смог создать удобную систему для быстрого поиска. Ничего, дорогой, ты пытался. Людочка сможет найти документ по ключевым словам и датам, но не больше.

IDP: классифицировал 43 типа документа, распознал все данные в каждом типе. Людочка может поднять данные как угодно: по ключевым словам, дате, номеру, типу документа, подписи или печати.
Как OCR и IDP справятся с рукописными детскими сочинениями
OCR: задрал лапки и лежит кверху пузиком.

IDP: натренировался на домашних заданиях 8 000 000 учеников, поэтому уверенно распознает 100% сочинений с 95% точностью и даже как будто иногда приговаривает, не забыл ли кто-то дома голову.
Ваш кейс
Здесь могла бы быть история про вашу компанию, где мы бы сравнили OCR и IDP в действии. Впрочем, мы и так можем это сделать. OCR перевёл ваши документы в машиночитаемый вид и остановился. А IDP справился на ура и автоматизировал все бумажные процессы в вашей компании. Как именно? Давайте узнаем.