Где и как у вас хранятся документы компании за 2019 год?
Распечатанные доки разложены по пластиковым папкам или вы уже потратили силы, чтобы отсканировать документы, и теперь всё лежит в компе. Любой вариант может быть окей, если вы без боли в голосе ответите на ещё один вопрос: как вы будете искать 100 документов от 16 апреля 2019 года и извлекать из них только некоторые поля, которые внезапно понадобились вашему контрагенту?
Сначала люди придумали OCR
Если просто:
OCR — это технология, которая «читает» текст на фотографиях и сканах, и переносит его в цифровой вид.
Ваши 100 документов от 16 апреля 2019 года можно прогнать через OCR — и тогда появится возможность искать нужные документы по дате сканирования или ключевым словам. Но конкретные поля всё ещё придётся извлекать вручную.
Кто использует OCR: компании, которые много лет назад установили себе OCR, чтобы облегчить документооборот, и после этого не искали более новых и классных решений. Работает же? Работает. А на метрики никто не смотрит. Как минимум на процент документов, которые можно распознать вообще без участия людей.
OCR или оптическое распознавание символов (англ.optical character recognition) — механическая или электронная конвертация изображений рукописного, машинописного или печатного текста в текстовые данные, использующиеся для представления символов в компьютере (например, в текстовом редакторе)
Microsoft дал почти человеческое определение:
IDP не просто бездумно вытаскивает текст из документа. Он использует продвинутые технологии — ИИ, в частности, различает виды документов, классифицирует их, разделяет на логичные поля, извлекает напечатанные и рукописные тексты, распознаёт печати, подписи, чекбоксы и фотографии. А ещё может без вас обработать тысячи документов и направить их нужному контрагенту, системе или бухгалтеру.
С помощью IDP можно извлекать данные из структурированных документов (паспорт РФ, СТС, ПТС, еще сотни видов) и неструктурированных сложных документов, будь то накладная, рукописное заявление или таблица.
Кто использует IDP: около 10% компаний. Это крупный бизнес, который может себе позволить обновления и делает это быстро, так как знает, как это сэкономит ему время, деньги и нервы сотрудников.
IDP или интеллектуальная обработка документов (англ. Intelligent Document Processing) — это программное решение, которое собирает, преобразовывает и обрабатывает данные из документов (например, электронной почты, текста, Word, PDF-файла или отсканированных документов)