С Amazon Textract легко извлекать текст и данные

Amazon Textract – это сервис, который автоматически извлекает текст и данные из отсканированных документов. Amazon Textract выходит за рамки простого оптического распознавания символов (OCR) и позволяет идентифицировать содержимое полей в формах и информацию, хранящуюся в таблицах.

Многие компании сегодня извлекают данные из документов и форм с помощью ручного ввода данных, который является медленным и дорогим, или с помощью простого программного обеспечения для оптического распознавания символов (OCR), которое требует ручной настройки. Правила и рабочие процессы для каждого документа и формы часто требуют жесткого кодирования и обновления при каждом изменении формы или при работе с несколькими формами. Если форма отклоняется от правил, выходные данные часто шифруются и не могут использоваться.

Amazon Textract преодолевает эти трудности, используя машинное обучение для мгновенного «чтения» практически любого типа документа с целью точного извлечения текста и данных без необходимости каких-либо ручных усилий или специального кода. С Textract вы можете быстро автоматизировать рабочие процессы документов, позволяя обрабатывать миллионы страниц документов за часы.

Эксперт по AWS использовал Amazon Textract, чтобы помочь своему клиенту успешно извлечь текст из десятков тысяч медицинских исследований, достигнув 97 % точности во всей документации.