Как перевести в PDF много сканов и не сойти с ума?

Если вы имеете дело с большим объемом информации в разных форматах: сканы, фото, PDF-файлы, то для для простоты работы, поиска и дальнейшей архивации необходимо преобразовать документы в редактируемый формат и привести к единому виду. Это легко сделать с помощью ContentReader PDF 15, в статье расскажем какие технологии в этом помогают.
Как правило, хранение большого количества zip-архивов со сканами или фото документов в JPEG-формате неудобно, потому что файлы занимают много места на диске. С помощью ContentReader PDF вы можете оцифровать материалы в PDF и объединить сканированные страницы в один документ. Редактор уменьшает размер преобразованных документов, что и позволяет сэкономить место на компьютере.
После преобразования станет легче искать информацию в тексте, а документ станет возможно редактировать, добавлять текст и картинки, менять ориентацию страниц. Одна программа превратит «архив архивов» в удобную и логичную коллекцию PDF-материалов.
Давайте познакомимся поближе с технологиями, которые позволяют это делать и узнаем как они работают:
1. ОCR - технология оптического распознавания символов
С помощью OCR можно извлекать данные из отсканированных документов, фотографий и PDF-файлов, содержащих только изображения. Технология OCR создаёт цифровую копию текста, который был отсканирован или напечатан. Когда страница проходит сканирование, она сохраняется как TIFF-файл. При просмотре изображения на экране мы можем прочитать текст. Однако для компьютера это просто набор белых и черных точек. Он анализирует каждую строку изображения и определяет, соответствует ли серия точек определенной букве или числу, после сопоставления с зашитыми шаблонами, мы получаем готовый текст.
Например, если вы просто отсканируете форму или квитанцию, то текст на выходе нельзя будет изменить. Если же использовать программу с технологией OCR, то редактировать данные после сканирования станет возможно.
Технология распознает текст для более чем 200 языков:
-
Европейские языки на латинице и кириллице, армянский и греческий алфавиты.
-
Китайский, японский, корейский, арабский, фарси, тайский, вьетнамский, иврит, бирманский.
-
Старые документы, книги и газеты, напечатанные с 1600 по 1937 годы на английском, французском, немецком, итальянском и испанском языках старыми шрифтами, среди которых Fraktur, Schwabacher и Gothic.
-
Распознавание шрифтов OCR-A, OCR-B, MICR (E13B) и CMC7 и документов, напечатанных на матричных принтерах или пишущих машинках.
2. MRC - технология для уменьшения размера PDF
Формат PDF давно используется для сохранения документов. Отсканированный документ можно пропустить через ContentReader PDF, чтобы редактировать текст, или сохранить в PDF как изображение. В некоторых случаях сохранение исходного вида документа имеет большое значение. Однако, такие PDF-файлы могут иметь большой размер - от полумегабайта на страницу и больше. Это происходит из-за того, что внутри PDF-файла отсканированные изображения сжаты обычными картиночными кодеками, такими как JPEG, JPEG2000, LZW или ZIP. Чтобы уменьшить размер, обычно прибегают к различным ухищрениям, например, конвертация в другие форматы, но это может снизить качество текста.
Встроенная в ContentReader PDF технология PDF MRC (Mixed Raster Content) может помочь в этом вопросе. При использовании MRC размер страницы может быть уменьшен до 20 раз при сохранении качества отсканированного изображения. Это достигается за счет разделения изображения на слои и сжатия каждого слоя наиболее подходящим кодеком. Текст сжимается кодеком JBIG2, а все остальное сжимается с помощью JPEG/JPEG2000/ZIP с разным качеством.
3. Архивация документов
PDF — это универсальный формат электронных документов. Его главная задача – возможность представлять печатные документы в электронном виде. Существует также формат PDF/A - стандартизированная версия формата PDF. Она используется, когда нужно передать документ в архив и обеспечить его долгосрочное хранение. Чтобы сохранить содержимое электронного договора даже спустя десятки лет, выбирают именно PDF/A. Длительный срок хранения становится возможным, потому что в содержимое электронного документа в формате PDF/A внедряется вся информация, необходимая для его отображения, например, сохраняются использованные шрифты. Документ можно было открыть и просмотреть в неизменном виде на любом компьютере в любое время.
4. Поиск
Превращайте бумажные документы, сканы и отсканированные PDF в PDF-документы с возможностью поиска. Это удобно, если вам нужно создать цифровой архив и искать в документах нужную информацию. ContentReader PDF поддерживает формат PDF/A, который является стандартом для долгосрочного архивирования с поддержкой всех вариантов от PDF/A-1 до PDF/A-3, чтобы сделать хранение более безопасным.
Выводы
ContentReader PDF позволяет:
-
Импортировать данные из различных источников, например, из счетов, паспортов, документов, писем или распечаток.
-
Оцифровывать книги и готовить документы для архивного хранения.
-
Конвертировать документы в нужные форматы.
-
Распознавать тексты для определения полей и классификации документов.