Приложения Manjaro : OCRmyPDF

Приложение: OCRmyPDF

Текст, документы, БД

OCRmyPDF добавляет текстовый слой OCR к отсканированным PDF-файлам, позволяя выполнять поиск по ним
[ О приложении ]

crmypdf # it's a scriptable command line program

-l eng+fra # it supports multiple languages

--rotate-pages # it can fix pages that are misrotated

--deskew # it can deskew crooked PDFs!

--title "My PDF" # it can change output metadata

--jobs 4 # it uses multiple cores by default

--output-type pdfa # it produces PDF/A by default

input_scanned.pdf # takes PDF input (or images)

output_searchable.pdf # produces validated PDF output

Основные характеристики

Создание файла PDF/A с возможностью поиска из обычного PDF-файла

Размещает текст OCR точно под изображением для облегчения копирования/вставки

Сохраняет точное разрешение исходных встроенных изображений

По возможности вставляет информацию OCR в виде операции «без потерь», не нарушая работу другого содержимого

Оптимизирует изображения PDF, часто создавая файлы меньшего размера, чем исходный файл

По запросу корректирует и/или очищает изображение перед выполнением OCR

Проверка входных и выходных файлов

Распределяет работу между всеми доступными ядрами ЦП

Использует механизм распознавания символов Tesseract для распознавания более 100 языков

Правильное масштабирование для работы с файлами с тысячами страниц

Проверено в боях на миллионах PDF-файлов

Источник
Репозиторий:

Приложение OCRmyPDF в репозиториях другого типа: Snap

AppImages: OCRmyPDF [Наука, образование]