OCR con ocrmypdf

Discussioni relative a Debian e Linux

OCR con ocrmypdf

Messaggioda Aki » 28/02/2019, 16:31

Segnalo ai potenziali interessati il programma per OCR da PDF chiamato ocrmypdf (vedi https://packages.debian.org/stretch/ocrmypdf):
Package: ocrmypdf (4.3.5-3)

OCRmyPDF genera un file PDF/A ricercabile a partire da un PDF normale contenente solo immagini, permettendo di fare ricerche in esso.

Usa il motore per OCR Tesseract e perciò gestisce tutte le lingue che Tesseract gestisce.

Altre funzionalità principali:
* posiziona il testo OCR accuratamente sotto all'immagine per facilitare il copia / incolla;
* mantiene la risoluzione esatta delle immagini originali incorporate;
* quando possibile, inserisce le informazioni OCR come operazione senza perdita senza fare il rendering di informazioni vettoriali;
* mantiene quasi invariata la dimensione del file;
* se richiesto, raddrizza e/o pulisce l'immagine prima di eseguire l'OCR;
* valida i file in input e in output;
* fornisce una modalità di debug per permettere una facile verifica dei risultati dell'OCR;
* elabora le pagine in parallelo quando è disponibile più di un core di CPU;
* testato in battaglia su migliaia di PDF, con una suite di test e con l'integrazione continua.

Una volta installato, è sufficiente impartire il seguente comando (dove in.pdf è il file PDF in formato sorgente e out.pdf è il file con il risultato dell'OCR incluso nel documento PDF originario):
Codice: Seleziona tutto
ocrmypdf in.pdf out.pdf

E', inoltre, possibile effettuare una serie di ulteriori attività molto utili ed interessanti sulle pagine del file in.pdf, ad esempio:
Codice: Seleziona tutto
ocrmypdf -r --rotate-pages-threshold 4 -l ita -d in.pdf out.pdf
Aki
Global Moderator
Global Moderator
 
Messaggi: 8318
Iscritto il: 27/12/2007, 16:59

Torna a Generale

Chi c’è in linea

Visitano il forum: Nessuno e 1 ospite