OCR på CIS - fra scannet dokument til tekst

Dato: 28. september 2017 16:22
Forfatter: Jens Bruntt

I Convergens har vi for tiden fire praktikanter fra Datamatiker-uddannelsen på CPH Business som i efterårssemesteret kører et projekt hos os.

Projektet handler om at udvikle en beriger til Convergens Integrationsserver (CIS) som kan berige beskeder med tekst som kommer fra scannede dokumenter.

Det almindelige flow på SBSIP er:

Modtagemodul --> Berigermoduler --> Regler --> Afleveringsmoduler

Så det kunne være f.eks. dette forløb når vi bruger den nye OCR-beriger:

Email med vedhæftet dokument med scannet filbilag --> Trække teksten ud af det scannede filbilag --> Regler baseret på teksten --> Aflevering Acadre ESDH.

Vores praktikanter har allerede udviklet første bud, og vi har set det virke. Så vi ser at JPEG, GIF og TIFF filer med tekst kan blive til rigtig tekst.

Koden er baseret på brug af Tesseract, som er Open Source og på en licens som gør at man kan tillade sig at bruge det.

Vi har set, at Tesseract er en relativt CPU-krævende komponent, så nu er vores praktikanter ved at bryde OCR-berigeren op, så selve OCR-arbejdet sker på en selvstændig server.

2 kommentarer til artiklen OCR på CIS - fra scannet dokument til tekst

#26
Mikkel Andreasen 20. august 2018 12:33

Hej Jens
Nu prøver jeg lige at kommentere her. Bare fordi jeg lige faldt over din blog.
Hvad er erfaringen med Tesseract og genkendelse af danske bogstraver og ord.
Er den lige så god som de kommercielle OCR produkter? Eller rettere er den god nok til praktisk brug?

Svar
#27
Jens Bruntt 21. august 2018 03:28

Hej Mikkel
Den generelle fornemmelse var, at det var ok med danske tegn.
I Convergens arbejder vi ikke så meget med ocr, så det er svært at vurdere om det det er på niveau med kommercielle produkter.
En kollega fortalte mig at webpdf, som er et tysk serverprodukt, som vi bruger til at danne pdf faktisk har indlejret tesseract. .

Svar

NavnEmailKommentarSkriv de tegn, du ser på skærmen,
så vi ved, du ikke er en robot”

Indtast den viste kode:

OCR på CIS - fra scannet dokument til tekst

2 kommentarer til artiklen OCR på CIS - fra scannet dokument til tekst

Hvad har du på hjerte?

Mange tak for din besked.