OCR på CIS - fra scannet dokument til tekst

I Convergens har vi for tiden fire praktikanter fra Datamatiker-uddannelsen på CPH Business som i efterårssemesteret kører et projekt hos os.

Projektet handler om at udvikle en beriger til Convergens Integrationsserver (CIS) som kan berige beskeder med tekst som kommer fra scannede dokumenter.

Det almindelige flow på SBSIP er:

Modtagemodul --> Berigermoduler --> Regler --> Afleveringsmoduler

Så det kunne være f.eks. dette forløb når vi bruger den nye OCR-beriger:

Email med vedhæftet dokument med scannet filbilag --> Trække teksten ud af det scannede filbilag --> Regler baseret på teksten --> Aflevering Acadre ESDH.

Vores praktikanter har allerede udviklet første bud, og vi har set det virke. Så vi ser at JPEG, GIF og TIFF filer med tekst kan blive til rigtig tekst.

Koden er baseret på brug af Tesseract, som er Open Source og på en licens som gør at man kan tillade sig at bruge det.

Vi har set, at Tesseract er en relativt CPU-krævende komponent, så nu er vores praktikanter ved at bryde OCR-berigeren op, så selve OCR-arbejdet sker på en selvstændig server.

2 kommentarer til artiklen OCR på CIS - fra scannet dokument til tekst

  • #26
    Mikkel Andreasen

    Hej Jens

    Nu prøver jeg lige at kommentere her. Bare fordi jeg lige faldt over din blog.

    Hvad er erfaringen med Tesseract og genkendelse af danske bogstraver og ord.
    Er den lige så god som de kommercielle OCR produkter? Eller rettere er den god nok til praktisk brug?

  • #27
    Jens Bruntt

    Hej Mikkel 

    Den generelle fornemmelse var, at det var ok med danske tegn. 
    I Convergens arbejder vi ikke så meget med ocr, så det er svært at vurdere om det det er på niveau med kommercielle produkter. 
    En kollega fortalte mig at webpdf, som er et tysk serverprodukt, som vi bruger til at danne pdf faktisk har indlejret tesseract. . 

Skriv de tegn, du ser på skærmen,
så vi ved, du ikke er en robot”
Indtast den viste kode:

Hvad har du på hjerte?

 

 

*
*
*
*
*
Send!

Vi vender tilbage med et svar så hurtigt, vi kan!

Mange tak for din besked. 

Tilmeld dig vores nyhedsbrev

Få gratis viden og nyheder direkte i din indbakke. Vi lover, du bliver inspireret.

Vælg dit interesseområde