I Convergens har vi for tiden fire praktikanter fra Datamatiker-uddannelsen på CPH Business som i efterårssemesteret kører et projekt hos os.
Projektet handler om at udvikle en beriger til Convergens Integrationsserver (CIS) som kan berige beskeder med tekst som kommer fra scannede dokumenter.
Det almindelige flow på SBSIP er:
Modtagemodul --> Berigermoduler --> Regler --> Afleveringsmoduler
Så det kunne være f.eks. dette forløb når vi bruger den nye OCR-beriger:
Email med vedhæftet dokument med scannet filbilag --> Trække teksten ud af det scannede filbilag --> Regler baseret på teksten --> Aflevering Acadre ESDH.
Vores praktikanter har allerede udviklet første bud, og vi har set det virke. Så vi ser at JPEG, GIF og TIFF filer med tekst kan blive til rigtig tekst.
Koden er baseret på brug af Tesseract, som er Open Source og på en licens som gør at man kan tillade sig at bruge det.
Vi har set, at Tesseract er en relativt CPU-krævende komponent, så nu er vores praktikanter ved at bryde OCR-berigeren op, så selve OCR-arbejdet sker på en selvstændig server.