Digitalisering van gestructureerde documenten


Challenge

Toegang verschaffen tot gestructureerde gegevens (testresultaten in tabelvorm) in afbeeldingen van gescande documenten in een groot aantal formaten.

Resolution

Er werd een algoritmische oplossing ontwikkeld voor beeldvoorbewerking, karakterherkenning (OCR) en tekstgegevensnabewerking om de resultaten in gestructureerde vorm (dataframes) samen te stellen. Met deze oplossing kan de klant de tijd en kosten van gegevensextractie en -kwalificatie aanzienlijk verminderen.

Techno

Python/Pandas/Tesseract


Het aangaan van de technische aspecten van dit project was een echte persoonlijke uitdaging!