Numérisation de documents structurés


Challenge

Permettre l’accès à des données structurées (résultats de tests présentés sous forme tabulaire) contenues dans images de documents scannés présentant un large éventail de formats.

Resolution

Une solution algorithmique de prétraitement des images, de reconnaissance de caractères (OCR) et de post-traitement des données textes pour compiler les résultats sous forme structurée (dataframes) a été développée. Cette solution permettra au Client de réduire significativement le temps et le coût dédié à l’extraction de ces données et à la qualification de celles-ci.

Techno

Python/Pandas/Tesseract


Faire face aux enjeux techniques de ce projet était un réel challenge personnel !