Dem@t Factory


Domaine thématique du pôle

- Image Son Interactivité

Résumé

Le projet DEM@T FACTORY vise à améliorer ou développer tous les outils et toutes les méthodes propres à mettre en place une chaîne industrielle de numérisation du patrimoine, tous types de documents écrits confondus.



Plusieurs défis totalement innovants et que l’on ne retrouve dans aucun des projets du domaine (cf. section X2.2.1X) n’aborde, devront être levés afin de réaliser au mieux les objectifs du projet :

* La rationalisation de la chaîne de traitement par le développement d’un superviseur (CheckFlow Manager, détaillé en section X2.1.1X) qui aura pour fonction de placer un document dans une suite de traitements ordonnancés avec routage dynamique des flux, systèmes de détection de problèmes et alertes, traçage des flux, etc.


* Une modélisation de la forme/contenu du document (détaillée en section X2.1.2X) permettant de ne plus considérer une page isolée du reste de l’ouvrage mais de l’insérer dans un contexte permettant de tester la cohérence des éléments reconnus (numéros de pages, de figures, présence d’un sommaire, d’un titre, etc.) et d’alerter en cas de problème ou de doute.


* La mise en place dans les outils de fonctions de prédiction de performances (détaillée en section X2.1.3X) permettant l’application de traitements adaptés selon le type de document et de difficulté rencontrée. En cela, le traitement de l’image sera un point central pour l’amélioration des performances globales.


* Une interface 3D (détaillée en section X2.1.4X) permettant une intervention manuelle plus efficace sur les documents.


* L’aide à l’adaptation de l’analyse (détaillée en section X2.1.5X) des documents par production interactive de masques de numérisation (morphologie du document) en utilisant des méthodes d’active learning pour l’apprentissage et des moteur d’inférence grammaticale pour les expressions régulières.





D’autres défis majeurs sont abordés. Ils ont déjà été abordés dans d’autres projets mais nous les considérons essentiels dans le cadre de DematFactory, d’une part parce que le développement d’une industrie de numérisation du patrimoine demande de posséder ces techniques et, d’autre part, nous pensons que nous pouvons apporter de nouvelles solutions à ces problématiques.





Les défis majeurs sont les suivants :





* Traitement de l’image (qualité des images et de l’OCR), Segmentation


* L’utilisation d’outils d’analyse linguistique pour améliorer les performances de la conversion en mode texte.


* L’amélioration de l’acquisition et de l’analyse 3D de l’image dans le cas d’ouvrages précieux ou rares.


* La rationalisation des interfaces de contrôle et de correction de l’opérateur.



Enfin, certains développements de moindre envergure mais essentiels au bon fonctionnement de l’ensemble seront également effectués avec toujours pour but de rendre plus rentables les opérations de numérisation.



L’objectif de ce projet est clair : donner les moyens aux partenaires de créer une véritable industrie de la numérisation dédiée au patrimoine, qui permettra la mise en place du leader européen, voir mondial dans ce domaine.