GEONTO
Constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes. Le projet GEONTO porte sur l'interopérabilité de données diverses relatives à l'information géographique.
Porteur
CNRS
Chantal REYNAUD, CNRS Ilde de France Sud DR4 - Mail : chantal.reynaud@lri.fr - Tel. : 01 72 92 59 87
Partenaires
Établissements publics :
CNRS – DR4 (LRI)
IGN (COGIT)
Université Paul Sabatier (IRIT)
Université de Pau et des pays de l’Adour (LIUPPA)
Domaine
Patrimoine numérique / Ingénierie des connaissances
AAP
ANR
Objectif Général
Deux objectifs applicatifs sont tout particulièrement visés. Le premier est l’intégration de bases de données géographiques hétérogènes. Cette tâche passe par la mise en correspondance des schémas des bases. Le deuxième objectif applicatif est l’interrogation d’une collection importante de documents textuels plus variés et destinés à un plus grand public que les bases de données précédemment mentionnées.
Objectif Sectoriel
La réalisation de ce projet passe par la réalisation de 3 sous-objectifs :
(1) construire des ontologies associées à des bases de données par exploitation de leurs spécifications (documents textuels) ou associés à un corpus de documents géographiques moins techniques.
(2) Aligner les ontologies obtenues et étudier leurs différences,
(3) Apparier les schémas de bases de données via les ontologies, et développer un moteur de recherche d’information dans une base de documents via ces mêmes ontologies.
Contenus Technologiques
La première partie du projet consiste à réaliser plusieurs ontologies du domaine géographique reflétant différents points de vue. Pour cela, plusieurs approches s’appuyant sur différentes techniques de traitement automatique du langage sont exploitées.
La deuxième partie du projet consiste à aligner et comparer les ontologies construites. L’idée du projet est d’aller plus loin qu’un simple alignement d’ontologies, en mettant au point une méthodologie de comparaison globale d’ontologies qui permette de décider dans quelle mesure deux ontologies reflètent des points de vue peu ou très différents et donc, dans quelle mesure elles peuvent ou non être fusionnées.
La troisième partie du projet a pour but d'exploiter les résultats des deux premières parties, d’une part pour construite un portail d'accès à des documents textuels, d’autre part pour apparier des schémas très hétérogènes de bases de données géographiques.
Philosophie / Démarche
Une approche de plus en plus privilégiée pour intégrer des données diverses est d’appuyer l'intégration sur une ontologie du domaine concerné. Les ontologies jouent un rôle clé en intégration de sources d’information multiples et hétérogènes. Son rôle est double. D’une part, elle précise le sens des concepts d’un domaine en étant le reflet d’un certain consensus au sein d’une communauté. D’autre part, elle fournit une sémantique formelle. Dans le contexte de l’intégration, les ontologies peuvent aider à comprendre et interpréter des descriptions hétérogènes de contenus relatifs à un même domaine pour ensuite pouvoir plus facilement les mettre en relation. C’est la voie qui est adoptée dans le cadre de ce projet.
Enjeux
Les techniques préconisées pour l’appariement de schémas de bases de données comme pour la recherche d'information devront permettre un déploiement à grande échelle, ce qui requière des traitements les plus automatiques possibles et pose des problèmes du fait de certains verrous technologiques. La construction, même assistée par des outils conviviaux, est un travail de modélisation long et difficile. L’objectif sera de tirer parti des spécifications associées aux bases de données pour construire les ontologies décrivant le domaine associé. Il s’agira donc d’étudier et de mettre en œuvre différentes approches permettant d’automatiser la construction d’ontologies à partir de documents textuels.
L’alignement d’ontologies hétérogènes à grande échelle n’a, pour l’instant, pas été au centre des recherches réalisées. Le passage à l’échelle nécessite d’élargir la notion d’hétérogénéité pour aligner des ontologies très différentes structurellement et également par rapport à la précision avec laquelle les connaissances sont décrites. De la qualité des ontologies dépendront la qualité des alignements.
Nouveaux Produits/Services à Court/Moyen Terme
Une ontologie topographique riche sera mise à disposition de la communauté scientifique. Elle sera bilingue, français/anglais, et répondra aux attentes des groupes de travail associés à la directive européenne INSPIRE qui ont exprimé le besoin de disposer d’ontologies dans le domaine géographique, les ontologies existant aujourd’hui étant très restreintes et décrivant des domaines très ciblés.
Le projet est motivé par la volonté d’intégrer des informations à caractère géographique. Il produira ainsi des résultats (cf. § ci-dessous) qui auront été évalués d’un point de vue géographique par les chercheurs du laboratoire COGIT de l’IGN, experts du domaine. Les techniques et les méthodes proposées seront néanmoins génériques. Ainsi, les résultats seront également applicables a priori à tout domaine d’application.
Principes Structurants
Une structure à 2 niveaux est proposée : un niveau stratégique et exécutif composé d’un comité de pilotage et un niveau opérationnel composé des responsables de lots.
Au niveau stratégique, le comité de pilotage est l’organe de management dans lequel les décisions stratégiques liées au projet sont prises. Il statue sur les changements décidés dans le programme de travail et résout les litiges au sein du projet. Au niveau exécutif, c’est l’organe dédié au management technique et administratif du projet. Il est chargé de la rédaction/validation des rapports à remettre dans le cadre du projet.
Les responsables de lot sont responsables de l’animation de leur lot et de l’application des différentes actions décidées par le CP. Ils organisent et surveillent le travail au jour le jour, afin de préparer les rapports techniques à fournir. Ils coordonnent également le travail fait dans les différents lots.
Description / Étapes
Le programme de travail se décompose en 3 lots auxquels se rajoute le lot « Gestion de Projet ».
lot 1 : Construction et enrichissement d’ontologies
lot 2 : Appariement d’ontologies hétérogènes
lot 3 : Exploitation des ontologies créées
Lot 1 : L’automatisation de la construction d’ontologies est un verrou scientifique pour beaucoup d’applications. Nous proposons une solution consistant, dans un premier temps, à construire un premier noyau d’ontologie en mettant en œuvre les techniques les plus adaptées au type de corpus disponible (sous lots 1.1 et 1.2). Conscient des limites de toutes les techniques du fait de leur sensibilité au bruit, le résultat de ce processus d’extraction et de structuration de terminologie sera ensuite réorganisé (sous-lot 1.3) par confrontation à une taxonomie de référence de bonne qualité. Des experts du domaine valideront toutes les ontologies construites.
Lot 2 : Dans ce lot, nous exploiterons, dans un premier temps, des ontologies déjà construites et disponibles au sein du COGIT. Dans un second temps, l’appariement sera réalisé sur les ontologies obtenues en résultat des sous lots 1.1 et 1.2 ainsi que sur d’autres ontologies ou taxonomies externes accessibles. En premier lieu, il s’agira donc d’apparier les ontologies disponibles pour obtenir une ontologie géographique riche. En deuxième lieu, il s’agira de les comparer pour comprendre leurs différences. L’ensemble des résultats obtenus sera validé d’un point de vue géographique.
Lot 3 : Dans ce lot, nous exploiterons et expérimenterons l’intégration dans deux cas d'utilisation : l'indexation de contenu (sous lot 3.1) et l'intégration de bases de données géographiquse (sous lot 3.2). Dans le cas de l'indexation, les représentations conceptuelles (déduites grâce à l'ontologie) et géométriques (obtenues grâce à l'association entre termes de l'ontologie et champ d'un base de donnée géographique) vont permettre de construire des index se basant sur la typologie des objets identifiés et leurs relations topographiques. Dans le cadre de l’intégration de bases de données, les ontologies alignées vont être exploitées pour apparier entre eux des schémas, qui découlent chacun de points de vue et donc d’ontologies différentes. Il s’agit d’étudier dans quelle mesure l’alignement de ces ontologies peut être utilisé pour aller jusqu’à un appariement fin des schémas des bases.
Résultats / Livrables
Les résultats attendus dans ce projet sont les suivants :
- De nouveaux outils d’extraction de concepts et de relations dans des textes,
- Des techniques et une méthodologie de création, d’enrichissement et de restructuration d’ontologie,
- Une étude de l’efficacité des techniques d’alignement, l’adaptation de techniques actuelles et le développement de nouvelles techniques adaptées à la fusion efficace de deux ontologies hétérogènes,
- Des techniques et une méthodologie de comparaison de deux ontologies reflétant des niveaux d’échelle spatiale différents ou issues de pays différents, afin d’étudier si ces ontologies reflètent de véritables points de vue différents ou si elles n’ont que des différences marginales et gagneraient donc à être fusionnées.
- Une ontologie du domaine de l’information géographique, et plus particulièrement de la description topographique du paysage,
- Des techniques et méthodologies exploitant une ontologie pour indexer automatiquement le contenu de documents diversifiés et pour apparier des schémas de bases de données hétérogènes.