CroTal, Conditional Random Fields pour le TAL
CRoTAL (Conditional Random Fields pour le TAL) a pour objectif d'étudier et de développer de nouvelles techniques pour la manipulation de grandes masses de données textuelles.
Porteur
INRIA
Contact : Mlle Isabelle Tellier - Mail : Isabelle.tellier@univ-lille3.fr - Tel. : 03 20 41 61 78
Partenaires
INRIA – INRIA Futurs, CNRS - GET-LTCI, Université Paris 13 – LIPN (Établissements publics)
Domaine
Ingénierie des connaissances
AAP
ANR
Résumé
Les linguistes familiers de la manipulation de corpus savent à quel point leur annotation manuelle est longue, fastidieuse, et sujette à l'erreur. Quand c'est possible, on essaie maintenant autant que possible de favoriser des approches issues de l'apprentissage automatique. Le projet CRoTAL propose de se concentrer plus particulièrement sur une technique d'apprentissage automatique particulièrement innovante : celle des Conditional Random Fields (CRFs) ou « champs conditionnels aléatoires ». Les CRFs sont une famille de modèles graphiques introduits dans le contexte de la linguistique informatique. Ils permettent d'annoter des données à partir d'exemples de données déjà annotées. Ils se situent actuellement au meilleur niveau dans plusieurs domaines, notamment pour l'extraction d'information et la structuration des données textuelles. Mais le modèle des CRFs doit aussi être affiné et optimisé pour pouvoir être efficacement utilisé sur de très grands ensembles de données ou sur des données structurées.
Objectif Général
Notre objectif général est d'enrichir des données textuelles en apprenant à les annoter. Nous prévoyons de travailler sur des corpus français aussi bien qu'anglais. Le projet n'envisage pas la production de nouvelles ressources linguistiques (d'autres projets poursuivent cet objectif, et nous travaillerons en collaboration avec certains d'entre eux) mais plutôt la production d'outils de traitements de corpus (textuels et arborés) en tenant compte de ressources existantes.
Objectif Sectoriel
- tâches traditionnelles du TAL, comme la reconnaissance d'entités nommées ou l'identification de rôles sémantique ;
- analyse profonde (structurée) de textes, menant à une classification sémantique de texte, et permettant des transformations de structures ;
Contenus Technologiques
- librairies XCRF de modélisation et de calculs basés sur les CRF.
- extensions de ces librairies et développement d'une interface facilitant leur utilisation.
Philosophie / Démarche
Notre démarche sera la suivante :
- identifier des tâches pertinentes d'un point de vue linguistique, et pouvant se formuler en termes d'annotation ;
- développer de nouveaux algorithmes pour efficacement traiter ces tâches avec des CRFs ;
- appliquer ces algorithmes à des corpus réels de différentes natures (textuels et arborés), afin d'annoter et d'extraire de la connaissance à partir de ces corpus.
Les librairies et/ou logiciels produits seront sous licence GPL. Les éventuelles ressources produites seront également rendues publiques, dans la mesure où les copyrights des ressources utilisées pour les produire le permettent.
Enjeux
- Analyse profonde de gros volumes de textes, robuste, et nécessitant le minimum d'intervention humaine dans la construction des ressources.
- Moteurs de recherche sémantiques.
- Traduction automatique.
Nouveaux Produits/Services à Court/Moyen Terme
Librairie de traitement de CRF structurés améliorée (XCRF) et interface d'alimentation
Principes Structurants
WP1 : identifier et expérimenter des tâches de TAL dans lesquelles les CRF peuvent être utilisées, et spécifier les améliorations à apporter à XCRF.
WP2 : améliorer et étendre XCRF.
WP3 : Expériences, évaluations et dissémination ; participation à un challenge international.
Description / Étapes
mois 1 à 6 :
- confrontation des connaissances ;
- états de l'art des CRFs, des tâches et des ressources ;
- choix des tâches d'étude; identification des ressources et connaissances nécessaires à ces tâches.
mois 6 à 12 :
- identification des extensions, des indicateurs de validation, d'un challenge international ;
- acquisition des ressources (machines, corpora) ;
- préparation des données.
mois 12 à 18 :
- implémentation des extensions ;
- expériences.
mois 18 à 24 :
- évaluation ;
- conclusion ;
- diffusion des résultats.
Résultats / Livrables
mois 6 :
- site Toile du projet, puis mise-à-jour au moins trimestrielle (web)
- site Wiki et liste de diffusion (web)
mois 18 :
- articles et rapports sur les premières propositions et résultats (publications)
- liste des cadres de sous-catégorisation (logiciel / ressources)
mois 24 :
- extension de XCRF avec interface facile à prendre en main (logiciel)
- proposition de Workshop (communication)