FR| EN
Search

 

PIITHIE


Le projet vise deux applications : la détection de plagiat, thème très porteur dans le contexte actuel, et le suivi d’impact d’une information, encore effectué manuellement à l’heure actuelle. Les principaux verrous de ce projet concernent :

  • la capacité à évaluer la proximité de deux contenus textuels en tenant compte des différents phénomènes de réécriture ;
  • l'extraction de termes suffisamment représentatifs d'un document pour pouvoir retrouver des documents similaires sur Internet en posant des requêtes à un moteur classique ;
  • la détection de citations dont il faut tenir compte pour l'évaluation d'impact et qui perturbent la détection de plagiat. Afin de gérer l'ensemble des phénomènes impliqués (réécriture, paraphrase, imitation, etc.) plusieurs types d'analyses linguistiques seront appliqués et testés afin de déterminer quel est leur apport.

Porteur

SINEQUA SAS (94)
Contact : recource@sinequa.com - Tel. : 01 49 87 06 00

Partenaires

PME :
Advestigo SA (92)

Établissements publics :
Laboratoire Informatique d’Avignon (84), Laboratoire d’Informatique de Nantes Atlantique (44)

Domaine

Patrimoine numérique

AAP

ANR

Résumé

Le projet Piithie s´inscrit dans un mouvement de plus en plus important de maîtrise de l´information diffusée. Il vise premièrement la détection de plagiats de textes. Les techniques de traitement automatique des langues (TAL), devraient permettre d'améliorer les performances et d'accroître le potentiel de recherche des outils d'Advestigo et de Sinequa. Le deuxième objectif concerne le suivi d´impact : les diffuseurs d'information sont très intéressés par la possibilité d´évaluer l´impact de leur production. Aujourd´hui cette évaluation est faite par une étude manuelle alors que des méthodes automatiques sont possibles. Les traitements nécessaires à ces deux applications sont de même nature ; ils demandent seulement un paramétrage différent selon que l´on cherche une copie illégale de l´information ou une utilisation parfaitement légale et dont le contenu peut être très divergent.

Objectif Sectoriel

Deux buts applicatifs sont principalement visés : les développements menés autour de la détection de plagiats de texte, permettront à Advestigo d’améliorer les performances du système de détection de plagiat qu’elle commercialise ; et Sinequa, très implanté dans le monde de la Presse (Intuition est le moteur le plus utilisé par les journaux en France) bénéficiera des recherches menées sur le suivi d’impact, ses clients étant particulièrement intéressés par la possibilité d’évaluer l’impact de leur production.

Contenus Technologiques

Trois verrous technologiques doivent être levés dans le cadre de ce projet :

  • La détection de la proximité de deux textes implique de prendre en compte des phénomènes linguistiques divers et particulièrement difficiles à traiter ; le projet devra donc choisir les fonctionnalités du TAL (liens entre entités, extraction d’entités, segmentation thématique, etc.) les plus pertinentes pour gérer les phénomènes de réécriture, de paraphrase ou d’imitation ;
  • Extraire des termes représentatifs d’un document afin de créer une requête pour un moteur de recherche classique sur Internet est extrêmement complexe. Il ne s’agit pas simplement d’extraire des termes clés thématiques, ce qui est relativement simple, mais d’extraire les termes représentatifs d’un événement (les termes représentatifs d’un tremblement de terre sont davantage la date, le nombre de victimes, etc. que des mots du domaine de la géophysique) ;
  • Et enfin, la détection de citations est loin d’être triviale. Il ne s’agit pas toujours de phrases entre guillemets précédées de « Untel a dit que … ». Il faudra détecter l’ensemble des connecteurs introduisant ou signalant une citation et un autre ensemble qui en donne les bornes (par exemple « Untel pense que …, ce qui implique … »).

Philosophie / Démarche

Le projet vise à exploiter certaines techniques du Traitement Automatique des Langues à la détection de plagiat et au suivi d’impact. Certaines méthodologies linguistiques (utilisation de la structure et de la sémantique du discours) sont encore très peu explorées dans ces domaines.

Enjeux

Dans un contexte sociétal où le domaine de l’information est non seulement un pouvoir économique de premier ordre mais aussi un pouvoir (tout court) de première importance, les notions de propriété, de diffusion et d’impact de l’information sont fondamentales. La notion de propriété intellectuelle et de droit d'auteur souffre actuellement d'attaques répétées du fait des nouvelles technologies de l'information et de la communication. Si l'on parle très souvent de la diffusion illégale d’œuvres (en particulier musicales et cinématographiques), il est un problème d'une autre nature mais tout aussi important : le plagiat. La réutilisation non consentie d'un texte sans citer la source a toujours existé mais a pris une autre dimension avec l'avènement du Web où la perception de la propriété par les internautes est sensiblement affaiblie par la facilité de copie sans coût des contenus digitaux. Les utilisateurs et producteurs d'information ont souvent tendance à croire (ou feignent de croire) que tout ce qui se trouve sur Internet est libre de droit. L’une des problématiques des diffuseurs d’information (que ce soit les industries du domaine ou les personnes et organismes qui utilisent ces media pour diffuser un message) est d’évaluer l’impact de leurs propos. Un politique voudra savoir quel a été l’impact de sa dernière déclaration. Un journaliste voudra savoir si son dernier article exclusif a eu un retentissement ailleurs dans la Presse, une entreprise diffusant un nouveau produit voudra savoir comment son message publicitaire a été perçu, etc. L’ensemble de ces besoins se résume à l’évaluation et au suivi d’impact. Le projet s’inscrit donc dans un mouvement très puissant qui est celui de la maîtrise de l’information que l’on diffuse.

Nouveaux Produits/Services à Court/Moyen Terme

Le plagiat de documents entraîne une perte de valeur importante pour les entreprises productrices d’information. Si cette perte de valeur est largement reconnue par la profession, on peut espérer un retour sur investissement élevé (dédommagements, impact positif sur les clients) et maximum, avec l’automatisation de la détection. Par ailleurs, les modules qui seront développés dans le cadre de ce projet pourront être réutilisés dans d’autres applications comme la veille, la recherche d’informations, la catégorisation de documents, l’aide à la navigation, etc.

Le marché visé par le suivi d’impact est considérable, dans la mesure où il concerne un type de veille particulier ; il ne s’agit pas en effet de suivre un événement, mais de rassembler tous les documents ayant été influencés par un document initial. Tous les producteurs d’information sont donc concernés par cette problématique car il est impossible, avec les moyens actuels, d’évaluer précisément l’impact d’un article. Les journaux contactés sont très intéressés par la possibilité d’évaluer combien de fois ils sont repris, cités. Intuition étant le moteur de recherche le plus utilisé par le monde de la Presse en France, Sinequa est particulièrement bien placé pour démontrer l’outil et en faire bénéficier les acteurs du domaine. De nombreux autres domaines sont directement concernés comme les cabinets de conseil des personnes dont l’image est importante (politiques, acteurs, chefs d’entreprise, etc.). Enfin, tous les services de veille travaillant sur l’image des entreprises ont tout intérêt à disposer d’un outil qui récupère, sans aucun traitement préalable, des textes issus d’un document initial. Le travail de collecte étant ainsi considérablement réduit, puisque les requêtes et le rapatriement des textes se fait automatiquement, les veilleurs peuvent se concentrer sur le travail d’analyse de ce qui se dit autour de l’information initiale.

Principes Structurants

Qu’il s’agisse d’interroger ces moteurs, méta-moteurs ou de collecter des données thématiques, dans la recherche de plagiats, il est nécessaire de produire des éléments de contenus cernant la thématique concernée à partir du contenu des plagiats. Pour ce faire, il est nécessaire de disposer des outils d’extraction automatique des mots-clefs à partir des documents originaux. L’extraction de ces mots-clefs doit répondre à certains critères :

  • pertinence des mots par rapport au contenu
  • efficacité de ces mots vis-à-vis de l’outil de recherche ciblé :
  • discrimination par rapport au « bruit ambiant » D’un point de vue Recherche, les méthodes de mesures de similarités entre codes sources informatiques sont utilisées depuis de nombreuses années pour la détection de plagiat 16, 20, 30, 34, 35, 37?. Cependant, les approches pour la détection de plagiat sur des textes en langue naturelle sont une activité récente et d’une grande complexité. Avec la facilité d’accès, de copie et de diffusion d’information due à l’expansion des nouvelles technologies (Internet et Google par exemple), ces nouvelles techniques de détection automatique font l’objet d’un intérêt croissant dans les domaines académiques et commerciaux.

Description / Étapes

La participation du partenaire client TNS permettra d’abord de calibrer le projet en fonction des besoins réels, ce qui permettra de définir les différents niveaux de plagiat (lot 1.1), ainsi que l’architecture fonctionnelle de l’outil (lot 1.2.). Le protocole d’évaluation qui sera appliqué aux différents modules et à la plate-forme complète sera ensuite défini. Le but est de définir les critères d’évaluation objectifs à partir des éléments fournis par le partenaire valideur dans les lots précédents et les environnements d’évaluation correspondant. Des éléments comme le rappel et la précision mais aussi le temps mis à rechercher puis valider ou invalider un plagiat potentiel seront nécessairement utilisés, mais d’autres paramètres pourront être pris en compte. Plusieurs choses doivent être évaluées : la détection de plagiat (lot 2.1.), la détection des citations (lot 2.2.), le suivi d’impact (lot 2.3.) et la qualité des requêtes posées aux moteurs internet (lot 2.4.). Des méthodes linguistiques et statistiques évoluées seront ensuite utilisées afin de construire une empreinte lexicale et une empreinte sémantico-discursive à partir d’un document (lots 3.1. et 3.3.), de détecter des citations (lot 3.4.), de développer une segmentation multicritère des textes (lot 3.5.) et d’extraire des requêtes pour les moteurs de recherche web à partir d’un document (lot 3.2.). Les éléments développés seront ensuite inclus au sein de l’outil d’Advestigo pour la détection de plagiat (lot 4.1.), et du moteur de recherche de Sinequa pour le suivi d’impact (lot 4.2.). Une interface permettant à l’utilisateur final de comparer deux documents sera également développée, ou enrichie si l’on part de l’une des interfaces utilisées par Advestigo ou Sinequa (lot 4.3.). Le LIA et le LINA joueront un rôle de conseil et de suivi dans ces lots (lot 4.4.).

Résultats / Livrables

Gestion du projet : 1 Définition des besoins et du système/ 1.1. Besoins du partenaire-client et typologie des phénomènes traités/ 1.2. Architecture fonctionnelle des outils et des composants/ 2. Environnement d’évaluation/ 2.1. Méthodologie et corpus d’évaluation de la détection de plagiat/ 2.2. Méthodologie, corpus d’entraînement et d’évaluation de la détection de / citations/ 2.3. Méthodologie et corpus d’exemples pour le suivi d’impact/ 2.4. Méthodologie d’évaluation pour la recherche sur internet/ 3. Méthodologies d’analyse/ 3.1. Empreinte lexicale d’un document/ 3.2. Extraction de requêtes optimisées pour les moteurs du Web/ 3.3. Empreinte sémantico-discursive d’un document/ 3.4. Module de détection de citations/ 3.5. Segmentation multicritère des documents/ 4. Comparaison de documents en vue de la détection de plagiat et de suivi d’impact/ 4.1. Inclusion dans AdvestiSearch/ 4.2. Inclusion dans Intuition/ 4.3. Interfaces homme-machine/ 4.4. Evaluation globale de l’apport de connaissances linguistiques auprès des utilisateurs/ 5. Publication et diffusion des objectifs et résultats /


Retour

cap digital paris region – Association de loi 1901 publiée au J.O. le 25 février 2006 - 5 bis rue d’Uzès 75002 Paris - FRANCE
Tél. : +33 (0)1.40.41.11.60 - Fax : +33 (0)1.40.41.11.65 - info@capdigital.com