Disco
Concevoir et expérimenter des techniques génériques et flexibles de recherche et d’indexation basées sur le contenu, et dédiées à des sources de documents multimédia distribuées.
Les outils de recherche et d’exploration du Web restent fortement orientés vers le traitement de documents textuels. Or de très nombreuses sources de données fournissent des documents multimédia (sons, images, documents audiovisuels) pour lesquels les techniques de description, d’indexation et de recherche restent rudimentaires, restreintes à des types de sources très caractérisées (par exemple des photos d’identité) et peu homogènes car construites en fonction de besoins particuliers.
Porteur
Université Paris Dauphine
Contact : Philippe Rigaux - Mail : philippe.rigaux@dauphine.fr - Tel. : 01 44 05 44 10
Partenaires
PME :
Établissements publics :
Université Paris-Dauphine
CNAM
INRIA Lille
Réunion des Musées Nationaux
IRCAM
Domaine
Ingénierie des connaissances
AAP
ANR
Objectif Général
L’objectif général du projet est de définir et expérimenter l’ensemble des outils et concepts permettant de décrire des ressources multimédia d’une manière homogène, de les stocker efficacement et d’effectuer des recherches efficaces et précises dans un contexte distribué. La solution élaborée doit permettre la mise en commun d’outils de description et de recherche entre plusieurs fournisseurs de contenus qui s’accordent pour partager un portail commun d’accès à leurs collections.
Objectif Sectoriel
Le projet vise à satisfaire globalement les besoins de gestionnaires et producteurs de données multimédia (sons, images) afin de leur fournir un socle commun et cohérent d’extraction d’indicateurs et de référencement de leurs ressources. La solution visée doit fournir un apport à deux niveaux : au niveau local par la mise en place d’un système d’indexation adapté aux particularités des documents multimédia d’un fournisseur particulier, et au niveau global par l’établissement de passerelles permettant d’établir une coopération entre les systèmes d’indexation de plusieurs fournisseurs. Les secteurs intéressés sont notamment les producteurs de banques d’images (agences photos, musées), de bibliothèques sonores (diffuseurs de documents audio) et les archives du Web.
Contenus Technologiques
Le projet est concentré sur trois problématiques techniques principales. La première est d’établir une base formelle pour la description et la gestion de vecteurs caractéristiques d’un document multimédia. Nous visons en particulier l’établissement d’une base commune pour la description de documents images, audio et vidéo. La seconde est l’étude des structures de données et opérations de recherche basées sur ces descripteurs. Enfin la troisième est le passage à l’échelle permettant de gérer de très gros volumes de données multimédia, notamment par recours à des environnements distribués.
Philosophie / Démarche
Le projet associe des équipes techniques, des fournisseurs de contenu et WebArchive, une institution qui se charge de l’archivage à grande échelle des documents récoltés sur le Web. Notre but est de valider expérimentalement dans ce dernier environnement les résultats techniques issus du projet.
Enjeux
L’objectif à long terme est de dégager des innovations technologiques pour la création de moteurs de recherche dédiés à de larges collections de documents multimédia.
Résultats / Livrables
Les résultats peuvent être résumés comme suit: une méthodologie commune de description et d’indexation pour une large classe de documents multimédia, incluant la spécification et l’expérimentation d’architectures distribuées.