AVEIR, Automatic annotation and Visual concept Extraction for Image Retrieval
Développer un moteur de recherche d'images utilisant efficacement les informations fournies à la fois par les images et par le texte associé à ces images. Pour cela, les principales techniques développées sont des méthodes avancées de traitement de l'image, des algorithmes d'apprentissage automatique pour l'annotation des images, ainsi qu'un protocole d'évaluation des méthodes proposées.
Les systèmes de recherche d'images peuvent être principalement séparés en deux catégories : les systèmes de recherche d'images par mots-clés (tels que les moteurs de recherche sur le Web) et les systèmes de recherche d'images par le contenu visuel (CBIR). Ces deux approches n'ont pas jusqu'à présent permis de réduire le « fossé sémantique » entre les attentes de l'utilisateur et le pouvoir expressif des images.
Porteur
Université Pierre et Marie Curie, laboratoire LIP6
Contact : Patrick Gallinari - Mail : patrick.gallinari@lip6.fr - Tel. : 01 44 27 73 70
Partenaires
Établissements publics :
LIP6 – UMR CNRS 7606 / Université Paris 6
LTCI – UMR CNRS 5141 / GET-Télécom Paris (ENST)
LIG – UMR CNRS 5217 / Université Joseph Fourier
LSIS – UMR CNRS 6168 / Université de Toulon
Domaine
Ingénierie des connaissances
AAP
ANR
Objectif Général
Améliorer les systèmes de recherche d'images en utilisant des indexations sémantiques, des annotations textuelles et des descriptions symboliques extraites automatiquement à partir du texte et du contenu visuel des images contenus dans des documents multimédia ou des pages Web.
Contenus Technologiques
Les principaux problèmes et défis abordés par ce projet sont :
I . La réduction du fossé sémantique entre les images et leurs descriptions textuelles.
- Développer des représentations riches des images qui permettent de limiter les ambiguïtés et de réaliser des requêtes sémantiques et visuelles
- Utiliser des techniques d'apprentissage automatique pour réduire le fossé entre la description textuelle et la description visuelle d'une image
- Trouver dans un document multimédia (structuré) quelles parties du texte décrit l'image
II . La combinaison de techniques spécifiques au texte avec des techniques spécifiques aux images. Le texte et l'image étant fondamentalement différents, les techniques d'analyse de ces deux modalités ont évolué en parallèle. Un défi important est de les confronter et de les fusionner efficacement.
III . Les nouveaux défis de l'apprentissage
- Traiter au même niveau le texte et les images révèle de nouveaux problèmes d'apprentissage comme, par exemple, apprendre à partir d'instances multiples, d'exemples multi-facettes, avec des étiquettes multiples, bruitées...
- Apprendre par apprentissage semi-supervisé dans des espaces à grandes dimensions avec des exemples étiquetés en faible nombre
IV . L'évaluation
- Définir des critères d'évaluation n'est pas une tâche triviale lorsque l'on mélange des informations sémantiques, structurelles et des concepts visuels
- Développer des nouvelles collections pour l'évaluation en recherche d’information image
Enjeux
Du fait de l'évolution des technologies, le nombre de données multimédia disponibles augmente de manière exponentielle. L'amélioration des systèmes de recherche d'images permet d'améliorer à la fois la qualité des images renvoyées par le système, mais aussi de diminuer le temps qu'un utilisateur passe à essayer de trouver l'image qu'il recherche. Les enjeux sont donc très importants pour les utilisateurs qui recherchent des images sur le Web, mais aussi pour les éditeurs de contenus, tels que les agences de presse, les encyclopédies…
Nouveaux Produits/Services à Court/Moyen Terme
- Bibliothèque de techniques avancées de traitement d'images
- Algorithme pour l'annotation riche d'images
- Corpus d'évaluation
- Prototype d'un système de recherche d'images combinant texte et images
Description / Étapes
Le projet est organisé en trois axes dans lesquels interviennent une partie ou tous les partenaires.
Axe 1 : Amélioration de la description des images : de l'analyse d'images vers les concepts visuels
Objectif : fournir des descriptions d'images fiables et efficaces pour les utiliser en conjonction et en complément des descriptions textuelles
I . Extraction des descripteurs et segmentation d'images
II . Description sémantique des images et index multi-facettes
Axe 2 : Du texte vers l'annotation d'images
Objectif : Développer des techniques d'apprentissage automatique pour l'annotation d'images et pour trouver des correspondances entre le texte et les images
I . Apprendre à partir d'annotations imprécises
II . Trouver la correspondance entre le texte, les images et les mots-clés
Axe 3 : Recherche d'images et évaluation
Objectif : Développer un moteur de recherche d'images, effectuer des recherches sur des descripteurs d'images complexes, et évaluer les résultats obtenus
I . Rechercher des images en s'aidant du texte
II . Effectuer des recherches sur des descripteurs d'images complexes
III . Évaluation
Résultats / Livrables
Livrables : Site Web
Type : Site Web
Responsable : LIP6
Participants : LIP6
Période : T0-T2
Axe 1.1 :
Livrables : État de l'art et spécification des descripteurs visuels pertinents pour la caractérisation des concepts
Type : Rapport
Responsable : LTCI
Participants : LIG, LTCI, LSIS
Période : T0-T6
Axe 1.2 :
Livrables : Bibliothèque de techniques de traitement d'images avancé et spécification pour l'implémentation dans le prototype
Type : Algorithme
Responsable : LTCI
Participants : LIG, LTCI, LSIS
Période : T7-T12
Axe 1.3 :
Livrables : Développement des modules du logiciel et tests
Type : Modèle
Responsable : LTCI
Participants : LIG, LTCI, LSIS
Période : T13-T24
Axe 2.1 :
Livrables : Analyse du problème de l'annotation d'un point de vue de l'apprentissage automatique et état de l'art sur les modèles de correspondance entre le texte et les images
Type : Rapport
Responsable : LIP6
Participants : ALL
Période : T0-T6
Axe 2.2 :
Livrables : Analyse du problème de l'annotation d'un point de vue de l'apprentissage automatique et état de l'art sur les modèles de correspondance entre le texte et les images
Type : Rapport
Responsable : LIP6
Participants : ALL
Période : T0-T6
Axe 2.3 :
Livrables : Développement des logiciels et tests
Type : Modèle
Responsable : LIP6
Participants : ALL
Période : T13-T24
Axe 3.1 :
Livrables : Prise de contacts avec des partenaires européens pour obtenir des collections de documents multimédia et spécifications du corpus
Type : Rapport
Responsable : LIG
Participants : ALL
Période : T0-T12
Axe 3.2 :
Livrables : Développement du corpus – Corpus du Web
Type : Corpus
Responsable : LIG
Participants : ALL
Période : T7-T24
Axe 3.3 :
Livrables : Prototype final du moteur de recherche d'images
Type : Moteur de recherche
Responsable : LIG
Participants : ALL
Période : T25-T36
Axe 3.4 :
Livrables : Évaluation
Type : Évaluation
Responsable : LIG
Participants : ALL
Période : T25-T36
Impact et Retombées
Les principaux résultats attendus à la fin du projet AVEIR sont :
- la définition d'un modèle pour représenter les différentes facettes des images ;
- la définition d'approches probabilistes pour l'annotation automatique des images en fonction du contenu des images et du texte décrivant l’image ;
- la définition d'une collection de test pour l'évaluation de l'annotation et de la recherche d'images ;
- le développement d'un prototype de systèmes de recherche d'images en fonction des différentes avancées du projet.
Les méthodes robustes, précises et automatiques d'annotation sémantique des images ont de nombreuses applications dans le domaine du multimédia. Ce projet fournit des méthodes qui pourront être utilisées dans des applications à grande échelle lors de futures collaborations industrielles, ainsi que dans le développement de projets R&D nationaux et européens.
Retour