FR| EN
Search

 

MADSPAM 2.0


Problématique de la détection du Spam sur le Web et sur les blogs : Madspam consiste d’une part à développer de nouveaux modèles adaptatifs de détection basés sur des méthodes d’apprentissage, ainsi qu’à implémenter ces modèles dans une chaîne de traitement complète et opérationnelle

Porteur

FT R&D
Contact - Mail : tanguy.urvoy@orange-ftgroup.com - Tel. : +33 02 96 05 26 42

Partenaires

Grandes Entreprises :

  • Orange
  • France Telecom R&D
  • PME :
  • BlogSpirit
  • Kartoo
Établissements publics :
  • LIP6 – Université Paris 6

Domaine

Ingénierie des Connaissances

AAP

ANR

Objectif Général

  • Développement de corpus de Spam
  • Développement de méthodes innovantes de détection
  • Développement d’un logiciel de détection
  • Développement de système de visualisation du spam

Objectif Sectoriel

Le spam est un fléau qui réduit considérablement les performances des moteurs de recherche et augmente terriblement le coût de la gestion de contenu dans des sites de blogs, des forums, etc… Le but du projet est de permettre aux différents partenaires d’obtenir des logiciels performants pour réduire les coûts liés au Spam.

Contenus Technologiques

  • Extraction de caractéristiques : Quels sont les éléments caractéristiques qui permettent la détection du Spam ? Cela inclut aussi bien l’extraction de caractéristiques de contenu que l’extraction de caractéristiques de structure. Tout est ouvert aujourd’hui et les caractéristiques utiles ne sont pas les mêmes sur les différents média.
  • Agrégation de caractéristiques : Etudier comment agréger les caractéristiques locales pour dégager des caractéristiques plus discriminantes du Spam. Par exemple, comment agréger les caractéristiques de pages Web pour classifier un site Web comme Spam ou non Spam
  • Propagation de caractéristiques : Etudier comment utiliser la structure de graphe, non pas uniquement pour calculer des caractéristiques structurelles, mais aussi pour guider le processus d’étiquetage (spam ou non spam) dans le graphe du Web.
  • Scalabilité/Volumétrie : Le système proposé doit être capable de traiter une grande masse de données rapidement. Le compromis performance/complexité doit donc être étudié sérieusement au niveau algorithmique.
  • Apprentissage avec des variables interdépendantes, par exemple les nœuds du graphe du Web : les méthodes d’apprentissage automatiques doivent prendre en compte les relations entre documents. De plus les méthodes doivent pouvoir envisager conjointement des dépendances à court terme et des dépendances à long terme.
  • Apprentissage avec peu d’exemples : dans un moteur grande échelle, ou dans un site de blog, il est nécessaire d’apprendre à détecter le spam tout en réduisant la quantité de spam à étiqueter manuellement.
  • Détection de plagiat à grain fin : les faux contenus générés par les spammeurs sont bien souvent construits en mélangeant des morceaux de texte récupérés sur d'autres sites web ou à partir de flux RSS : la détection à grand échelle de cette forme de plagiat est un problème difficile.
  • Dynamique du spam : quelles sont les stratégies des spammeurs pour infecter un réseau social ? Quels sont les points d’entrée dans les réseaux : sont-ils les individus (ou les communautés) les plus influents ? Ou bien le spam inonde-t-il massivement le réseau ? Quelles sont les caractéristiques de la diffusion, en termes de profondeur et de vitesse par exemple ?
  • Volumétrie : les volumes de données traitées qui peuvent représenter des terra-octets de données conservées sur les serveurs mais également un flux journalier extrêmement important nécessite d’adapter les infrastructures et les solutions logicielles développées (par exemple sur des systèmes répartis).
  • Aspect algorithmique : il constitue au-delà même de la conception d’algorithmes bien adaptés un enjeu essentiel en ce qui concerne la mise en œuvre sur les infrastructures matérielles.
  • Consensus entre rappel et la précision : La classification de Spam n’est pas dénuée d’erreurs et le système proposé doit pouvoir éviter d’être trop strict pour éviter de perdre trop de documents non spam, et éviter aussi d’être trop « laxiste » car il laisserait passer trop d’informations truquées. Le scénario idéal est de fournir un système paramétrable qui permette d’adapter la frontière entre spam et non spam
  • La fiabilité : assurer la fiabilité et l’adaptation des méthodes développées pour faire face à l’évolution permanente des formes de spam est un enjeu technologique de premier plan pour maintenir la qualité des solutions développées et de l’offre des différents partenaires.

Enjeux

Les motivations des spammeurs du web sont principalement de deux ordres :

  • la création de fausses pages ou faux blogs qui attirent les internautes et offrent des séries de publicités ou d’accès vers différents sites.
  • L’accroissement du score dans les moteurs de recherche Web, blog ou autres, des sites affiliés.
Tout site qui offre des services ou des produits en ligne va être affecté par les différentes formes de spam. L’enjeu du référencement et de la non pollution du contenu est très clair pour les sites eux même. En ce qui concerne le marché publicitaire des moteurs de recherche, l'enjeu est de conserver la qualité du service et donc l'audience. Pour les blogs, la quantité de spam blogs actuels (ce qu’on appelle les splogs) les rend tout inutilisables si la plateforme qui les héberge ne fait pas un filtrage très efficace (pour un blog créé, il y a actuellement 3 splogs). Le client et l’hébergeur sont tous deux affectés. Au niveau de la « web-économie », les enjeux concernent les ventes en ligne pour les sites clients et les services pour les sites hébergeurs et les moteurs de recherche (Orange). Au niveau des sociétés plutôt basées sur un modèle B2B (comme BlogSpirit ou KartOO), les enjeux concernent la crédibilité des outils qu’ils proposent qui impacte directement sur leur marché.

Nouveaux Produits/Services à Court/Moyen Terme

Logiciel permettant :

  • la détection du spam sur le Web pour augmenter la performance des moteurs de recherche
  • la détection de spam dans des pages de Blogs.

La plateforme développée ici permettra l’intégration des différents modèles proposés par les différents partenaires.



Description / Étapes

Le projet est prévu sur 30 mois. Les principales échéances sont :

  • T0 + 12 : Les premières versions des corpus Web Spam et Blog Spam sont disponibles (COR/WEB12 et COR/BLOG12)
  • T0 + 15 : Etiquetage de ces corpus (COR/TAG15)
  • T0 + 18 : Livraison et déploiement de la première version du prototype (DEV/V18) intégrant à la fois des modèles de détection issus de l’état de l’art ainsi que les modèles préliminaires développés dans le cadre du projet.
  • T0 + 21 : Première compagne d'évaluation (EVAL/EVSPAM21 et EVAL/EVNAV21)
  • T0 + 24 : Livraison des modèles de détection (ALG/PUB12 et ALG/PUB24), rapport de valorisation (VALO/VRAP24)
  • T0 + 30 :
Corpus finaux (COR/CORF30),
Rapport final d’évaluation et analyse des méthodes (lot EVAL/EVSPAM30 et EVAL/EVNAV30),
Livraison de la plateforme finale (DEV/V30),
Adaptation pour de nouveaux partenaires (VALO/ADA30)

cap digital paris region – Association de loi 1901 publiée au J.O. le 25 février 2006 - 5 bis rue d’Uzès 75002 Paris - FRANCE
Tél. : +33 (0)1.40.41.11.60 - Fax : +33 (0)1.40.41.11.65 - info@capdigital.com