Blogoscopie
Développer des outils de surveillance des blogs qui permettent d´effectuer, automatiquement, deux tâches : l’étude d’image et l’étude de tendance.
L´étude d´image permet de créer une photographie de ce que pense le public d´une certaine personne, d'un organisme, etc. à un moment donné.
Porteur
LINA
Contact : recource@sinequa.com – Tel. : 01 49 87 06 00
Partenaires
Overblog, Sinequa (PME), LINA (Laboratoire informatique de Nantes Atlantique), FRE CNRS 2729 (Établissements publics).
Domaine
Services & Usages
AAP
ANR
Résumé
Les blogs sont aujourd´hui au coeur de l´actualité : ils prennent une importance de plus en plus grande. Lus par une population de blogers qui représente assez bien la population globale, ils couvrent toute l´étendue de la production de l´information. Il s´agit d´un nouveau pouvoir informationnel qui est capable d´influencer les opinions des gens. Le but de ce projet est de développer des outils de surveillance des blogs qui permettent d´effectuer, automatiquement, deux tâches. La première est l´étude d´image. Elle veut créer une photographie de ce que pense le public d´une certaine personne, d'un organisme, etc. à un moment donné. La deuxième tâche est l´étude de tendance qui veut déterminer, par exemple, les sujets émergents, l´état d´humeur d´une certaine population, l´évolution des sentiments vis à vis d´une certaine personne, organisme, etc.
L´enjeu économique est important : les personnalités et les entreprises se soucient de leur image. Elles doivent donc se tenir au courant de l´évolution de celle-ci, et des sujets qui intéressent la population qu'ils ciblent pour s´adapter à leurs attentes.
Scientifiquement et techniquement, il existe principalement deux verrous. Le premier est la langue des sentiments qui est extrêmement complexe. Les outils développés analyseront le texte dans un premier temps du point de vue axiologique (succès a une valeur axiologique positive alors que échec a une valeur négative) et dans un deuxième temps selon la modalité du sentiment évoqué (colère, haine, amour, etc.).
Un autre point délicat est l´évaluation du pouvoir d´influence car il faut donner plus de poids à un blog qui a un pouvoir d'influence plus fort que les autres. Or la détermination de ce pouvoir d'influence est difficile. Des critères subjectifs comme le « sérieux » du site entrent en jeu et sont beaucoup plus difficiles à évaluer.
Objectif Général
Ce que nous espérons de ce projet est la mise en évidence de la possibilité de faire des études d’image et de tendance à partir des blogs. Cela implique la levée de 3 verrous technologiques importants : l’analyse automatique des sentiments à partir de textes, l’évaluation du pouvoir d’influence d’une source d’information et l’adaptation des outils de traitement automatique des langues à des natures de textes très divers.
Objectif Sectoriel
Deux applications sont donc visées dans le cadre de ce projet :
− L’analyse d’image sur les blogs : déterminer en quels termes les blogers parlent d’une marque, d’une personne, d’un discours, etc. Évaluer les sentiments autour de ces entités principalement en termes de négatif/positif et pour/contre, mais en qualifiant aussi plus précisément certains sentiments comme la colère, l’envie, la peur, l’attachement, etc. Un tel outil concerne les marques ou personnes désirant évaluer leur image à l’aide de blogs.
− L’analyse de tendances sur les blogs : quels sont les nouveaux thèmes de prédilection, qu’est-ce qui intéresse les gens, de quoi parle-t-on, qu’est-ce qui fait réagir et en quels termes ? Cet outil est intéressant pour des diffuseurs d’information qui peuvent adapter le contenu de leurs journaux, publicités, émissions, etc. en fonction des attentes de la population.
Il s’agit donc, dans les deux cas, d’utiliser les blogs pour faire du sondage automatique.
Contenus Technologiques
Enfin, l’intérêt scientifique du projet apparaît plus particulièrement dans les quatre verrous technologiques qu’il convient de lever : l’analyse d’humeur et de sentiment et l’évaluation du pouvoir d’influence d’une source d’information.
L’analyse d’humeur et de sentiment est un domaine en pleine expansion, en particulier au travers des notions de positif/négatif. Les applications sont multiples, non seulement pour l’analyse d’image, mais également pour les systèmes de dialogue automatique (accompagnement d’un internaute, jeux avec personnages virtuels, avatars, etc.) ou pour le filtrage (détection de débordements pour modération sur les forums, etc.). Dès lors, on peut typer des documents par rapport à leur sentiment, selon des axes utiles d’un point de vue marketing (positif, négatif, dubitatif,…), on peut aussi bien utiliser cela pour de l’extraction d’informations (text mining) de l’aide à la navigation (segmentation des réponses par rapport à ce critère, surtout si on peut coupler la proximité d’une marque ou d’une personne), etc.
Enjeux
Ce projet entre dans un mouvement très porteur. D’une part, les blogs prennent une importance de plus en plus grande. Tous les media en parlent et reprennent même de temps en temps des informations provenant de blogs, que ce soit pour leur caractère provocateur, original, novateur, etc. Les sociologues se penchent sur ce phénomène et beaucoup le prennent comme sujet d’étude.
D’autre part, la quantité de blogs et leur réactivité rendent possible des analyses en quasi temps réel.
Enfin, l’image est quelque chose de fondamental dans notre société. Toutes les personnes et toutes les entreprises pour lesquelles l’opinion du public est importante ont besoin de se tenir au courant de l’évolution de leur image, et des sujets qui intéressent la population qui les intéresse pour s’adapter à leurs attentes.
Nouveaux Produits/Services à Court/Moyen Terme
Les perspectives industrielles directes d’un tel système sont très importantes :
− Augmenter l’audience d’Over-blog : Il est indispensable pour nous de trouver des moyens de fidéliser l’audience existante et de faire connaître notre service pour sa qualité d’innovation aussi bien auprès des utilisateurs de blogs que des internautes. Être capable de dégager des humeurs, des intentions dans les contenus publiés par rapport à des thématiques nous permettra d’augmenter notre audience et notre nombre d’utilisateurs.
− Vendre les résultats des analyses à des instituts de sondage : Les instituts de sondage sont encore peu présents sur Internet et sont intéressés par recouper leurs informations avec de nombreuses autres sources. Étant donné le volume d’informations publiées chaque jour sur overblog, notre corpus représente une vraie valeur aux yeux de ces acteurs, à condition d’être capable de dégager et synthétiser. Ce service peut être commercialisé sous la forme de rapports.
− Vendre des indicateurs de tendance aux médias : Les groupes de medias et les médias indépendants nous ont déjà manifestés leurs volonté de mieux connaître les centres d’intérêts de leur lecteurs/auditeurs/téléspectateurs au jour le jour pour mieux orienter leurs programmations et les sujets qu’ils abordent. Il s’agit pour eux d’informations extrêmement stratégiques. Ce service au média peut facilement être commercialisé sous forme de rapports quotidiens, et données par région, par ville.
− Vendre des indicateurs de popularité et de ressentis à des marques/personnalités : Les annonceurs qui utilisent over-blog comme vecteur de communication sur Internet nous manifestent leur volonté de mieux connaître leurs clients, et de mieux connaître leurs goûts, souhaits, et surtout leur ressenti par rapport à un produit ou une marque. Nous souhaitons vendre à ces entreprises des indicateurs de notoriété et leur donner leur positionnement de popularité par rapport aux autres marques du même secteur. Ce service peut être commercialisé sous la forme d’abonnement, de rapports ponctuels, ou d’alertes.
Les perspectives indirectes sont également très importantes car l’économie de la plupart des grandes entreprises et le succès des personnages publics sont de plus en plus dépendants de l’humeur et des sentiments du public (application à d’autres media que les blogs). De plus, l’analyse automatique des sentiments est également très utile pour les industries des jeux (interaction avec un personnage virtuel) ainsi que pour les systèmes de hot-line automatique.
Principes Structurants
Le principe théorique qui préexiste à la détection automatique d’humeur, c’est-à-dire la qualification d’opinions subjectives positives ou négatives, correspond à une Analyse du Discours – AD –. Traditionnellement, les problématiques liées à l’AD s’articulent autour de deux objectifs
Maingueneau 1995?. Il s’agit en premier lieu d’identifier la spécificité du discours étudié (par la mise en évidence possible d’éléments discursifs, de traits caractérisant l’identité discursive)
Charaudeau 2005? ; il s’agit également, à partir des résultats obtenus, de formuler des hypothèses interprétatives portant sur la pratique humaine qui sous-tend le discours étudié. Ces deux objectifs exigent simultanément la mise en oeuvre d’outils linguistiques et la mobilisation d’une approche théorique susceptible de rendre compte de la production et de l’interprétation du sens discursif co- et contextuel. Une telle approche s’articule donc nécessairement à un modèle sémantique capable de rendre compte du potentiel discursif des entités linguistiques mobilisées, modèle généralement non explicité. C’est pourquoi le LINA a recours au modèle théorique de l’Analyse Linguistique du Discours – ALD –. A l’interface entre la sémantique lexicale et l’AD, ce modèle est conçu comme le repérage et l’étude des mécanismes sémantico-discursifs et pragmatico-discursifs de production et d’interprétation du sens
Galatanu 2002? et permet à ce titre de rendre compte de deux formes de subjectivité, lexicale et discursive.
Retour