Le territoire étudié

Le territoire étudié

Résumé : Cet article a pour but par des techniques de tex-mining d’explorer les différences de production langagière dans différentes classes d’hôtel de l’espace de la pôlynésie françaises. Les différences observées contribuent à une réflexion sur la production de contenu dans les plateformes alimentée par le crowdsourcing et aux méthodes à employer pour exploiter à fin d’étude ces corpus importants.

mots-clés : textmining, Analyse de sentiment, Hospitalité, Hôtel, UGC, Avis, Note, Marketing, Consommateur, Plateforme

Abstract : The purpose of this article is to explore the differences in language production in different hotel classes in the French polynesia space through tex-mining techniques. The differences observed contribute to a crowdsourced reflection on the production of content in plateforms and the methods to be used to exploit these important corpuses for study purposes.

Keyword : Textmining,Sentiment Analysis, Hospitality, UGC, Rating and reviews, Marketing, Consumer, Platform, LDA, LSA, TSNE

Introduction

Les plateformes de contenus collaboratives sont désormais bien installées dans le paysage et jouent un rôle désormais central dans l’économie du tourisme. Dans le secteur de l’hôtellerie, TripAdvisor par l’étendue de sa couverture et la densité des commentaires, s’est taillé une place de choix. Ce n’est pas la seule, des plateformes comme Booking.com ou Airbnb sont des acteurs de premier plan qui concentrent une grande part des réservations. ( des chiffres à trouver)

La particularité de ces dispositifs est que même si la plateforme détient des outils pour orienter la nature et la tonalité des contenus ( formulaires, boutons), qu’elle en maitrise la projection par ses outils de classement, de tri, de recommandation, ce sont les flux de populations qui fabriquent collectivement le contenu.

On peut dès lors faire l’hypothèse d’une segmentation de ces populations. Dans une forme très simplifiée, le modèle est celui de deux populations qui diffèrent en capital mais aussi en compétences. Les mieux dotés savent mieux parler de leur sujet que les autres, et valorisent ainsi mieux leur capital. Une telle situation devrait conduire à une certaine polarisation du marché.

C’est cette hypothèse qu’on souhaite explorer dans cette communication en comparant systématiquement la production langagière des populations de différentes catégories d’hôtels. Ceux-ci ne diffèrent pas seulement pas leurs standings et leurs équipents mais aussi par la composition de leur clientèle qui participent à l’expériences des hotes. Etre auprès de stars n’a pas la même valeur que de partager un hotel des des toxicos et des prostituées? Dans allez dans cette polarité imaginaire, on peut cependant considérer que les différences des visiteurs de hotels familiaux et des hotels de luxe peeuvent ep^tre marqué dans la production de commentaire. par les sujet et par le style.

en polynésie. Ce terrain présente des avantages : c’est une région isolée du monde qu’on peut bien circonscrire qui s’étend sur une vaste étendue, le tourisme y est l’activité la plus importante représenat 10% du PIB (et 300 000 personnes), la segmentation du marché est prononcé avec des hotels de très grand luxe - le Brando à plusieurs milliers euros la nuit, et de l’hébergement familial (les pensions). Le potentiel représente 220 établissements et 4000 lits (?à vérifier)

En comparant systématiquement ce que les gens disent et comment ils le disent, nous souhaitons tester l’hypothèse d’une certaine polarisation. Là ont sont les ressources, elles sont aussi langagière, ceux qui fréquentent les établissements plus luxeurx seraient aussi, en moynne, ceux qui en savent parler le mieux, à la qualité de la prestation, de l’expérience, s’ajoute la qualité de l’expression.

Elle est modérée par une logique de l’effort de de l’engagement. On s’attend que dans les établissement les plus modestes, de moindres ressources conduisent à exploiter plus les ressources disponibles, dont celles de la parole des clients.

Prendre en compte les qualités discursives des clients dans les plateformes d’avis, c’est non seulement contribuer à une sociologie du langage, mais aussi de l’intimité du fonctionnement des plateformes, et de l’universalité des mécanismes de renforcement des inégalités. Dans un monde collaboratif, la structuration de ce monde dépend largement de la capacité à maitriser le langage. Elle s’inscrit dans une perspective dont Šuster (2015) donne un excellent exemple en étudiant la qualité du langage dans Wow et en le comparant à la langue standard ou plus spécificiquement Hu and Chen (2016) dans le domaines de l’hotellerie où le même type d’indicateur est employé pour modéliser le “helpfullness” des avis de consommateurs.

notre perspective est celle de la production et l’hypothèse que nous souhations tester est qu’au sein d’une population de contributeurs, on peut distinguer des différences dans la qualité de la production, des différences sociales.

Si l’hypthèse passe le test empirique, nous aurions la démonstration que la qualité de la production peut être controlées : soit par des politique d’empowerment qui se concentrant sur les moins habiles leur proposent des méthodes d’amélioration de la qualité de leur production ( ne serait-ce que par des modèles types), où par une politique de selection.(mise en avant des contenus scorés comme les plus lisibles, les plus riches ou les plus pertinents)

Revue de littérature

Le point de départ de notre analyse est une pratique désormais institutionnalisée celle du crowdsourcing comme pratique et comme système. Nous aurons à en donner une synthèse des travaux et des avancées.

Les Notes et avis font désormais l’objet d’une littérature très abondante, nous aurons donc à en donner un synthèse qui rappele les principaux concepts, et les principaux résultats empiriques.

Si le point de vue individuel, micro economique et psychologique est favorisé, nous devons rester attentif aux mouvement des populations, les notions de l’écologie des populations peuvent à ce propos être utiles. La production de contenu est une affaire collective, le résultat de la confrontation des populations et des flux qu’elles génèrent. La fameuse expérience de facebook (Kramer, Guillory, and Hancock (2014) ) sur la contagion des émotions en est en quelque sorte le modèle fondateur : en manipulant le feed de près de 700 000 comptes par un contrôle des contenus positifs et négatifs, les chercheurs de facebook démontrent qu’on peut affecter la production des participants à la fois en volume et en qualité, ne serait-ce que de manière marginale.

crowdsourcing

Les comparateurs, et a fortiori les plateformes de réservations s’appuient sur une ressources précieuses : les notes et les commentaires de leurs clients. Elle participent à ce mouvement du crowd sourcing dont Jeff Howes1 a popularisé l’émergence.

Une vaste litérature s’est constituée et on dispose de nombreuses synthèses : (???)

Le crowdsourding doit être abordé comme un processus dont le schéma général2 est représenté dans la figure 1. Les contenus produits dépendent naturellement de l’expérience vécue par les consommateurs qui les motivent plus ou à moins à partager leur émotion (1) dont une partie s’exprime sur les plateformes (2).

Le degré de participation est une question importante, on réalise désormais qu’il est généralement faible, et dépend largement de l’effort requis par la tâche (pour 10 vue un like, pour 10 like, un commentaire). Ce contenu cependant peut être troublé par des informations mensongères (3) produites par les gérants des établissements pour corriger une fiche qu’ils trouveraient pas assez attractive, d’agences spécialisées dans les techniques de marketing furtif, de trolls (ref) ou de toutes autres formes de hacking.

Cette production fait l’objet d’une part de modération de plus en plus sévère; (elle occupe 300 personnes chez tripadvisor qui accumule 700 000 000 d’avis.voir.

Ce contenu est exposé aux travers des requêtes de manière organisée généralement pas des tri ( par prix, notes…) ou de manière plus sophistiquée par des moteurs de recommandation. Elle permettent de classer(), de trier(), de recommander(). L’agrégation des contenus peut suivre des règles particulières, par exemple présenter en parallèle des contenus positifs et négatifs, ou les classer selon un critère calculé de pertinence.

Ces informations, renforcées ou non par la réaction de tièrces parties, possèdent pour les consommateurs un degré plus ou important de crédibilité et de validité (6). C’est ce qui affecte les décisions de choix (8) ce qui en retour à la fois affecte le contenu (quand les sujets prennent la décision de le partagé) mais aussi l’expérience qu’ils vont éprouver.

On est donc fasse à un processus technico-social, qui se constitue dans une boucle de feed back doublement contrôlée par l’engagement des acteurs, les affordances et les contrôles du système. Il convidendra naturellement d’être critiques quant auxc résultats observables et de s’interroger sur la validité de telles informations, même s’il semble nécessaire de s’intéresser aux moyens qu’on peut employer pour les rendre intelligibles et candidates pour tester les hypothèses de la science.

Si l’uGC est potentiellement un facteur d’influences des choix, il est aussi un produit dont les consommateurs sont les acteurs. Il devient aujourd’hui important de comprendre quels sont les processus qui en régule la production.

Le processus des notes et avis de consommateur

Le processus des notes et avis de consommateur

reviews and rating

Une littérature étendue qui converge vers l’hypothèse de la binarisation du jugement. des affordances, des adaptations…..

  • commence avec les notes surtout dans les films (années 2002)

  • Alimentée par une production importante dans le champs de l’informatique et de la linguistique, les application de l’analyse du sentiment et d’autres techniques moderne d’analyse textuelle émerge au virage des années 2007 avec des travaux spécifique tels ceux de Pekar and Shiyan Ou (2008) . émergence plus récente dans la littérature Si et marketing avec quelques exceptions comme

  • la question des notes. Les notes se sont tuées par elle même et deviennent binaire comme Ordenes et al. (2017) en rend compte précisement. Un vieil article de one monday sur la signification du like avait parfaitement posé le problème ( Eranti and Lonkila (2015) ), ce qui importe est quel rapport social des noteurs établissent avec le système de notation.

La production des population

Des plateformes comme TripAdvisor ne sont pas que des aggrégateurs de contenu, ce sont des espaces dans lesquelles les populations interéagissent : les hôteliers, leurs hôtes, touristes locaux ou internationaux. Et ce qu’elles offrent, c’est le produit de ces interations.

L’illustration de ces interactions est une analyse des éffets de sélection remarquable : Les déçus ne revienennent pas et s’ils donnent un avis c’est por se plaindre ou se venger, il ne le feront qu’une fois. Les clients heureux et motivé pour partager leurs émotions on toute les chance de rétirer l’expérience et le commentaire de l’expérience. Ils publierons plusieurs fois. Mêmle si ces deux population sont égales en importance, on comprend qu’on trouvera 2 ou 3 fois plus de commentaires positifs. Alors que les populations sont en proportion égales, l’une d’elle contribue de manière très inégale à la population des commentaires. On ne peut exclure d’autre processus du même ordre et on doit considérer que le produit des populations n’en reflète pas la composition.

Un aspect peu étudié est l’hétérogéneité des populations qui participent à la production des contenus même si on notera (???) (???) et (???). Cette hétérogénéité a plusieurs sources :

  • la propension à s’exprimer et à participer. se distribue-elle de manière égale entre les pros et les contres ?
  • la segmentation du marché et des expériences ( certains vont dans des hotels chers et d’autres moins chers)
  • les aléas climatique et environnementaux

Dans le cas de l’hôtellerie des compétences inégalement distribuées notamment dans le marketing :

  • des compétences langagières différenciées.
  • un effort plus ou moins importants. *…

Les hypothèses à tester

L’hypothèse générale que l’on va tester est de savoir si le langage et les sentiments exprimés diffèrent d’une catégorie d’hôtel à l’autre. Plusieurs arguments l’animent :

En comparant sur différents critères

Méthodologie

l’objectif est de réaliser une analyse du sentiment et de comparer les production textuelles des population de clients des hotels de luxe et des hotels populaires(il faut des reférences pour cette catégorisation).

On utilisant les ressources de utilisation de quanteda ((???)), tidyverse, cleanNPL …

Ces approches sont alimentée largement par les computer siences et la linguistique. Cependant le marketing et les sciences du consommateur commencent à s’en approcher, on lira avec attention Humphreys and Wang (2018) à ce sujet.

Préparation du corpus

L’objectif est de produire un certains nombre d’indicateurs pour comparer de manière systématique les différentes catégories de critères. Le corpus initial a été constitué par un essai de scrapping des fiches “avis de consommateur” du site tripadvisor. 12500 contenus uniques ont été moisonnés, on les associe aux hôtels et à leurs caractéristiques qui font l’objet de ces commentaires. On a employé Rvest, le code est disponible sur demande, il est en cours d’amélioration.

Le nombre de nouveaux commentaire par année est la suivante (2018 est sur 6 mois, on se gardera de conclure à un renversement de tendance, mais plus à une stabilisation autour des 1800 par mois). Par la suite on regroupe les années avant 2011 (inclus) dans une catégorie 2011.

evol <- with(dupBase, table(year2))
evol<-as.data.frame(evol)
evol$year2<-as.factor(evol$year2)
ggplot(evol,aes(x=year2, y=Freq))+geom_bar(stat="identity")+theme_minimal()

création du corpus

un champs texte et un dataframe de variables complémentaires constitue le Corpus (au sens de quanteda)

Corpus<-corpus(dupBase,text_field="text") #corpus de base qui sera filtré

Tokenisation du corpus

la tokenisation consiste à definir les unités de base. Nous retiendrons les mots et certains ngrams, mais ce peuvent être des syllabes, des ngrams, des phrases, des paragraphe, voir toute autre unité de langage qu’on trouve pertinente. Un document est constitué d’unités qui pourront être qualifiées en fonction de leur valeur lexicale ou syntaxique.

On en profite pour nettoyer le texte de la ponctuation, des nombres, des symboles, des séparateurs, et des stop words. La fonction kwic permet d’identifier les textes associés à un terme cible. C’est un bon moyen de comprendre qualitativement ce dont on parle. Un moyen simple de remettre les mots dans leur contexte.

toks <- tokens(Corpus, what="word",remove_punct = TRUE,remove_numbers = TRUE,
  remove_symbols = TRUE, remove_separators = TRUE,
  remove_twitter = TRUE, remove_hyphens = TRUE, remove_url = TRUE,
  ngrams = 1:2, skip = 0L, concatenator = "_") 
toks<- tokens_remove(toks, stopwords('french'), valuetype = 'fixed', padding = TRUE)

#key words 
kw <- kwic(toks, pattern =  'Moorea')
head(kw, 7)
##                                                     
##    [90, 4]                     Week end a | moorea |
##   [90, 47]               ptits spot sympa | Moorea |
##  [311, 10] coupe d'Europe France Portugal | Moorea |
##  [312, 10]              Belle plage lagon | Moorea |
##   [349, 6]        Fuyez pires malhonnetes | Moorea |
##  [713, 52]                   plus semaine | Moorea |
##  [716, 86]       d'une nuit avant d'aller | Moorea |
##                              
##  Séjour agréable passée      
##   aucun Plus Week_end end_a  
##   vu résultat                
##  super beau verrez           
##   louais maison              
##   voyage n'oublierai         
##   Procurent précieux services

Cette solution est d’autant plus utile qu’elle propose une fonction qui calcule la vraisemblance de certains bi ou trigrammes d’être en fait des expressions composées qu’on tiendra pour un seul token, par la technique de la collocation.

  • count : le nombre de fois où les deux mots sont consécutifs
  • length : longueur de la collocation
  • lambda : paramètre d’un modèle log linéraire. Le lambda calculé pour une cible de K mots, est le coefficient de l’interaction d’ordre K dans un modèle log-lineaire saturé ajusté au comptage des termes qui forme l’expression multi mots. Il indique l’intensité de l’association spécifique (par exemple le nombre d’expression " chat noir) est bien plus élevé que la somme des expressions de chat et de celle de noir, il y a interaction. This is the same as the “lambda” computed in Blaheta and Johnson’s (2001), where all multi-word expressions are considered (rather than just verbs, as in that paper).
  • z : statistique de significance une statistique de Ward ( lambda/seLambda).

La dernière ligne de code permet d’ajouter au fichier des tokens les multigrammes (mots composés) après avoir pris la décision de choisir le critère lambda supérieur à supérieur à 7. Nos unités sont désormais constituées de mots et d’une sélection d’expressions composées.

col <- toks %>% 
       tokens_remove(c(" ")) %>% 
       textstat_collocations(min_count = 100,size=2, tolower = FALSE)

head(col,8)
##                collocation count count_nested length   lambda        z
## 1                Bora Bora  2444            0      2 6.671647 194.7801
## 2           petit déjeuner  2116            0      2 8.812591 159.8322
## 3       et_nous nous_avons  1218            0      2 6.378895 145.7850
## 4                très bien  1501            0      2 4.432655 137.8136
## 5                 il_y y_a   920            0      2 7.856591 134.1626
## 6                 Il_y y_a  1027            0      2 8.567936 129.3158
## 7 bungalow_sur sur_pilotis   822            0      2 8.352632 127.9084
## 8   Nous_avons avons_passé  1061            0      2 6.356647 125.7267
toks <- tokens_compound(toks, pattern = col[col$lambda > 7])

création d’un document feature matrix (dfm).

Dénommé ainsi comme évolution des “documents terms matrix” (dtm)" dans le style de tmle package historique du traitement textuel. Il est le coeur de l’analyse textuelle en croisant les documents et ses éléments constitutifs.

Dans notre cas nous disposons de 11378 documents et de 24911 features. Ce tableau est naturellement vide avec un taux de sparcity de 0.9972 %.

On peut analyser de manière brute la distribution des termes. Les plus fréquent ne sont pas les plus informatifs et il faudra filtrer, c’est ce qui est fait dans la partie droite de la figure en ne retenant que ceux dont la fréquence est inférieure à 6200 ce qui élimine les “stop word” ( article, pronoms, conjonction).

df<-dfm(Corpus)
ndoc(df)
## [1] 11378
nfeat(df)
## [1] 24911
sparsity(df)
## [1] 0.9971791
cf<-as.data.frame(topfeatures(df, n = 80, decreasing = TRUE, scheme = c("count","docfreq"), groups = NULL))
cf$term<-row.names(cf)
cf$frequence<-cf[,1]

g05<-ggplot(cf,aes(x=reorder(term,frequence),y=frequence))+geom_point()+coord_flip()+theme_minimal()+theme(text = element_text(size=9))+ labs(title = "Fréquences des termes (par ordre décroissant", x="terms", y="fréquence")

cf<-subset(cf, frequence<6200)
g06<-ggplot(cf,aes(x=reorder(term,frequence),y=frequence))+geom_point()+coord_flip()+theme_minimal()+theme(text = element_text(size=9))+ labs(title = "Fréquences des termes (par ordre décroissant", x="terms", y="fréquence")

grid.arrange(g05,g06,ncol=2) #utilise gridextra