Un exemple d'Analyse ANACIP

Une étude des avis de clients d'hôtels

Caribbean hotel Voici un exemple tronqué et fictif (en fait on a puisé dans plusieurs dossiers en les mélangeant) d’une analyse ANACIP des       fiches de clients telles qu’on les trouve dans les sites de réservations comme Tripadvisor, Booking.com…   
   Nous suivrons dans cet exemple le cheminement exposé dans la rubrique du site appelée : Le Coin Théorique : les trois   étapes   propres à l’analyse de langage et sémantique, et l’étape du croisement avec l’analyse de l’environnement : les indices   de   langage.

  1.   L’analyse lexicale : les MOTS

  NOTE : Il faut répéter qu’ANACIP ne prétend pas comprendre notre langage mais seulement des langages délimités par un sujet précis.

 

Nous l’utilisons depuis des décennies pour analyser le langage des clients et des collaborateurs des entreprises.
Dans les études qualitatives non répétitives, ANACIP n’est sollicité que dans sa première partie : l’apprentissage du langage   étudié, sans chercher à atteindre l’exhaustivité, comme un outil d’analyse sémantique simple.

Nous avons extrait 27 fiches au hasard de plusieurs avis d’hôtels différents et trouvé dans un premier temps, un listing de 946 mots différents (on dit aussi Termes) dans un corpus de 2464 mots différents (on dit Occurrences des mots) soit une redondance de : Termes/Occurrences = 38%. On peut dans l’autre sens dire que le langage moyen des clients répète les mêmes mots 2,6 fois en moyenne.
Par ailleurs 68% des termes soit 67% des mots du lexique ne sont dits qu’une seule fois. Techniquement on appelle ces mots des Hapaks et dans une étude ANACIP automatique, ils devraient totalement disparaître ce qui signifierait que l’analyse porte bien sur toutes les façons possibles d’exprimer les thèmes. Le moment fatidique et agréable où nous constatons que les nouvelles fiches n’apportent rien de nouveau en termes de mots différents.
En bref, plus l’échantillon analysé est grand plus ce chiffre diminue. C’est le rôle de l’analyste responsable d’une étude de veiller par une maintenance régulière que le logiciel n’oublie pas des codages, et ainsi d’en améliorer sans cesse les performances.

 

est    44                                             

pas    39                                        

pour    35                                    

chambre    33                                  

 les    32                                  

dans    31                                

 hôtel    29                              

une    29                              

très    27                            

mais    22                       

que    22                        

je    20                     

qui    20                     

petit    18                   

déjeuner    16                 

était    16                 

bien    15                

nuit    15                

 peu    15                 

qu’    14               

 

 

On comprend tout de suite pourquoi nous disons que l’étape lexicale est peu intéressante pour le client, mais elle l’est pour l’analyste car elle lui permet de ne pas rater des éléments importants, en le guidant dans l’étape suivante pour passer du lexique vers la thématique.
On voit tout de suite que certains mots ont peu de chances d’être porteurs d’un sens significatif pour le langage de l’entreprise, ce sont les mots-outils, les pronoms, adverbes et autres…
Mais attention à ne pas généraliser. Par exemple dans l’étude du langage des clients d’hôtels les pronoms n’ont pas d’importance, on peut éliminer les Je, Nous… alors que dans l’analyse des discours politiques (on le voit avec les discours de notre président) ces mots sont parmi les  plus importants : on les appelle mots-clés.

Ici nous avons écrit en rouge, les mots que l’analyste va conserver pour le guider dans la suite de l’analyse sémantique. Il ne faut pas hésiter à prendre trop de mots car c’est l’ordinateur qui va travailler et nous dire, plus tard que tel ou tel mot était inutile.
L’analyste ne doit pas perdre de vue l’essentiel qui est la demande du client : il veut des informations claires qui vont lui permettre de devenir plus efficaces dans ses actions commerciales.

  1.  L’analyse thématique : découverte des thèmes et regroupements

On entend souvent certaines personnes dire que deux individus parlent le même langage car ils utilisent les mêmes mots. C’est tout à fait faux, comme on va le voir.
On devrait dire que deux personnes parlent le même langage quand ils utilisent les mêmes mots, dans les mêmes contextes et avec les mêmes significations. Et là on est contraint d’affirmer que, au contraire,  chacun de nous possède son propre langage.

Pratique pour communiquer !


Avec les thèmes on aborde un autre volet d’une analyse textuelle : le sens des mots, la sémantique.

On a vu déjà qu’en listant des phrases dans lesquelles tel ou tel mot figure, on a une idée du sens ou des sens que ce mot peut avoir.

Alors qu’est-ce qu’un thème ? Un ensemble de mots et expressions ayant des similitudes de comportements importantes. Par exemple si on étudie le nom des personnes : père, mère, fils et fille pourront se regrouper dans le thème NOM DES MEMBRES D’UNE FAMILLE. Mais alors que l’ordinateur ne connaît qu’une façon de comptabiliser les mots, il existe de multiples façons de découvrir les thèmes.

Et c’est à ce moment que l’on fait entrer le loup dans la bergerie : l’interprétation dans l’analyse. Nous avons toutefois découvert une solution relativement satisfaisante grâce aux découvertes de la grammaire générative de Chomsky : . Où l’on voit qu’on peut mettre les mots père ou mère indifféremment dans la phrase « Le père (la mère) X… gronde son fils car… ». C’est le travail de l’ordinateur de nous donner une thématique qui tient la route.

Ainsi on peut penser découvrir une thématique acceptable à partir des mots et expressions les plus fréquentes qu’on appellera MOTS-CLES. En voici ci-dessous quelques uns pour les 3 discours du président Macron.


L’analyse thématique est toujours un peu arbitraire, je veux dire par là qu’à un moment il faut faire un choix et décider comment construire et nommer les thèmes. Pour revenir à l’exemple ci-dessus les noms des rôles dans la famille peuvent se subdiviser en deux groupes : les parents (père, mère) et les enfants (fils, fille) car pour certaines phrases ils ne sont pas substituables.

Pour contourner cette difficulté et diminuer les interprétations et décisions arbitraires, nous avons trois façons de procéder :

-a) tout d’abord de garder le plus de thèmes possible dans un premier temps en regroupant le moins possible, en laissant dans un second temps et après une première analyse, la décision de regrouper ou non les thèmes litigieux. Si les thèmes séparés ont les mêmes comportements, alors on peut regrouper sinon il faut s’abstenir.
- b) dans les cas où un ou plusieurs thèmes n’ont que très peu d’occurrences, il est inutile de les leur laisser un code car ils disparaîtront par la suite dans les résultats : alors on regroupe
- c) et enfin la meilleure solution sera de faire ce travail en partie avec le client, car la décision devient alors collective et ne sera pas contestée par la suite.

On le comprend : la création de la thématique est le moment le plus important et le plus délicat d’une étude ANACIP. Car, plus tard, l’automatisme fonctionnera avec ces règles.

Fort heureusement on a des procédures permettant de tester des regroupements différents et de voir lequel donne les résultats les plus exploitables pour nos clients.

Ici on obtient pour l’hôtel des thèmes tels que : l’hôtel en général, la chambre, la salle de bain, le petit-déjeuner, la vue extérieure, l’accueil des collaborateurs…etc.

Une fois les thèmes définis et décidés, on fait les valises, c’est-à-dire qu’on remplit chaque thème avec les mots et expressions retenus précédemment.
C’est ainsi que dans la phrase automatique à la 2ème ou 3ème étude le logiciel pourra travailler seul car pour chaque partie des textes il ira les cherche chercher dans les valises et les codera s’il les trouve. Et s’il ne les trouve pas il les mettra de côté dans une poubelle provisoire en attendant l’analyste humain qui décidera du sort des mots inconnus.
ANACIP est dans l’air du temps : pas de gaspillage de mots, il ne jette rien !!

 

  1. L’analyse syntaxique et les cartes mentales 

Nous ne le dirons jamais assez : connaître les mots et expressions des textes étudiés, connaitre les différents thèmes présents, c’est bien mais très insuffisant. Car nous avons décomposé l’ensemble des phrases d’un texte en petits morceaux et le sens est presque perdu, morcelé. On ne voit plus l’ensemble de ce qui est dit.

Car ce que les personnes interrogées ont voulu dire se niche dans leurs phrases. Ce sont les phrases qui vont nous donner le sens des mots, expressions et le sens réel des thèmes en fonction de la définition de la sémantique empruntée à Wittgenstein : le sens d’un mot est donné par son contexte. Sous-entendu : et pas par sa définition.
Si je veux savoir ce que vous dites quand vous parlez de démocratie, je vous fais parler autour de ce thème, j’enregistre, et j’analyse vos phrases ; alors, j’en saurai beaucoup plus que si je vous demande votre définition du terme.  « Qu’entendez-vous par là ? »
Car là vous me diriez des banalités, et surtout vous me diriez ce que vous pensez qui’l faut de répondre à quelqu’un qui vous pose cette question comme ça.
Avec notre façon de procéder on en sait souvent plus que celui qui a parlé lui-même.
Mais ceci est une autre histoire !

L’analyse syntaxique ne pourrait se faire sans ordinateur car elle travaille en calculant tous les couples de thèmes présents dans une étude, elle les classe par ordre décroissant et pour éclaire nos esprits les dessinent avec un graphe faisant apparaître en une seule image tous les résultats les plus importants. Voici un graphe verbal, en fait on peut dire aussi graphe mental de notre hôtel (résultat faux bien  sûr).

 

Graphe hotel

L’analyse d’un graphe n’est pas plus aisée que l’analyse d’une radiographie de nos poumons, mais le spécialiste voit rapidement ce qu’il faut voir pour son client.

Quelques perches pour vous aider à comprendre comment ça fonctionne. Les thèmes en rouge sont en fait ce qu’on appelle les Grands  Thèmes (Regroupement de thèmes) ; ici on les appelle les thèmes noyaux, car ce sont ceux qui ont le plus grand nombre de liens avec les autres thèmes. Ce sont les piliers du langage, quasiment inamovibles. On comprend alors la détresse de certains clients qui voient en noyaux les thèmes exacts qu’ils ne voulaient pas voir dans le langage de leurs clients. Comme ici le grand thème « Opinion Négative ».

C’est à partir de ces graphes que le client peut aller chercher les citations concrètes des personnes interrogées. On peut cliquer sur un lien et les faire apparaître.

 

  1. L’analyse pragmatique et les indices de langage

Jusqu’à présent, toutes les analyses ont porté sur le texte lui-même, sans tenir compte de ses diverses différences de sens possible, selon les circonstances.
Cela suffit pour nous donner beaucoup d’informations capitales pour les utilisateurs, mais il leur manque encore toutes les informations présentes dans les comparaisons de ces résultats selon les sous-ensembles prédéfinis.

On a vu que le sens des mots et thèmes dépendaient en partie des autres mots présents en même temps dans les mêmes phrases, c’est le contexte linguistique.

Le contexte pragmatique est tout aussi important car il donne de nouveaux résultats, comme :
- le langage selon les catégories de personnes : âge, sexe, région, secteur de vente…
- selon la fréquence des achats : les acheteurs fidèles, occasionnels, les non acheteurs, les anciens acheteurs…ou chez les médecins : les prescripteurs réguliers, occasionnels, et les non-prescripteurs,
- comparaisons selon la nature du texte : livre, article, propos impromptus (de plus en plus importants avec réseaux sociaux et les Smartphones débridés)
- comparaisons du langage de notre client avec celui de la concurrence. Par exemple dans le médical nous étudierons surtout des classes de médicaments, et les résultats doivent être comparés entre les différents produits de la classe…etc.

Bref, tous ces paramètres qui ajoutent du sens à l’étude peuvent être en nombre quasi illimité, car, répétons-le : c’est l’ordinateur qui travaille. Par exemple dans les fiches clients d’hôtels on peut comparer selon la source (TripAdvisor, Booking.com), selon le lieu de l’hôtel (Paris, Grandes villes, Province…), selon son appartenance (Indépendant, appartenant à une Chaine), selon sa catégorie, selon qu’il possède aussi un restaurant ou non…etc.
Tout ces critères multiplient les tableaux et les axes de  comparaisons, mais enrichissent la qualité des infos donnés aux clients hôteliers.

C’est ici qu’apparaissant les indices de langage. De quoi s’agit-il ? De rapport entre divers thèmes qui donne immédiatement une idée simple de la situation.
Les principaux, connus de tout le monde, sont les indices de satisfaction, ou le rapport entre le nombre de mentions de satisfaction / mentions d’insatisfaction qui doit être et rester leplus positif que possible, mais aussi ces mêmes rapports pour des parties de l’étude : par exemple : la chambre, les prix, l’accueil. Le graphe ci-dessous a montré que l’on pouvait être content des prix mais mécontent de tout le reste…etc. Les indice de satisfaction appelés aussi indice de bonne santé sont très variés d’une étude à l’autre. Mais, ils peuvent être trompeurs. En effet quand on croise l’importance de la satisfaction avec le volume ou la fréquence d’achat on peut trouver que les deux indices ne conscient pas toujours.

D’autres indices plus techniques donnent des renseignements précieux bien que totalement invisibles au regard des lecteurs non initiés, et même parfois des initiés. Par exemple les indices de richesse : richesse de vocabulaire, variété d’opinions…
Rapport entre la présence de certains thèmes et d’autres. Par exemple dans le médical nous avons l’habitude de mesure le rapport entre les mentions concrètes telles que les thèmes Malade, Indications et Posologie sur l’ensemble d’un entretien individuel, rapport qui nous donne un aperçu très précis de la position en tant que prescripteur, et au passage qui nous dévoile si le locuteur dit vrai ou nous ment quand il dit prescrire.

C’est dans ces indices, différents selon la nature du client, que nous aboutissons à une des forces principales des études sémantiques : être capables de nous donner ce qui n’était pas toujours demandé au départ :
- si la personne qui a parlé était incère ou non,
- comment elle évoluera dans le temps si aucune influence ne vient la changer.

Ce n’est pas de la magie mais la science sémantique des études privilégiant le langage sur les idées, et n’interprétant pas ce qu’elle doit analyser.

Nos études rapportent aux clients ce qu’ils disent, comment ils le disent, et ce que cela semble augurer comme changement, avec en prime comment leur parler dorénavant pour les atteindre et les amener à venir vers nous plus souvent, mais ne nous disent rien de ce qui se cacherait derrière leurs mots. Nous laissons cela aux grands interprétateurs que sont les psychologues de toutes sortes, même ceux qui se cachent sous des noms séducteurs comme coach, développeurs…

ANACIP est un outil sémantique et informatisé, proche de l’Intelligence Artificielle quand on le voit coder un texte comme, et mieux même que nous-mêmes, et que le client peut trouver dans le dossier des résultats tout ce qu’il lui faut pour agir aussitôt, et améliorer ses ventes ou seulement ses communications.

Aucune note. Soyez le premier à attribuer une note !

Commentaires (1)

Pierre RAYNAUD
  • 1. Pierre RAYNAUD (site web) | 20/01/2019
Beaucoup de texte, ne peut-on pas faire une vidéo de tout ça ?

Ajouter un commentaire

 

Date de dernière mise à jour : 26/04/2019