L'analyse en cartes associatives
Problématique
Dans une grande entreprise française, on a demandé aux employés, cadres et subalternes, de décrire le « collaborateur idéal » en une dizaine de mots ou courtes phrases spontanément produites.
On cherche :
- à étudier les liens associatifs entre les mots produits : certains mots ont-ils tendance à être produits ensemble, pour un répondant donné ? Peut-on identifier des registres sémantiques généraux ? Y a-t-il une carte sémantique de consensus sur le thème exploré ?
- à étudier des positionnements typiques de classes d'individus (cadres, collaborateurs). Certains groupes de sujets utilisent-ils plus souvent certains registres ?
Après les entretiens, on fait la liste exhaustive des mots et phrases produites par tous les répondants. On procède à des regroupements sémantiques si nécessaire. Exemple : « compréhensif » et « compréhension » formeront une même entrée. On recode ensuite les réponses dans un tableau ou, à côté des descripteurs de répondants (identifiant de sujet, statut dans l'entreprise, sexe et âge), on reporte la présence d'une réponse par un 1 (ou son absence par un 0) dans la colonne spécifique d'un mot ou d'une expression :
Sujet | Statut | Sexe | Age | Compétent | Diplomate | ... | Calme |
---|---|---|---|---|---|---|---|
s1 | Cadre | M | 25 | 1 | 1 | 0 | |
s2 | Cadre | F | 54 | 0 | 1 | 0 | |
... | |||||||
s74 | Collab. | F | 33 | 1 | 1 | 1 |
Dans ce tableau, on voit par exemple que le sujet 1 est un cadre de 25 ans, de sexe masculin, et qu'il a décrit le collaborateur idéal comme quelqu'un de compétent et diplomate (notamment), mais qu'il n'a pas utilisé le mot « calme » (si une colonne « calme » apparaît, c'est néanmoins que ce mot a été utilisé par d'autres répondants).
Cette double problématique de l'extraction d'une carte sémantique latente (potentiellement inconsciente), et d'un positionnement de classes d'individus, se rencontre très souvent dans les situations d'enquêtes ou d'entretiens. La nature des données collectées dans ces situations est fondamentalement qualitative et elles doivent être traitées avec des méthodes appropriées.
L'indice d'association de Jaccard
Dans ce contexte, on essaie de détecter des associations sémantiques : existe-t-il des mots ou expressions qui ont tendance à être produits conjointement dans les témoignages des sujets interrogés ? A partir du tableau précédent, on peut compter pour chaque paire de mots/expressions possible combien de fois elles sont apparues ensemble ou non dans les témoignages des personnes. Ces comptages conjoints renseignent sur la force de l'association entre ces unités. Par exemple, dans cette étude, les co-apparitions des réponses « Compétent » et « Respect », comme qualités invoquées d'un manager, sont résumées dans le tableau ci-dessous :
Compétent / Respect | Absent | Présent |
---|---|---|
Absent | $n_{00}=55$ | $n_{01}=4$ |
Présent | $n_{10}=12$ | $n_{11}=3$ |
On calcule la force de l'association entre les deux unités sémantiques en comptant combien de fois elles sont apparues ensemble, sur l'ensemble des cas où l'un au moins des deux était là (indice de Jaccard) : $$a=\frac{n_{11}}{n_{01}+n_{10}+n_{11}}=\frac{3}{4+12+3}=0.158$$ Sur l'ensemble des cas où l'une des deux unités apparaît, l'autre n'apparaît que dans 16% des cas : on dira qu'ils sont peu associés. Comme dans ce type d'étude, le nombre d'unités sémantiques peut potentiellement être très grand, un grand nombre d'entre elles n'apparaîtront jamais ensemble. En ne prenant en compte que les cas où au moins l'une des deux est présente, l'indice de Jaccard mesure une co-fréquence d'apparition qui est relativement peu impactée par la taille du corpus, et qui choisit de se concentrer sur le pouvoir évocateur de l'une des unités sur l'autre : si l'une est produite, alors l'autre devrait l'être aussi si elles sont associées entre elles.
En procédant à ce calcul pour chaque paire d'unités, on reconstruit une table associative symétrique complète, ou les unités sont à la fois en ligne et en colonne, et où on reporte les indices de Jaccard dans les cases :
... | Compétent | Diplomate | Organisé | Calme | ... |
---|---|---|---|---|
Compétent | 1.000 | 0.933 | 0.909 | 1.000 |
Diplomate | 0.933 | 1.000 | 0.889 | 1.000 |
Organisé | 0.909 | 0.889 | 1.000 | 0.909 |
Calme | 1.000 | 1.000 | 0.909 | 1.000 |
... |
Pour les besoins de l'interprétation, on cherche à résumer une telle matrice d'associations par une représentation graphique parlante.
Il existe deux grands types de méthodes pour cela :
- des méthodes numériques, cherchant à représenter les mots comme des points sur une carte, de telle sorte que les distances graphiques sur la carte reflètent numériquement la force de l'association (une association de 1 est représentée par une distance nulle),
- des méthodes qualitatives ou ordinales, cherchant à résumer par un graphe associatif les associations les plus fortes (arbre d'extension minimale).
C'est cette deuxième méthode, plus souple, que nous allons utiliser.
Graphe d'extension minimale
Une matrice symétrique d'associations peut être représentée sous la forme d'un graphe associatif, dont les noeuds sont les unités sémantiques, et dont les arêtes sont les liens associatifs. En pratique, dans une étude sur le contenu du discours, un très grand nombre d'unités sémantiques sont produites et on préfère souvent dégager les arêtes principales du graphe (celles dont la force de liaison est la plus importante) sous la forme d'un graphe d'extension minimale (Minimum Spanning Tree).
On construit un tel graphe en suivant les étapes suivantes (figures du haut):
- On relie d'abord les deux noeuds les plus associés, qui forment alors la première esquisse du graphe minimal.
- Puis on cherche le noeud qui est le plus fortement associé à l'un ou l'autre des noeuds déjà inclus. Si l'association de ce noeud ne crée pas de cycle, on l'accroche, sinon on cherche le plus proche suivant.
- On répète ces étapes jusqu'à ce que toutes les unités aient été fixées à l'arbre.
Dans cette représentation, seules les jonctions ont du sens, pas les positions dans l'espace : on est donc libre de déplacer les noeuds selon les besoins de la lecture. Si on dote le graphe d'une forme de rigité, en rapprochant les noeuds associés et en repoussant les noeuds lointains, on obtient une représentation quasi-barycentrique ou chaque noeud est proche de la moyenne des noeuds auxquels il est lié (figures du bas).
Etudes appliquées
1. Images du collaborateur idéal dans l'entreprise
Dans une entreprise, on a demandé à des cadres et des employés de définir ce que représentait pour eux le collaborateur idéal. Chacun a donné 10 adjectifs ou expressions courtes pour le qualifier.
Dans cet atelier, on cherche à reconstruire un graphe d'extension minimale pour les associations sémantiques qui ont été produites par les répondants :
- Le tableau binaire correspondant est contenu dans le fichier collab.csv. Téléchargez ce fichier sur votre disque.
- Ouvrez-le dans l'interface ci-dessous et examinez le format particulier des données.
- Dans l'onglet Analyse, sélectionnez uniquement les colonnes binaires, indiquant la présence ou l'absence des mots dans le témoignage.
- Interprétez le graphe qui apparaît, en cherchant à distinguer dans ces branches des registres de vocabulaire distincts dans la description du collaborateur idéal. Pour vous aider, vous pouvez : i) déplacer les noeuds du graphe (il est élastique), ii) déplacer le graphe (cliquer-glisser de l'arrière-plan), iii) zoomer le graphe (mollette centrale de la souris).
- Dans l'onglet Analyse, relancez l'analyse en indiquant le facteur statut comme facteur de groupe. Dans l'onglet Graphique, cliquez sur l'option d'affichage des points sujets pour faire apparaître les répondants de statut différent avec des couleurs différentes. Diriez-vous que les cadres et les subordonnés ont en moyenne un point de vue différent sur ce que devrait être un « collaborateur idéal » ?
- Faites de même en utilisant le facteur sexe.
2. Représentations sociales de l'individu dangereux par des citoyens et des magistrats
Przygodzki-Lionet & Noël (2004) ont étudié les représentations de la dangerosité chez 90 personnes, répartis en trois groupes indépendants : 30 magistrats, 30 personnels de surveillance des prisons et 30 sujets-contrôle (citoyens ordinaires).
Les chercheurs ont procédé à des entretiens individuels semi-directifs, structurés par six conditions / questions devant lesquelles les trois groupes de sujets étaient placés consécutivement :
- question 1 : qu’est-ce qu’un individu dangereux pour vous, en tant que citoyen ?
- question 2 : qu’est-ce qu’une situation dangereuse pour vous, en tant que citoyen ?
- question 3 : d’après vous, qu’est-ce qu’un individu dangereux pour un surveillant de prison ?
- question 4 : d’après vous, qu’est-ce qu’une situation dangereuse pour un surveillant de prison ?
- question 5 : d’après vous, qu’est-ce un individu dangereux pour un magistrat ?
- question 6 : d’après vous, qu’est-ce qu’une situation dangereuse pour un magistrat ?
Les fichiers de données associés peuvent être téléchargés :
- danger1-individu-citoyen.csv
- danger2-situation-citoyen.csv
- danger3-individu-surveillant.csv
- danger4-situation-surveillant.csv
- danger5-individu-magistrat.csv
- danger6-situation-magistrat.csv
Reconstruisez pour chaque fichier la carte sémantique correspondante et commentez les similarités et différences de structure entre les graphes. On pourra se reporter à l'article d'origine pour une interprétation plus poussée des résultats.
Remarque : pour retrouver les graphes de l'article, il faut régler la fréquence minimale à 3.
3. Une théorie intégrée de l'anxiété et de la dépression
Traditionnellement en psychologie (Mehrabian & Russell, 1974), l'analyse des évaluations d'états émotionnels révèle trois dimensions majeures caractérisant les émotions : la valence (couleur positive ou négative de l'émotion, heureux vs. triste), l'activation (le niveau d'éveil ou d'énergie associée, assoupi vs. excité) et la dominance (sentiment d'être en contrôle ou au contraire contraint dans une situation). Dans cette distinction, les facteurs sont considérés comme indépendants, mais une émotion repérée dans le langage peut naturellement emprunter à plusieurs dimensions (par exemple le mot "relaxé" peut renvoyer à la fois à du positif, passif ou en contrôle).
Noël, Février & Deflandre (2018) ont néanmoins proposé une nouvelle vision de la structure des émotions en s'appuyant sur le fait que plusieurs théories psychologiques bien établies permettent de prédire qu'une relation non-linéaire peut être attendue entre valence et activation, notamment. Par exemple, dans sa théorie générale de la réponse au stress, Selye (1956) explique comment l'irruption d'un stresseur (émotion négative) dans l'environnement augmente le niveau d'activation. De plus, il montre comment un état prolongé de stress peut conduire à une situation d'épuisement des ressources physique et psychiques (burn-out). Dans la théorie du désespoir acquis, Seligman (1972) montre également comme l'absence prolongée d'un sentiment de contrôle face au stresseur peut mener à une inhibition et un abandon de la lutte par l'organisme. Ces différents éléments, mis ensemble, permettent de définir un nouveau modèle de l'émotion où la valence, l'activation et la dominance ont entre elles des relations dynamiques non-linéaires qui sont entièrement résumables par des fonctions de variation ne dépendant plus que d'une seule dimension.
Ce modèle amène à faire certaines prédictions sur la manière dont des personnes vont répondre à des items d'émotions dans des questionnaires. Les fonctions de réponses attendues sont représentées ci-dessous.
Si ce modèle est exact, alors les analyses linéaires traditionnelles (analyse factorielle ou en composantes principales) échoueront à retrouver la dimension sous-jacente. Elles auront tendance à révéler des facteurs artificiels séparés, qui ne feront que regrouper les items dont les fonctions de réponse sont proches (items contigus). L'analyse en graphe d'extension minimale, qui se concentre sur ces ressemblances locales, peut néanmoins révéler indirectement une dimension sous jacente, en produisant un graphe en chaîne, où tous les items contigus sont connectés en collier de perles.
Le modèle HUME amène à penser qu'il y a une continuité entre les états anxieux et les états dépressifs (une notion désormais bien acceptée en psychiatrie, où l'on parle de série anxio-dépressive). Borsboom & Cramer (2013) ont défendu l'usage des analyses en graphes pour saisir la structure de certaines psychopathologies, et nous allons suivre ici leur voie, en analysant le fichier DepressionAnxiety.csv, mais pour tenter de trouver des éléments en faveur d'une hypothèse de continuité. Selon la théorie, un continuum devrait opposer des symptômes actifs et des symptômes de désactivation, en passant par des étapes intermédiaires. Tester cette attente sur ces données.
Note : le fichier est volumineux ($N=9282$ sujets) et peut mettre du temps à charger, selon votre machine (ne pas essayer sur de petits terminaux).
4. Etude des thématiques de recherche du laboratoire de psychologie de Rennes
En 2014, le laboratoire de psychologie de Rennes (alors appelé Centre de Recherche en Psychologie, Cognition et Communication, ou CRPCC) a procédé à une restructuration, en évoluant d'une structure en équipes disciplinaires (cognitive, développement, différentielle, sociale) en une structure en axes thématiques de recherche. C'est cette structure qu'on connaît maintenant au sein du Laboratoire de Psychologie, Cognition, Communication et Comportement (LP3C). Dans le cadre de cette réflexion, un recensement des thèmes de recherches des chercheurs a été fait et est enregistré dans le fichier crpcc.csv.
A partir de l'analyse en graphe, dites comment vous pourriez commenter la structure globale qui apparaît, et quel est le lien avec l'ancienne organisation en équipes disciplinaires.