L'analyse en composantes principales

L'analyse de la personnalité

C'est une observation courante que nous pouvons faire que, malgré la grande plasticité du comportement humain dans son interaction avec l'environnement, chaque individu montre des tendances stables dans ses réponses comportementales : quelles que soient les situations, certains individus auront plus tendance que d'autres à se montrer sociaux par exemple, ou au contraire introvertis ; à se montrer conciliants ou au contraire réactifs, etc.

Pour mettre en évidence ces stabilités, les psychologues utilisent des méthodes statistiques qu'ils appliquent à de gros volumes de mesures quantitatives du comportement, pour détecter des tendances et associations privilégiées (quel comportement tend à être associé avec quel autre ?). Ces mesures peuvent être objectives (des temps de réaction face à une situation de choix, par exemple), ou subjectives (des réponses auto-évaluatives à des questionnaires). Nous prendrons comme support dans cette partie l'exemple d'un auto-questionnaire de personnalité, mais la méthode étudiée est en réalité applicable pour tous types de mesures, objectives et subjectives, éventuellement utilisées simultanément.

Imaginons que nous demandions à des personnes de dire dans quelle mesure (de 0% à 100%) les quatre phrases suivantes leur correspondent (ces items sont extraits du questionnaire de personnalité NEO-PI-R de Costa & McCrae, 1992) :

  1. « Je suis un(e) optimiste souriant(e) » (E_18),
  2. « Je suis une personne joyeuse et pleine de bonne humeur » (E_36),
  3. « Je garde la tête froide dans les situations d'urgence » (N_24),
  4. « Je me débrouille assez bien dans une situation de crise » (N_36).

On remarque que du point de vue du contenu, certains de ces énoncés partagent une certaine proximité sémantique : les deux premiers renvoient à une propension à l'émotionnalité positive, et les deux derniers à une forme de contrôle émotionnel. On peut penser par conséquent que si des personnes accordent une pertinence élevée à l'item E_18, ils tendront à le faire aussi pour l'item E_36. Les items ne sont pas absolument identiques cependant (le premier item contient une forme de confiance dans l'avenir que n'a pas forcément l'autre) et on peut s'attendre à une corrélation non négligable entre les réponses, mais pas parfaite. La corrélation qu'on observera sera explicable par ce que les items ont en commun (une émotionnalité positive), et son reste par ce que les items ont de différent (le regard sur l'avenir).


Atelier 1 : étude des corrélations de plusieurs auto-évaluations

Le calculateur ci-dessous permet d'étudier la relation qui existe entre deux mesures, prélevées sur un certain nombre de sujets. Pour revoir les principes de ce type de modèles dits de régression linéaire, on peut se référer à la section La régression simple, du module de cours précédent.

Le fichier ffm.csv contient les réponses de $N=321$ sujets aux 240 items du questionnaire de personnalité NEO-PI-R (Costa & McCrae, 1992). Téléchargez-le sur votre disque dur, et ouvrez-le dans l'interface à partir de l'onglet Fichiers. Puis, en prenant à chaque fois une variable comme VD et une autre comme VI, examinez tout à tour :

  • la relation entre les variables E_18 et E_36,
  • la relation entre les variables N_24 et N_36,
  • la relation entre les variables N_24 et E_36.

Pour chaque paire de variables, observez l'indice $R^2$ dans la page Résultats, et l'allure graphique de la relation dans la page Graphiques. La statistique $R^2$ est le carré du coefficient de corrélation. Il s'interprète comme la part de variance observée en Y explicable par X : la valeur $R^2=0.44$ par exemple, signifie que 44% de la variance de réponse sur E_18 est explicable par les réponses sur E_36, par une simple relation de proportionnalité. C'est donc une mesure de la redondance entre les items : plus ce pourcentage est élevé, plus cela signifie que les items mesurent en grande partie la même chose.


En prenant la racine carrée du $R^2$, on retrouve la corrélation simple. Par exemple, pour la première paire de variables (contrôle émotionnel), on a : $R=\sqrt{0.44}=0.663$. Pour fixer les idées, d'un point de vue statistique, une corrélation est significative pour $N=30$ sujets à partir de $R=0.30$. Comme on le voit, notre corrélation sur la paire (E_18, E_36), calculée sur $N=321$ sujets, est substantielle.

On trouve également une relation non négligeable entre les deux items d'émotionnalité positive ($R^2=0.3784$, soit $R=0.615$). Pour ces deux paires, l'examen du corrélogramme (graphique XY) suggère en effet à chaque fois une relation croissante : quand on répond fortement sur l'un, on tend à répondre fortement sur l'autre item de la paire.

Par contre, l'examen de la paire (N_24, E_36) donne un $R^2=0.0055$, soit une corrélation de $R=\sqrt{0.0055}=0.074$, bien loin des valeurs significatives. Le graphique suggère une relation légèrement décroissante mais le coefficient de proportionnalité correspondant n'est pas significatif ($\beta=-0.0779, t(319)=-1.3252, p < 0.186$).

Au final, si nous devions résumer cet examen rapide des associations entre ces quatre items, nous serions assez tentés de dire que derrière ces 4 mesures, il y a en réalité deux facteurs principaux : i) un facteur d'émotionnalité positive, et ii) un facteur de contrôle émotionnel, chacun d'entre eux étant en quelque sorte mesuré deux fois. Nous l'anticipions à l'analyse de contenu verbal des items, mais cela se trouve matérialisé statistiquement par un certain pattern d'inter-corrélations, ou deux sous-groupes de variables comprennent chacun des variables fortement associées, tout en étant eux-mêmes peu corrélés entre eux.

Naturellement, au-delà de l'information commune qu'ils portent, chaque item d'une paire apporte une information spécifique (en proportion : $1-R^2$), que l'on peut ne pas souhaiter écarter. Cette information spécifique pourrait en effet se trouver cumulée avec celle apportée par de nouveaux items. Par exemple, si je pense que les 56% (c'est-à-dire 100%-44%=56%) de variance de E_18 non expliquée par E_36 sont imputables à la foi en l'avenir (au vu des énoncés), cette information peut être complétée et partagée avec de nouveaux items spécifiquement dédiés à l'optimisme.

L'extraction de facteurs

Si nous pensons que E_18 et E_36 mesurent au moins en partie la même chose, nous aimerions en extraire un score unique qui distingue les sujets uniquement sur cette partie commune de l'information. Graphiquement, cela revient à vouloir remplacer les différences inter-sujets qui sont visibiles à la fois sur l'axe des X et l'axe des Y originels, par des différences de sujets qui se situent le long d'une droite qui passerait au milieu du nuage de points. Les positions des sujets le long de cette droite particulière résumeraient à elles seules ce qui différencie les sujets en émotionnalité positive "pure", en décidant d'ignorer ce que chaque item peut apporter de spécifique dans la différenciation.

Cette droite que nous allons chercher n'est pas techniquement une droite de régression, car la droite de régression est obtenue en donnant à une variable le statut de variable à expliquer, et à l'autre le statut de variable explicative, et cette relation n'est pas symétrique. Il suffit de tester les deux modèles tour à tour, expliquant E_18 à partir de E_36, ou l'inverse, pour se rendre compte que les coefficients de proportionnalité (qui déterminent la position de la droite) ne sont pas les mêmes. Nous cherchons une droite qui décrit le mieux possible la relation symétrique entre les deux variables, autrement dit leur corrélation.

La figure ci-dessous représente, en superposition à la droite de régression (en bleu), la droite que nous cherchons réellement (notée $F_1$ sur le graphique, en orange). Pour identifier cette droite de façon non ambiguë, nous imposerons qu'en projection sur elle, les positions des sujets (appelées scores factoriels) soient les plus différenciées possibles (critère de maximisation de la variance). Cela signifie aussi qu'en projetant les points-sujets sur cette droite, nous obtenons de nouveaux scores qui sont les plus informatifs possibles sur les différences inter-sujets.

L'information complémentaire, non portée par $F_1$, est représentée graphiquement par toute différence de position des points sujets qui ne se réduit pas à une différence le long de cette droite. En un mot : l'information complémentaire sur les différences sujets est portée par une autre droite (disons $F_2$), exactement perpendiculaire à la première (en vert). Géométriquement, la perpendicularité traduit la corrélation nulle (c'est-à-dire une source d'information linéairement indépendante de la première).

Cet ensemble de deux droites nouvelles peut être vu comme un nouveau repère dans lequel les sujets sont notés, qui ne se distingue du repère (E_18, E_36) original que par une rotation des axes. Aucune information psychologique n'est perdue dans cette transformation car les distances entre les points-sujets restent inchangées (la rotation est une transformation isométrique, c'est-à-dire qui conserve les distances).

Comme ces axes nouveaux sont obtenus à partir des scores d'origine, qu'ils composent (par rotation), on les appelle composantes principales. On appelle Analyse en Composantes Principales (ou ACP) la méthode statistique permettant de trouver automatiquement ces axes modifiés informatifs.

Les composantes principales, parce qu'elles combinent plusieurs variables, sont des grandeurs abstraites qui n'ont pas de nom ou de signification connue à l'avance. Ce sont des variables de synthèse. Mais il est possible de faire le lien entre le système d'axes de départ, constitué des items d'origine, et le nouveau système d'axes, constitué des facteurs, en calculant simplement des corrélations entre les anciennes notes et les nouvelles. Cela permet de voir, pour chaque facteur, si une ou plusieurs des variables d'origine lui sont davantage corrélées. En détectant les variables d'origine qui sont les plus corrélées à tel ou tel facteur, on peut saisir ce qu'il y a de commun sémantiquement entre elles et en déduire ce qui constitue le sens du facteur. C'est ce que nous faisons dans la partie suivante.


Atelier 2 : mise en oeuvre de l'Analyse en Composantes Principales

L'interface ci-dessous va réaliser la rotation pour nous. Nous allons pouvoir transformer les variables de réponses originelles en nouvelles variables transformées, obtenues par rotation, avec la garantie que la première composante offre le plus grand étalement possible des scores (pouvoir de discrimination ou pouvoir mesurant).

Paramètres de l'analyse

Sous l'onglet Analyse, vous pouvez choisir les variables qui vont entrer dans l'analyse, et régler 3 paramètres :

  1. Le type de mesure d'association entre les variables : corrélation ou covariance. Les deux indices (voir programme de L1) mesurent la force d'une association linéaire entre deux variables. La corrélation n'est pas autre chose qu'une covariance calculée sur les variables standardisées, autrement dit, toutes transformées pour être de variance 1 homogène. C'est souvent le choix qui est fait par défaut car on considère que les différences de variance d'un item à l'autre sont souvent davantage le reflet de la qualité de la formulation des items (un item peu pertinent sera rejeté par beaucoup de répondants et aura une faible variance). Dans la mesure où l'on s'intéresse davatange au lien entre les variables, plutôt qu'à la dispersion dans chaque variable, on choisit souvent en psychologie de neutraliser toute différence de variance en standardisant les items.
  2. Le nombre de facteurs : l'ACP n'a pas seulement pour but de découvrir des variables mesurantes pertinentes, mais également de réduire la complexité de l'information. Dans notre questionnaire NEO-PI-R, il y a 240 questions mais la théorie nous dit qu'on doit pouvoir résumer l'essentiel de la covariation de réponse en 5 facteurs seulement. Cela représente un haut niveau de compression de l'information. On acceptera cette compression si le pourcentage de l'information initiale (variance) résumé en 5 facteurs est suffisamment élevé (par exemple 80%).
  3. Une rotation supplémentaire : au-delà de la rotation principale que représente l'ACP elle-même sur la totalité des items (ici dans un espace à 240 dimensions), on peut souhaiter opérer une rotation supplémentaire dans l'espace restreint final que nous avons choisi (par exemple en 5 facteurs). Cette option sera utile si l'on cherche à simplifier l'interprétation des facteurs en se débrouillant pour obtenir une solution où chaque item a tendance à corréler avec un facteur privilégié. Cette technique est discutée dans la partie suivante.

Etapes

  1. Rechargez le fichier de données ffm.csv dans cette nouvelle interface.
  2. Dans l'onglet Analyse, sélectionnez et ajoutez les 2 items E_18 et E_36 dans la boite « Variables de l'analyse ». Notez qu'il n'y a plus dans cette analyse de distinction entre VI et VD car ce sont des associations symétriques (covariances ou corrélations) qui sont analysées et décomposées en facteurs.
  3. Réglez le nombre de facteurs à 2.
  4. Sans changer les autres paramètres, lancez l'analyse.



Interprétation du graphique circulaire
  1. Le graphique de résultats se présente sous la forme d'un système d'axes X et Y qui représentent les facteurs (et non plus les items).
  2. On représente par les points bleus les couples de corrélations de chaque variable avec le premier facteur (axe horizontal) et avec le second facteur (axe vertical). On appelle saturations factorielles ces coordonnées-corrélations. Cela permet de savoir : i) quelles sont les variables les plus corrélées au facteur (aide à l'interprétation du facteur), et ii) quels sont les facteurs qui expliquent le mieux chaque variable (une mesure indirecte de la simplicité ou de la "pureté" de la question). Par exemple, si vous passez votre souris sur le point bleu de la variable E_18, vous verrez s'afficher ses coordonnées (0.912,0.410) : elle a une corrélation forte de $R=0.912$ avec le facteur 1, et moins élevée $R=0.410$ avec le facteur 2.
  3. C'est avec le facteur 1 que les deux variables ont la corrélation la plus élevée. Pour chaque facteur, les pourcentages de variance expliqués sont indiqués à côté de l'axe. Dans cette analyse, 83.2% de la variance initiale des deux items est expliquée par le premier facteur. Ce facteur unique porte donc efficacement l'essentiel de l'information initialement codée en deux items. On voit donc qu'on perdrait peu d'information à remplacer les réponses sur les deux items d'origine par les scores factoriels des sujets sur ce seul facteur 1 (effet de compression).
  4. Sur des variables initialement standardisées (ce qui est le cas implicitement quand on analyse des corrélations), la variance de toutes les variables est de 1. Dans notre analyse sur deux variables, la variance totale présente dans les données est donc de $1+1=2$. Le facteur 1 à lui seul résume 83.2% de cette variance initiale, soit $0.832\times 2= 1.664$. La valeur $\lambda_1=1.664$ est la variance du Facteur 1 : pour des raisons historiques, on l'appelle sa valeur propre.
  5. Vous pouvez visualiser ces scores factoriels sujets en activant l'option graphique « Points sujets ». Par différence avec le graphique de régression vu plus haut, on voit que le nuage de points est allongé dans la direction du Facteur 1. Remarque : les signe de ces scores-sujets et saturations factorielles sont arbitraires et tous les points (Sujets et variables) pourraient avoir des signes opposés (en cohérence Sujets-variables bien sûr).

La rotation VARIMAX

Atelier 5 : interprétation des facteurs

Dans l'interface d'ACP ci-dessus, entrez maintenant les 4 variables E_18, E_36, N_24, N_36 et demandez 4 facteurs.

  1. En réglant les numéros d'axes dans les options, examinez les plans factoriels (1,2), (1,3) et (1,4). Quels sont les pourcentages de variance expliqués par chacun des 4 facteurs ?
  2. Quelle est la somme de ces pourcentages ? Pourquoi ce résultat ?
  3. En se fixant comme repère une quantité de variance résumée d'au moins 80%, quel nombre maximal de facteurs suggérez-vous de conserver ?
  4. En vous basant sur les saturations factorielles, quel sens psychologique donneriez-vous au premier facteur ?

La solution obtenue dans cette analyse révèle que les 4 items ont des saturations non négligeables sur les deux facteurs principaux retenus, ce qui complique l'interprétation du sens du facteur. Il est plus simple pour l'interprétation des facteurs de voir que chaque variable corrèle fortement sur un facteur et un seul, et pratiquement pas sur tous les autres facteurs. Autrement dit, les configurations de saturations les plus faciles à interpréter sont celles où la variance des saturations est maximale à travers les facteurs. C'est ce qu'on appelle le critère VARIMAX de facilité de lecture.

Une telle solution n'apparaît pas toujours spontanément à partir de l'ACP de base, et les psychologues utilisent souvent une transformation de rotation supplémentaire dans l'espace réduit des facteurs, pour essayer de s'approcher au mieux de cet idéal. Il est important de comprendre que quand on fait cela, on se facilite la tâche sur le plan de l'interprétation du sens des facteurs, mais on décide aussi sciemment de s'éloigner du critère de discrimination sur les sujets. Les facteurs finaux n'offrent plus cette garantie d'une dispersion maximisée des scores (information maximale). Ce que l'on gagne en facilité d'interprétation, on le perd en pouvoir mesurant ou différenciateur : il y a donc un vrai risque que les facteurs obtenus soient moins pertinents sur le plan psychologique.

Atelier 6 : mise en oeuvre de la rotation VARIMAX
  1. Refaites l'analyse ci-dessus en réduisant la solution à 2 facteurs et en activant l'option d'analyse "Rotation : VARIMAX".
  2. Observez la solution obtenue et vérifiez visuellement que les angles entre les vecteurs variables dans le cercle des corrélations du plan (1,2) sont identiques : on a simplement fait tourner ces vecteurs pour que chaque point ait une forte corrélation sur un facteur, et une corrélation presque nulle sur l'autre. Cela permet d'obtenir des groupes bien distincts de variables bien corrélées entre elles.
  3. Comment allez-vous interpréter psychologiquement les nouveaux facteurs obtenus ? Cela fait-il une différence conceptuellement et théoriquement ?

Exercices d'application

Nous cherchons dans cette partie à retrouver les résultats classiques de Costa & McCrae (1992), c'est-à-dire une structure en 5 facteurs.

  1. Analysez la totalité des 240 items en demandant 5 facteurs avec rotation VARIMAX. Patientez : le calcul peut être un peu long...
  2. Examinez le graphique des saturations par plan successifs (1,2), (1,3), (1,4) et (1,5), ou tout autre plan dans ce sous-espace. Quel est le sens de chacun de ces 5 facteurs ?
  3. Quel est le pourcentage de la variance totale expliqué par cette solution en 5 facteurs ?