La régression sur indicatrices

Comparaison de deux conditions expérimentales

Dans l'expérience de Fox & Guyer (1978), on soumet 20 sujets à la célèbre situation dite du « dilemme du prisonnier ». Chaque sujet, associé en paire à un partenaire, avec lequel il ne peut néanmoins se concerter, a la possibilité de le trahir pour gagner un gain plus important, ou au contraire de ne pas le trahir (on parle alors de conduite de coopération). Certain sujets sont placés en condition publique pour cette décision (leur décision de trahir ou de coopérer sera rapportée à l'autre sujet), ou anonyme (l'autre sujet n'aura aucun moyen de savoir s'il a trahi). A la fin de l'expérience, comprenant de nombreux essais, un score de coopération de 0 à 120 est attribué à chaque sujet, qui mesure en quelque sorte sa réticence à trahir. On cherche à voir si la condition (Publique/Anonyme) peut avoir eu un impact sur la décision.

Atelier 1 : trahison et anonymat

  1. Dans l'onglet Fichiers, ouvrez le fichier exemple guyer01.csv, que vous aurez au préalable téléchargé et enregistré sur votre machine. Ce fichier contient des scores de comportement de coopération en situation de dilemme du prisonnier (Guyer & Fox, 1978). On compare deux conditions : une condition où la trahison est potentiellement rendue publique, et une condition où on a l'assurance qu'elle restera anonyme. On fait l'hypothèse qu'on trahira davantage (coopèrera moins) en condition anonyme.
  2. Dans l'onglet Données, observez attentivement le format des variables qu'il contient : un '1' vient indiquer la présence d'une propriété, un '0' son absence. De telles variables, qui indiquent la présence/absence d'un attribut, sont appelées variables indicatrices.
  3. Dans l'onglet Modèle, sélectionnez la VD Cooperation et entrez la variable Publique comme VI. Lancer l'estimation de la régression correspondante.
  4. Observez les coefficients de régression. Quelles valeurs de coopération cette régression permet-elle de prédire dans chacun des deux groupes Public et Anonyme ?
  5. Essayez de donner une signification à ces coefficients, en gardant à l'esprit ce que représente la variable Public, et en notant que les moyennes de coopération des groupes Public et Anonyme sont de 40.9 et 55.7 respectivement.
  6. Observez le graphique de cette régression, avec la Coopération en $Y$ et la condition en $X$ : que représentent les valeurs prévues $\hat{y}$ lues sur la droite de régression ?

Les sections qui suivent détaillent la signification d'une telle régression sur variable indépendante binaire.


Notion d'indicatrice

Dans cette situation, nous allons supposer que la distribution des scores de « coopération » $Y$ (non-trahison) est normale dans chacun des deux groupes, avec des moyennes de population potentiellement différentes, mais une variance identique : $$\begin{array}{} Y_{A} &\sim N(\mu_{A},\sigma^{2})\\ Y_{P} &\sim N(\mu_{P},\sigma^{2}) \end{array}$$

Une autre manière d'écrire la même chose est de décomposer le score d'un individu en une partie fixe propre au groupe, et une partie aléatoire propre à l'individu : $$\begin{array}{} Y_{i(A)}=&\mu_{A}+\epsilon_{i}\\ Y_{i(P)}=&\mu_{P}+\epsilon_{i} \end{array}$$ en considérant la variable d'erreur comme de moyenne nulle : $\epsilon\sim N(0,\sigma^2)$.

Nous supposerons dans un premier temps que la moyenne de cette distribution normale n'est pas la même dans les deux conditions. Elle devrait être décalée à droite (plus de coopération) pour la condition publique d'une quantité (ou « effet ») $\tau_{P}$ : $$\mu_{P}=\mu_{A}+\tau_{P}$$ Les scores individuels sont donc au final : $$\begin{array}{} Y_{i(A)}=&\mu_{A}+\epsilon_{i}\\ Y_{i(P)}=&\mu_{A}+\tau_P+\epsilon_{i} \end{array}$$

Ces deux expressions peuvent en fait être ré-écrites en une seule, comme un modèle de régression linéaire un peu particulier : $$Y = \mu_A+\tau_P I_{P}+\epsilon$$ où $\mu_A$ est la constante (ou ordonnée à l'origine), $\tau_P$ le coefficient de la régression, et $I_{P}$ est une variable explicative artificielle (« indicatrice ») prenant la valeur 1 si le sujet correspondant est en condition « publique », et la valeur 0 s'il est en condition anonyme.

Dans ce modèle, les valeurs prévues sont simplement les moyennes de condition : $$\begin{array}{} \hat{Y}_A = E(Y_A)=& E(Y|I_p=0) &= E(\mu_A+\tau_P\times 0+\epsilon) =& \mu_A\\ \hat{Y}_P = E(Y_P)=& E(Y|I_p=1) &= E(\mu_A+\tau_P\times 1+\epsilon) =& \mu_A+\tau_p =& \mu_P\\ \end{array}$$

Conclusions

  • La situation de comparaison de deux conditions peut être ré-écrite comme une régression linéaire, à condition de construire des variables explicatives artificielles bien choisies, appelées indicatrices, qui viennent coder par des '1' et des '0' la réalisation d'une propriété ou l'appartenance à un groupe.
  • Dans cette régression particulière, le test de Student sur le coefficient principal de la régression ($\tau_P$) n'est donc en définitive pas autre chose que le $T$ de Student traditionnel sur la différence de deux moyennes ($\tau_P = \mu_P-\mu_A$).
  • Remarque : le paramètre $\mu_A$, qui est inclus dans la reconstruction des scores de tous les sujets, peut être considéré comme un coefficient de régression devant une variable indicatrice qui ne contient que des '1' (tous les sujets sont affectés). Elle est représentée par la variable « Constante » dans le fichier de données. On pourrait refaire l'exercice en l'incluant spécifiquement dans le champ de « Variables indépendantes » (en écrivant le modèle : Constante + Public) de R2STATS mais le logiciel l'inclut toujours par défaut et il n'accepterait pas de devoir l'inclure une deuxième fois.

    La seule manière de l'y obliger est d'ajouter le code '+0' (qui met à zéro la constante) dans le champ des VI. On écrira le modèle sous la forme : 0 + Constante + Public. Sous cette forme, il accepte alors de calculer un coefficient sur la variable « Constante ». En pratique, il n'est évidemment pas nécessaire de fabriquer soi-même une telle variable constante ne contenant que des '1' : on l'obtient automatiquement en ajoutant le code '+1' dans le champ VI (1 + Public), ou mieux, en n'ajoutant rien car R2STATS la créera toujours par défaut (sauf bien sûr si un code '+0' a été spécifiquement saisi).

Questions

  1. La condition de normalité vous paraît-elle acceptable pour ce modèle de régression ?
  2. L'effet de la condition vous paraît-il significatif ?
  3. Testez l'effet du genre sur la coopération, selon la même méthode.


  • expand_moreCorrections

    1. A la rubrique Test des conditions de la page des Résultats, on trouve le test de normalité de Shapiro-Wilk ($W = 0.99121$, $p < 0.9992$). Au seuil $\alpha=0.10$, on ne peut rejeter l'hypothèse de normalité des résidus. On note que dans ce modèle de régression particulier, les résidus sont les écarts aux moyennes de groupes, et correspondent donc bien à un test de normalité conditionnel (à l'intérieur des groupes).
    2. Dans ce modèle de régression sur indicatrices, le premier paramètre (la constante) correspond à la moyenne du premier groupe et le second paramètre (ou coefficient de régression sur la variable Public) mesure l'effet de la condition. On sait qu'il correspond à la différence des deux moyennes de groupes. On le vérifie dans le tableau des Paramètres de la page des Résultats : $\hat{\tau}_P=14.8$. Le $T$ de Student associé, en fin de ligne est $t_{18}=2.6615$ ($p < 0.0159$). Comme l'hypothèse alternative est unilatérale (on s'attend à moins de coopération en condition Anonyme, on doit encore diviser par deux cette probabilité. Au seuil $\alpha=0.05$, le coefficient (autrement dit la différence des moyennes de groupe) est significatif.
    3. Selon la même approche, en testant la régression de la Coopération sur la variable indicatrice Homme, on trouve un coefficient de régression (autrement dit une différence de moyennes hommes-femmes) $\hat{\tau}_H=-1.0$, avec un $T$ de Student associé de $t_{18}=-0.1524$ ($p < 0.8805$), pour une alternative bilatérale (pas de sens attendu de la différence ici). Le niveau moyen de coopération chez les hommes n'est donc pas significativement différent de celui des femmes.

Effet conjugué de deux facteurs de groupe : un modèle additif

Le modèle additif

On s'intéresse dans cette partie à un potentiel effet conjugué de la condition et du genre sur la coopération. On pose un modèle linéaire gaussien $M_{2}$ dont la prévision est de la forme : $$\hat{Y}=\beta_{0}+\beta_{1}I_{P}+\beta_{2}I_{H}$$ où $I_{P}$ et $I_{H}$ sont deux variables indicatrices prenant la valeur 1 quand le sujet est en condition publique et un homme, respectivement.

Atelier N°2

  1. Réécrire la prévision pour chacun des 4 cas de figure du croisement condition x genre.
  2. En déduire une interprétation du sens psychologique des coefficients $\beta_{0}$, $\beta_{1}$ et $\beta_{2}$.
  3. Testez ce modèle dans R2STATS et comparez le au modèle de l'effet de la condition seule. Vous paraît-il meilleur ?
  4. Sous $M_{2}$ calculez algébriquement l'amplitude de la différence attendue des moyennes des deux conditions, dans les deux cas : i) quand on est un homme, ii) quand on est une femme.
  5. Sous $M_{2}$, calculez algébriquement l'amplitude de la différence attendue des moyennes de sexe, dans les deux cas : i) quand on est en condition publique, ii) quand on est en condition anonyme.

Modèle de l'interaction

On pose un modèle linéaire gaussien $M_{3}$ dont la prévision est de la forme : $$\hat{Y}=\beta_{0}+\beta_{1}I_{P}+\beta_{2}I_{H}+\beta_{3}I_{P}I_{H} $$ où $I_{P}$ et $I_{H}$ sont deux variables indicatrices prenant la valeur 1 quand le sujet est en condition publique et un homme, respectivement.

Atelier n°3
  1. Réécrire cette préivision pour chacun des 4 cas de figure du croisement condition x genre.
  2. En déduire une interprétation du sens psychologique des coefficients $\beta_{0}$, $\beta_{1}$, $\beta_{2}$ et $\beta_{3}$.
  3. Testez ce modèle dans R2STATS, sous la forme : 1 + Public + Homme + Public:Homme. Comparez le aux précédents.
Conclusion

Comme on le voit, les comparaisons de groupes indépendants peuvent être réalisées comme des régressions sur des variables indicatrices bien choisies. Mais ce codage n'a en réalité pas besoin d'être fait à la main dans ces cas simples : R2STATS le fait automatiquement dès qu'il détecte des variables qualitatives ou facteurs dans nos modèles. Le vérifier à partir du fichier guyer.csv, où les variables sont des facteurs. Sous cette forme, le dernier modèle par exemple peut être testé par l'expression : 1 + Condition + Sexe + Condition:Sexe. L'interface se charge de convertir automatiquement les facteurs en variables indicatrices.

L'analyse de la covariance

Atelier n°4

Téléchargez le fichier tacit.csv. Il rapporte les résultats d'un test de compréhension de texte, chez des enfants d'âge scolaire, qui ont passé le même test avant et après une phase d'entraînement sur la plate-forme TACIT. On distingue deux groupes dans cette étude : un groupe contrôle qui suit un apprentissage scolaire ordinaire en compréhension de texte, et un groupe expérimental qui suit le programme d'entraînement TACIT. On cherche à voir si les enfants progressent différemment selon qu'ils ont ou non suivi le programme TACIT.

Cet exercice cherche à illustrer deux points statistiques :

  1. comment la progression de la performance après entraînement peut être étudiée comme une régression du post-test 3 sur le pré-test 1,
  2. comment ce modèle de régression peut être augmenté d'un facteur de groupe, pour tester le fait que la progression n'est pas la même d'un groupe à un autre.

Questions
  1. Construisez le modèle de régression $M_1$ cherchant à expliquer le score final (session3) en fonction du score initial avant entraînement TACIT (session1).
  2. Cliquez sur l'option "Afficher la droite de référence".
  3. Discutez comment un tel graphique permet de mesurer les progrès réalisés par les enfants entre la session 1 et la session 3.
  4. Que pensez-vous de la qualité de ce modèle ?
  5. Testez un modèle $M_2$ qui ajoute le facteur "Groupe" de façon additive dans le modèle. Observez le graphique correspondant. Expliquez ce que réalise l'introduction d'un facteur de groupe dans un tel modèle de régression.
  6. Testez un modèle $M_3$ ajoutant l'interaction entre le score initial de session 1 et le facteur de groupe. En observant le graphique associé, dites ce qui y représente l'interaction.
  7. En vous appuyant sur le BIC, dites quel est le modèle qui vous paraît le meilleur. Les tests de conditions vous paraissent-ils acceptables pour ce modèle ?
  8. Quelles conclusions psychologiques tirez-vous à partir du modèle final retenu ?


Atelier n°5

Février, Roussel & Jamet (2009) étudient plusieurs techniques d'induction d'émotions négatives, pour les besoins d'une autre expérience. Trois techniques d'induction sont utilisées : une vidéo censée susciter la colère, une musique censée susciter la colère et l'extrait d'un film suscitant un fort sentiment d'injustice ("le choix de Sophie"). On dispose aussi dans cette étude d'une bande audio considérée comme neutre du point de l'induction d'humeur. Chacune de ces modalités est utilisée pour un groupe de sujets différent.

Dans tous les groupes, ils comparent l'humeur mesurée par questionnaire avant et après le visionnage ou l'écoute. Les scores d'humeur observés vont par construction de -5 (humeur négative) à +5 (humeur positive). Les données sont dans le fichier induction.csv.

  1. En l'absence de toute information préalable, quel modèle de distribution allez-vous tester par défaut ?
  2. En commençant vos comparaisons par le modèle le plus libre (modèle complet incluant tous les prédicteurs potentiels et leurs interactions), et en introduisant progressivement des contraintes, répondez aux questions suivantes dans l'ordre :
    1. cette hypothèse distributionnelle vous paraît-elle acceptable sur ces données ?
    2. y a-t-il un effet du niveau d'humeur initial ?
    3. la condition « musique neutre » peut-elle être considérée comme telle réellement ?
    4. les deux conditions censées induire de la colère se distinguent-elles significativement ?
    5. au final, parvient-on à impacter significativement l'humeur des sujets avec ces techniques ?