Comparaison de deux variances sur groupes indépendants

La loi de Fisher

Nous avons vu dans la partie précédente comment la comparaison de deux moyennes, dans le contexte de variables gaussiennes, nous conduisait naturellement à supposer l'égalité de deux variances de population. C'est ce qu'on appelle l'hypothèse d'homogénéité des variances.

Nous voyons dans cette partie comment ne pas simplement en faire l'hypothèse, mais le tester de façon statistique. Nous avons pour cela besoin d'un nouveau modèle de distribution : la loi de Fisher.

La loi de Fisher est la loi d'une variable qui fait le rapport de deux variables $\chi^2$ (à une constante multiplicative près). Elle dérive donc de la loi de $\chi^2$, qui dérive elle-même de la loi normale.

La loi de Fisher

Définition. Si deux variables $U$ et $V$ sont deux variables indépendantes qui suivent respectivement des lois de $\chi^{2}(\nu_{1})$ et $\chi^{2}(\nu_{2})$, alors la variable : $$F=\frac{U/\nu_{1}}{V/\nu_{2}}$$ suit par définition une loi de Fisher à $\nu_{1}$ et $\nu_{2}$ degrés de liberté.

On note $F\sim F(\nu_{1},\nu_{2})$.

Le graphique ci-contre montre les relations de dépendance entre les différentes lois étudiées jusqu'ici :

  1. La loi normale caractérise la somme d'un grand nombre de variables identiquement distribuées,
  2. La loi de $\chi^2$ caractérise l'addition de carrés de variables normales,
  3. La loi de Student combine une loi normale et une loi de $\chi^2$ sous forme d'un rapport,
  4. la loi de Fisher fait le rapport de deux variables $\chi^2$.

La dépendance à la loi normale est un point important : partout où nous aurons besoin de la loi de $\chi^2$, de la loi de Student ou de la loi de Fisher, il nous faudra argumenter que les données de base suivent une loi normale.

La partie suivante montre comment nous pouvons utiliser la loi de Fisher pour tester l'égalité de deux variances.

Test d'homogénéité de deux variances

Nous avons vu dans la partie précédente comment la comparaison de deux moyennes, dans le contexte de variables gaussiennes, nous conduisait naturellement à supposer l'égalité de deux variances de population. C'est ce qu'on appelle l'hypothèse d'homogénéité des variances.

Nous voyons dans cette partie comment ne pas simplement en faire l'hypothèse, mais le tester de façon statistique. Nous avons pour cela besoin d'un nouveau modèle de distribution : la loi de Fisher.

Cette distribution est utile quand on veut comparer deux variances $\sigma_{1}^{2}$ et $\sigma_{2}^{2}$ de deux populations. On sait en effet, que sous hypothèse de normalité des scores, les statistiques variance d'échantillon respectent le schéma d'échantillonnage : $$\begin{aligned} Q_1=(n_{1}-1)\frac{S_{1}^{2}}{\sigma_{1}^{2}} \sim \chi^{2}(n_{1}-1) \\ Q_2=(n_{2}-1)\frac{S_{2}^{2}}{\sigma_{2}^{2}} \sim \chi^{2}(n_{2}-1) \end{aligned} $$ Par conséquent, par définition de la loi de Fisher, on peut écrire : $$F=\frac{Q_1/(n_1-1)}{Q_2/(n_2-1)}=\frac{(n_{1}-1)\frac{S_{1}^{2}}{\sigma_{1}^{2}}\left(\frac{1}{n_{1}-1}\right)}{(n_{2}-1)\frac{S_{2}^{2}}{\sigma_{2}^{2}}\left(\frac{1}{n_{2}-1}\right)}=\frac{S_{1}^{2}/\sigma_{1}^{2}}{S_{2}^{2}/\sigma_{2}^{2}}\sim F(n_{1}-1,n_{2}-1)$$ Dans cette expression, les paramètres $\sigma_{1}^{2}$ et $\sigma_{2}^{2}$ sont inconnus. Mais sous l'hypothèse nulle $H_{0}:\sigma_{1}^{2}=\sigma_{2}^{2}$, on a : $$\frac{S_{1}^{2}}{S_{2}^{2}}\sim F(n_{1}-1,n_{2}-1)$$ Cette statistique peut donc être utilisée pour tester l'homogénéité (l'égalité) de deux variances.

Exercice modèle

Nous testons deux groupes d'étudiants $G_{1}$ et $G_{2}$ de tailles $n_{1}=25$ et $n_{2}=30$ personnes respectivement avec la WAIS. Les variances observées sur l'un et l'autre groupe sont $s_{1}^{2}=14.5^{2}$ et $s_{2}^{2}=15.1^{2}$, respectivement. Peut-on dire que les variabilités de scores sont les mêmes dans les populations ?

Le type de problème statistique est une comparaison de deux variances sur échantillons indépendants.

Les hypothèses statistiques sont : $$\begin{aligned} H_{0}:\sigma_{1}^{2} &= \sigma_{2}^{2}=\sigma^{2} \\ H_{1}:\sigma_{1}^{2} &\neq \sigma_{2}^{2} \end{aligned} $$

Procédure de décision : si l'hypothèse nulle est vraie, si la distribution des scores est normale dans chacune des deux populations, et si ces scores sont indépendants, on sait que la statistique $F=\frac{S_{1}^{2}}{S_{2}^{2}}$ suit une loi de Fisher à $n_{1}-1$ et $n_{2}-1$ degrés de liberté. Si l'hypothèse nulle est vraie, cette statistique ne devrait pas être trop différente de 1, dans un sens ou dans l'autre. On doit en effet prêter attention au fait qu'ici, l'hypothèse alternative est bilatérale, et qu'il faudra en tenir compte dans le calcul d'une probabilité critique associée.

On calcule donc : $$F = \frac{s_{1}^{2}}{s_{2}^{2}}=\frac{14.5^{2}}{15.1^{2}}\approx0.922$$ Avec le calculateur de probabilités ci-dessous, on trouve $P(F_{24,29} < 0.922)=0.423$.

Comme nous cherchons à tester le rapport de deux variances, sans hypothèse sur le sens de la divergence éventuelle (alternative bilatérale), nous devons aussi prendre en compte toutes les valeurs de $F$ au moins aussi rares, dans l'ensemble des valeurs au-dessus de 1. L'ensemble de ces valeurs est défini par une probabilité cumulée à droite, égale à celle que nous constatons à gauche ici. En pratique, on pourra donc calculer la valeur $p$ bilatérale d'un $F$ de Fisher en multipliant par 2 la valeur $p$ unilatérale donnée par le calculateur : $$p= 2\times P(F_{24,29} < 0.922)=2\times 0.423=0.846$$

Conclusion statistique : la valeur $p$ est très élevée par rapport à un seuil $\alpha=0.05$. Nous ne pouvons donc pas rejeter l'hypothèse d'homogénéité des variances.


Choix du seuil de décision dans un test d'homogénéité

Ce test d'homogénéité de deux variances est fréquemment utilisé comme préalable à un $T$ de Student de comparaison de moyennes. Dans la dérivation du $T$ en effet, nous avons posé une hypothèse d'homogénéité des variances, qui doit faire l'objet d'un test en pratique pour s'assurer que cette hypothèse est plausible pour un jeu de données particulier. Dans ce contexte, on cherche donc à se « rassurer » sur l'homogénéité des variances, autrement dit on est intéressé par l'hypothèse nulle. C'est une situation particulière, qui contraste avec la majorité des tests en psychologie où l'on est davantage intéressé par le rejet de l'hypothèse nulle (par exemple dans la comparaison de moyennes de conditions expérimentales).

Le problème lié à l'approche traditionnelle de l'inférence par hypothèse nulle est qu'elle construit sa décision en privilégiant une hypothèse de départ. Lorsque rien dans la valeur $p$ ne vient jeter le doute sur cette hypothèse de départ, cela ne signifie en rien que cette hypothèse est vraie. Cela signifie simplement que nous n'avons rien rencontré qui vienne la remettre sérieusement en cause. L'approche par hypothèse nulle est donc mal adaptée dans son principe à la validation d'une hypothèse nulle. Néanmoins, même si cette approche est moins pertinente dans ces cas que l'approche bayésienne, on peut quand même « défendre » une hypothèse nulle avec la valeur $p$. Comme nous sommes conduits à rejeter l'hypothèse nulle quand la valeur $p$ est petite, ce qui vient nous rassurer sur la plausibilité de l'hypothèse nulle, c'est une valeur $p$ élevée. Dans ce contexte, on a donc intérêt, si l'on souhaite se prémunir contre une acceptation erronée de $H_{0}$ (erreur de type II) à choisir un seuil de décision élevé ($\alpha=0.10$ par exemple).

C'est ce qu'il convient de faire pour tous les tests où c'est l'hypothèse nulle qui est au centre de l'intérêt théorique (test d'homogénéité, test d'adéquation d'un modèle, test de normalité). La valeur $p$ de l'exercice précédent reste encore largement au-dessus de ce seuil élevé. En contrepartie, nous ne pouvons cependant pas obtenir la probabilité de nous tromper en acceptant $H_{0}$.

Découverte de l'interface R2STATS

L'interface statistique ci-dessous est un logiciel statistique. Bien qu'encore en développement, il couvre déjà un champ assez large d'applications : charger un fichier de données brutes, calculer toutes les statistiques dont nous avons besoin pour résumer des données (moyennes, écarts-type, effectifs) et procéder à des tests (comparer des moyennes ou des variances, sur deux ou plus de deux groupes).

Atelier 1 : étude la relation entre QI et Genre

Dans cet atelier, nous reprenons l'exemple du chapitre précédent sur la comparaison des scores QI chez les garçons et les filles. Nous allons voir comment obtenir dans cette unique interface : i) le calcul des moyennes de QI chez les garçons et les filles, ii) le test de l'homogénéité des variances de population à l'aide d'un $F$ de Fisher, iii) la comparaison de ces moyennes à l'aide d'un $T$ de Student. Suivez les étapes indiquées en dessous de l'interface pour apprendre à l'utiliser.


Etapes d'une analyse sous R2STATS

L'interface est constituée de 5 onglets qui suivent les étapes logiques d'une analyse de données : 1) Charger un fichier de données, 2) examiner le tableau des données, 3) construire un modèle et estimer ses paramètres, 4) étudier les résultats numériques (estimations et tests), et 5) observer les représentations graphiques correspondantes.

  1. Commencez par télécharger et enregistrer le fichier de données QI sur votre disque : il s'appelle wais2.csv. R2STATS vous permet de charger des fichiers au format CSV (comma separated values). Ce format peut être obtenu facilement par export à partir de LibreOffice ou Excel.
  2. Allez dans l'onglet Fichiers et cliquez sur le bouton bleu pour ouvrir l'explorateur de fichiers de votre ordinateur et aller chercher le fichier là où vous l'avez sauvegardé.
  3. R2STATS vous bascule automatiquement dans l'onglet Données et examinez la structure en deux colonnes de ce fichier. Pour une analyse correcte et complète de la comparaison de deux moyennes sur groupes indépendants, on a besoin : i) d'une colonne des scores individuels (variable numérique), ii) d'une colonne identifiant le groupe auquel l'individu appartient (variable catégorielle).

    Avec ces deux colonnes, le logiciel peut reconstituer toute l'information utile : le nombre de groupes, le nombre d'individus dans les groupes, la moyenne générale de performance, les moyennes et variances de groupes.

  4. Allez ensuite dans l'onglet Modèles. Observez la liste des variables en haut à gauche, et cliquez tour à tour sur chacune. Observez comment les statistiques descriptives s'affichent automatiquement en dessous. Les indices descriptifs sont numériques avec une variable numérique (moyenne, écart-type...) et fréquentiels avec une variable catégorisée (ou « facteur »).

    Dans la partie droite, donnez un nom (arbitraire) au modèle. Généralement, on donnera des noms numérotés (M1, M2, etc.) pour pouvoir facilement les désigner et les comparer ensuite. R2STATS est fondamentalement un outil de comparaison de modèles, d'où l'importance de nommer les modèles.

    A la suite, choisissez la variable dépendante dans la liste déroulante correspondante, et choisissez pour elle une hypothèse de distribution. Comme nous souhaitons calculer un $T$ de Student pour la comparaison des moyennes, et un $F$ de Fisher pour la comparaison des variances, nous savons que cela n'est possible que si les scores sont issus d'une loi normale. C'est donc le choix que nous faisons ici. R2STATS vous donnera automatiquement les résultats d'un test de cette hypothèse supplémentaire, avec les autres résultats.

    Ajoutez ensuite le nom d'une variable indépendante dans la boite de saisie correspondante, soit en tapant son nom directement, soit en la sélectionnant dans la liste des variables disponibles (à gauche) et en cliquant sur le bouton '+'. Dans le cas présent, nous souhaitons tester l'impact du Genre (variable indépendante) sur le score QI (variable dépendante), et les champs doivent donc être sélectionnés/remplis en conséquence.

  5. Cliquez enfin sur le bouton Estimer.


Analyse des résultats

R2STATS fournit un grand nombre de résultats numériques. Dans le cadre de ce premier problème simple de la comparaison de deux moyennes, nous n'avons besoin que de trois éléments :

  1. le test de normalité (peut-on raisonnablement penser que les scores sont issus d'une loi normale ?),
  2. le test d'homogénéité des variances (peut-on raisonnablement penser que les variances de population sont les mêmes ?),
  3. le test $T$ de Student.

Les deux premiers tests sont fournis à la rubrique « Test des conditions ». On cherche dans ces deux tests à argumenter une absence de différence par rapport à un scénario attendu : l'écart à la normalité doit être négligeable, la disparité des deux variances aussi. On cherche donc à cet endroit des valeurs $p$ aussi élevées que possible (en pratique on conviendra d'accepter ces deux hypothèses si $p>0.10$). Avec ici $p = 0.2194$ pour le test de normalité (le principe technique de ce test est étudié plus loin) et $p = 0.9157$ pour le test d'homogénéité, nous considérons ces deux pré-requis comme acceptables. On note que si l'une ou l'autre de ces conditions est rejetée, le test de Student qui suit n'a pas de sens, car il s'appuie sur ces deux hypothèses.

Ces deux premiers points acceptés, on se tourne vers la comparaison de moyennes. R2STATS présente les différences de groupes de deux manières : en listant les moyennes et écarts-type de groupe à la rubrique « Structure de groupe », mais aussi en décomposant ces moyennes en effets, à la rubrique « Paramètres ». Dans la présentation des résultats en effets, on préfère, plutôt que de lister les deux moyennes de groupes $\bar{x}_1=106.9333$ et $\bar{x}_2=102$, recoder la même information en un niveau de base (ou intercept, ici 106.9333, correspondant au niveau des femmes) et un effet différentiel apparaissant chez les hommes (ici -4.9333), qui n'est autre que la différence des deux moyennes.

Cette présentation en effet est surtout utile quand on a plus de deux moyennes et qu'on souhaite les comparer préférentiellement à certaines plutôt qu'à d'autres (à un groupe contrôle par exemple). Ici, l'effet à tester est celui qui différencie les hommes du niveau de base, défini arbitrairement comme étant celui des femmes. Sur la ligne SexeM, on lit donc l'effet différentiel (-4.9333) qui apparaît dans l'étude quand on considère un sujet homme, par rapport au référentiel des femmes. Sur la même ligne, un $T$ de Student permet de comparer cet effet à 0, autrement dit vient simplement tester contre la valeur théorique 0 la différence des deux moyennes de population.

En-dessous du tableau des paramètres, on trouve la valeur estimée de l'écart-type commun calculé sur les deux groupes : $s=15.327385$. On peut constater que les deux écarts-type, calculés séparément, sont très proches de cette valeur unique, matérialisant l'hypothèse d'homogénéité des variances.

On retrouve le résultat calculé dans le chapitre précédent : $t(58)=-1.2466$, $p < 0.2176$, et on ne peut rejeter l'hypothèse nulle. Nous ne détectons pas de différence de performance QI entre les hommes et les femmes dans cette étude.

Exercices d'application

En préparation.