Test sur une moyenne (variance inconnue)
De la loi normale à la loi de Student
Nous revenons dans cette partie sur le test de comparaison d'une moyenne à une norme. Nous avons dans une partie précédente traité ce problème avec la statistique : $$Z=\frac{\bar{X}-\mu}{\sqrt{\sigma^{2}/N}}$$ dont on sait qu'elle suit une loi normale centrée réduite.
Cependant, si on y regarde de plus près, cette statistique a deux paramètres inconnus, $\mu$ et $\sigma^{2}$. Nous avons traité l'inconnue $\mu$ en faisant une hypothèse sur elle ($\mu=\mu_{0}$) et avons fait semblant de connaître $\sigma^{2}$ (en l'assimilant à la variance d'étalonnage de la WAIS). Cela revient au fond à faire simultanément une deuxième hypothèse nulle $\sigma^2=\sigma_{0}^{2}$. La difficulté logique que nous rencontrons est que si l'on fait deux hypothèses nulles simultanément, nous ne saurons pas quoi conclure d'une valeur $p$ faible : faut-il rejeter $\mu=\mu_0$, ou $\sigma^2=\sigma_{0}^{2}$, ou les deux en même temps ?
On le comprend, nous aimerions disposer d'un test permettant de mettre à l'épreuve une hypothèse sur la moyenne, sans en faire sur la variance. On aimerait dans ces situations pouvoir utiliser une statistique un peu différente, de la forme : $$T=\frac{\bar{X}-\mu}{\sqrt{S^{2}/N}}$$ où c'est la variance d'échantillon corrigée $S^2$ qui apparaît au dénominateur. Une telle statistique n'aurait qu'un seul paramètre inconnu ($\mu$). Mais elle combinerait deux variables aléatoires : $\bar{X}$ de loi normale, et $S^2$ de loi $\chi^2$, et la distribution du rapport des deux a toutes chances de ne plus suivre une loi normale. Pour déterminer sa loi, nous avons besoin d'étudier un nouveau modèle de distribution théorique, nommé loi de Student (Student, 1908). Celui-ci a un statut un peu particulier : il ne sera pas tant utile pour décrire la distribution de données brutes réelles, mais d'une statistique de décision, dérivée de la moyenne d'échantillon.
Si deux variables aléatoires indépendantes $U$ et $V$ sont telles que $U\sim N(0,1)$ et $V\sim\chi^{2}(\nu)$, alors la variable : $$T=\frac{U}{\sqrt{V/\nu}}$$ suit par définition une loi de Student à $\nu$ degrés de liberté. On note $T\sim Student(\nu)$ ou $T\sim t(\nu)$.
Propriété. C'est une loi symétrique, en général plus « pointue » que la loi normale. Elle tend néanmoins vers la loi normale lorsque le nombre de degrés de liberté croît.
Remarque. La lettre grecque $\nu$ est l'équivalent d'un $n$ (comme « nombre ») de l'alphabet latin. Elle se prononce « nu ».
Construction de la statistique de Student sur une moyenne
Cette distribution peut servir de modèle de distribution pour plusieurs statistiques de décision. En particulier, si l'on note que dans une population normale de moyenne $\mu_{0}$ et de variance $\sigma^{2}$ : $$U=\frac{\bar{X}-\mu_{0}}{\sqrt{\sigma^2/N}}\sim N(0,1)$$ et que : $$V=(N-1)\frac{S^{2}}{\sigma^{2}}\sim\chi^{2}(N-1)$$ alors on a : $$T = \frac{U}{\sqrt{V/(N-1)}} = \frac{\frac{\bar{X}-\mu_{0}}{\sqrt{{\color{Cyan}\sigma^2}/N}}}{\sqrt{(N-1)\frac{S^{2}}{{\color{Cyan}\sigma^{2}}}\left(\frac{1}{N-1}\right)}}\sim Student(N-1)$$
Cette statistique se simplifie en : $$T=\frac{\bar{X}-\mu_{0}}{\sqrt{S^2/N}}\sim Student(N-1)$$ où le paramètre de variance inconnue $\sigma^{2}$ a simplement disparu.
On dispose donc d'une loi exacte (sous l'hypothèse de normalité de la population parente des scores étudiés) pour cette statistique de décision calculée avec les moyenne et variance empiriques. Il n'y a plus qu'un seul paramètre inconnu de moyenne sur lequel on pose l'hypothèse $H_0\ :\mu=\mu_0$.
Atelier 1 : loi de Student et loi normale standard
-
expand_moreEn résumé
Cet atelier permet de comprendre que :
- lorsque la taille $N$ d'échantillon grandit, l'estimateur corrigé $S^{2}$ de la variance tend vers la valeur vraie $\sigma^{2}$, sa variabilité d'échantillonnage diminue, et la forme de la distribution de Student se rapproche rapidement de celle de la loi normale centrée-réduite. On peut donc utiliser la statistique $T$ dans tous les cas : elle prend en compte la distribution de l'estimateur de variance quand il y a peu d'observations, et donne des conclusions semblables à la statistique $Z$ quand il y en a beaucoup.
- si l'expression mathématique de la statistique $T$ ressemble beaucoup à celle de la statistique $Z$, où la variance vraie est remplacée par son estimateur sans biais, le raisonnement qui y mène est très différent. En particulier, nous n'avions pas besoin de faire d'hypothèse précise sur la distribution des $X$ avec le test $Z$ (seule la distribution asymptotiquement normale de la moyenne $\bar{X}$ était invoquée, par le théorème central limite). Mais il n'en va plus de même avec le $T$ de Student. Sa construction requiert que la variable score suive une loi normale, pour que la variable au dénominateur soit bien distribuée $\chi^2$. Nous apprendrons à tester cette hypothèse un peu plus loin.
- la forme de la loi de Student est en général plus pointue (on dit « leptokurtyque ») que la loi normale.
Exercice modèle : test sur une moyenne
Sur un groupe de $N=30$ étudiants, on trouve une moyenne empirique à la WAIS de $\bar{x}=110$ et un écart-type empirique corrigé de $s=14.5$. Peut-on dire que la moyenne vraie chez les étudiants est supérieure à ce qu'elle est dans la population de référence (c'est-à-dire $\mu_{0}=100$) ? L'application de la méthode par valeur $p$ à ce type de situation suppose de passer par 6 étapes, qui sont détaillées ci-dessous.
play_arrowIdentification de la nature des données
Pour pouvoir calculer des probabilités, et juger du caractère surprenant de certains résultats, toute statistique fait une certaine hypothèse sur la distribution des données. Le choix qu'on fait pour cette distribution dépend de la nature des données. Par exemple, nous avons vu que sur des données de type comptages (numériques, discrètes, bornées à gauche et à droite), on pouvait à certaines conditions (indépendance des observations, stabilité d'une probabilité unique) utiliser les lois binomiale et multinomiale.
Les résultats à un test de QI ne sont pas des comptages à proprement parler. Il est usuel en psychologie de les considérer comme des variables numériques continues. Dans ces cas, on utilise souvent la loi normale comme modèle de distribution pour les données. Strictement parlant, la loi normale est une distribution pour variables numériques continues sans bornes, ce qui n'est jamais le cas avec des scores psychologiques. Mais comme elle est aussi par nature une loi limite, c'est-à-dire jamais véritablement exacte, nous prendrons l'habitude de tester la qualité de l'approximation qu'elle propose pour nos données (test de normalité). En général, elle sera acceptable dans un grand nombre de cas si les données ne sont pas victimes d'un effet de borne (effet seuil ou effet plafond). Nous supposons donc ici la distribution normale pour ces scores (mais apprendrons à le tester formellement plus loin).
play_arrowType de problème statistique
La loi normale a deux paramètres nommés moyenne et variance (ou paramètres de position et d'échelle). Si on note $X$ la variable score au QI, on pose l'hypothèse distributionnelle $X\sim N(\mu,\sigma^2)$. La question posée, en termes de niveau général d'un groupe, revient à faire des hypothèses sur le premier de ces paramètres. Le type de problème statistique ici est la comparaison d'une moyenne à une valeur normative, dans le cas où la variance vraie est inconnue.
Remarque importante. Cette formulation du type de problème dépend directement du modèle de distribution choisi et de la signification de ses paramètres : dans la cadre binomial on pose des hypothèses sur un paramètre de probabilité, dans le cadre gaussien sur des paramètres de moyenne ou de variance, etc.
play_arrowHypothèses statistiques
De deux choses l'une : soit ces étudiants ont un niveau moyen réel de performance supérieur à la norme connue dans la population générale (ce qui pourrait s'argumenter par le fait que des étudiants ont des aptitudes intellectuelles particulières) ou bien leur performance relève simplement de la norme de population. On note qu'il ne serait pas théoriquement argumentable qu'ils aient en réalité une performance moyenne inférieure à la norme et cette hypothèse n'est pas envisagée. Les hypothèses statistiques en concurrence dans cette situation sont donc : $$\begin{aligned} H_{0}:\mu &= \mu_{0} \\ H_{1}:\mu &> \mu_{0} \\ \end{aligned} $$ On dit de l'hypothèse $H_1$, appelée hypothèse alternative, qu'elle est orientée (ou unilatérale) à droite : s'il existe une différence à la norme, nous supposons qu'elle apparaît en surperformance (à droite de la norme).
play_arrowStatistique de décision
Comme la variance vraie est inconnue (et qu'on ne souhaite pas faire d'hypothèse sur elle), on doit l'estimer à partir des données disponibles et la statistique de décision appropriée est un $T$ de Student : $$T=\frac{\bar{X}-\mu}{\sqrt{S^2/N}}$$ Si i) les scores sont indépendants, ii) tous de même loi normale, et iii) $H_{0}:\ \mu=\mu_{0}$ est vraie, on sait que cette statistique suit une loi de Student à $N-1=29$ degrés de liberté.
A l'aide du calculateur ci-dessus, en réglant correctement le nombre de degrés de liberté, et en saisissant dans le champ quantile l'expression « (110-100)/sqrt(14.5**2/30) », on calcule : $$t = \frac{\bar{x}-\mu_{0}}{\sqrt{s^2/N}}=\frac{110-100}{\sqrt{14.5^2/30}}\approx 3.7774$$
play_arrowConclusion statistique
On obtient la valeur $p=P(T_{29} > 3.7774|\mu=100) < 0.000365$. Si réellement la moyenne vraie de ces étudiants est de 100, il y très peu de chance de se retrouver avec une valeur de $t$ aussi grande, et donc indirectement avec une valeur de $\bar{x}$ aussi grande. Plus formellement, au seuil de décision $\alpha=0.05$, on a $p < \alpha$ et on décide de rejeter l'hypothèse nulle avec moins de 4 chances sur 10000 de se tromper.play_arrowConclusion psychologique
Les étudiants ont un niveau moyen de performance à la WAIS qui est supérieur à la moyenne d'étalonnage.
Atelier 2 : test de comparaison d'une moyenne à une norme
Dans cet atelier, on suit les 6 étapes de la méthode par valeur $p$ sur un nouvel exemple : sur un groupe de $N=35$ patients schizophrènes, on trouve à la WAIS $\bar{x}=95$ et $s=16.5$. Peut-on dire, au seuil $\alpha=0.05$, que cette population a une performance inférieure à la moyenne de la population générale au test de QI ? Pour répondre, suivez les questions du quiz ci-dessous. Le calculateur ci-dessous vous permet d'obtenir automatiquement les statistiques de décision.
-
expand_moreEn résumé
Cet exercice permet de revoir les 6 étapes de la démarche par valeur $p$, et de se familiariser avec la statistique de Student. En particulier, on retient que :
- le choix d'un modèle de distribution pour les données est fondamental pour traduire la question psychologique en un jeu d'hypothèses sur l'un ou l'autre des paramètres de ce modèle. Si c'est la loi normale qui est appropriée, alors des hypothèses sur la moyenne et la variance sont possibles.
- la statistique de Student est appropriée dans chaque cas où l'on n'a pas d'information sur la variance vraie d'un score. La statistique de Student permet d'inférer sur la moyenne sans avoir à faire d'hypothèse sur la variance.
- le sens de l'alternative a des conséquences très importantes sur le calcul de la valeur $p$ et peut conduire à des conclusions très différentes selon le sens choisi. Il est donc important de bien réfléchir à cette étape de définition de $H_1$. En général, selon que l'attente est formulée en termes de sous ou sur-performance, cela se traduira par une alternative orientée à gauche ou à droite, respectivement. Si la question porte sur une éventuelle différence, sans indication d'orientation, alors l'alternative sera définie comme bilatérale.
Application : test sur des mesures répétées
On cherche souvent en psychologie à mettre en place une intervention dont on souhaite évaluer les effets sur un groupe de sujets, dans un schéma avant/après : une méthode éducative, une psychothérapie, une manipulation expérimentale... En général, on établit une mesure de performance avant toute intervention, puis on met en place l'intervention, et on mesure la performance des sujets une deuxième fois, pour voir si elle a significativement changé, en moyenne sur l'ensemble des sujets.
Par exemple, dans une expérience d'apprentissage, un psychologue demande à un groupe de 9 sujets de réaliser individuellement une tâche sensori-motrice. La tâche est répétée 4 fois pour chaque sujet. Le psychologue considère les nombres d'erreurs commises par les sujets au premier et au quatrième essais de cet apprentissage, pour voir s'il y a eu amélioration de la performance.
Sujets | Essai 1 | Essai 4 | Différence |
---|---|---|---|
1 | 29 | 21 | 8 |
2 | 43 | 34 | 9 |
3 | 31 | 24 | 7 |
4 | 33 | 28 | 5 |
5 | 37 | 30 | 7 |
6 | 28 | 22 | 6 |
7 | 40 | 32 | 8 |
8 | 32 | 25 | 7 |
9 | 25 | 19 | 6 |
Moyennes | 33.11111 | 26.11111 | 7.00000 |
Ecarts-type | 5.861835 | 5.182771 | 1.224745 |
Le tableau ci-contre rapporte le nombre d'erreurs commises dans la réalisation de la tâche à l'essai et à l'essai 4 (dernier essai). On cherche à voir si après entraînement, le nombre d'erreurs a significativement diminué, ce qui traduirait l'effet d'un apprentissage. On voit (en bas de colonne) que les sujets faisaient en moyenne $\bar{x}_1=33.11111$ erreurs au premier essai, mais qu'ils n'en font plus que $\bar{x}_2=26.11111$ au dernier essai. Cette différence entre les deux moyennes semble suggérer que les sujets s'améliorent avec l'entraînement, mais avant de conclure, nous nous souvenons que le score d'un sujet est une variable aléatoire, et que chacun de ces scores aurait pu être différent. Cela implique que les moyennes de nombre d'erreurs à l'essai 1 et à l'essai 4 sont elles-mêmes des variables aléatoires ($\bar{X}_1$ et $\bar{X}_2$, en majuscules) avec leur propre fluctuation (revoir au besoin la section « La moyenne comme variable aléatoire »).
Nous ne souhaitons donc pas simplement constater une différence numérique (évidente) entre les deux moyennes empiriques, mais en réalité comparer les deux moyennes inconnues $\mu_1$ et $\mu_2$ d'erreurs, dont $\bar{x}_1$ et $\bar{x}_2$ ne sont que des réalisations aléatoires. C'est toute la différence entre une différence de moyennes constatée (ici il y a 7 points d'écart entre les deux moyennes d'échantillon) et une différence déclarée comme significative, c'est-à-dire difficilement imputable à la seule erreur d'échantillonnage. Pour conclure à un effet d'apprentissage, il nous faut montrer qu'une telle différence constatée n'aurait que peu de chancces d'être produite par le hasard de l'échantillonnage.
Présenté sous cette forme, on dira qu'on cherche à comparer deux moyennes inconnues mesurées sur les mêmes sujets. On appelle ce type de problème : comparaison de deux moyennes inconnues sur échantillons dépendants (ou appariés, car chaque sujet est caractérisé par une paire de valeurs). Il existe plusieurs manières statistiquement de traiter cette question, mais nous regardons ici la plus simple d'entre elle, qui consiste à reformuler le problème comme une simple comparaison d'une moyenne à une valeur théorique.
Le tableau contient une colonne « Différence », qui rapporte pour chaque sujet l'évolution de son nombre d'erreurs de l'essai 1 à l'essai 4. Le sujet 1, par exemple, faisait initialement 29 erreurs, et n'en a fait que 21 en fin de session, soit une diminution de 8 erreurs à la faveur de l'entraînement. Imaginons qu'il n'y a en réalité aucun effet d'apprentissage dans cette expérience : la variation dans le nombre d'erreurs n'est que le fruit de l'erreur d'échantillonnage. Si cette hypothèse est correcte, les scores vrais des sujets sont exactement identiques, et leurs nombres d'erreurs observés, de l'essai 1 à l'essai 4, devraient parfois augmenter, parfois diminuer. Dans la population, la variation dans le nombre d'erreurs devrait être de moyenne vraie nulle, les variations positives annulant les variations négatives sur une infinité d'observations.
Il est donc possible de raisonner sur ce problème à deux moyennes, en se concentrant sur la seule variable $D$ « Différence » et en faisant l'hypothèse nulle $\mu_D=0$. Ce faisant, nous simplifions le problème en le ramenant à celui de la comparaison d'une unique moyenne à une norme. Une statistique de Student peut être calculée sous la forme : $$T=\frac{\bar{X}_D-\mu_D}{\sqrt{S_{d}^2/N}}$$ ou $\bar{X}_D$ et $S^2_D$ sont les moyenne et variance observées de la colonne des différences.
Ou encore, en remarquant que la moyenne des différences en ligne est égale à la différence des moyennes en colonne (c'est-à-dire $\bar{X}_D=\bar{X}_{1}-\bar{X}_{2}$): $$T=\frac{\left(\bar{X}_{1}-\bar{X}_{2}\right)-\mu_D}{\sqrt{S_{d}^2/N}}$$
Sous l'hypothèse nulle $H_0:\ \mu_D=0$, cette expression se simplifie encore, et si les performances des sujets sont indépendantes et que leur évolutions respectent un schéma de loi normale, on peut écrire finalement que : $$T=\frac{\bar{X}_{1}-\bar{X}_{2}}{\sqrt{S_{d}^2/N}}\sim Student(N-1)$$
Le calcul concret ici donne : $$t_{8}=\frac{\bar{x}_{1}-\bar{x}_{2}}{\sqrt{s_{d}^2/N}}=\frac{7}{\sqrt{1.224745^2/9}}\approx17.14643 $$ Compte tenu du fait que nous sommes dans une expérience d'apprentissage, en cas de rejet de l'hypothèse nulle nous nous attendons à une diminution élevée du nombre d'erreurs et l'hypothèse alternative est donc unilatérale à droite. En remplissant le calculateur ci-dessus avec ces différents éléments, on trouve facilement que $P(T_8 > 17.14643|\mu_D=0)\approx0$ ($p < \alpha$). On peut donc rejeter l'hypothèse nulle d'absence de progrès avec très peu de chances de se tromper : l'apprentissage a permis aux sujets de s'améliorer.
Exercices d'entraînement
-
La marine américaine s'intéresse aux effets de la profondeur sur la performance des plongeurs. On sait que la profondeur de plongée augmente dans le sang des plongeurs le taux d'azote, potentiellement générateur de ralentissement cognitif et même de perte de connaissance. Une expérience est menée sur $N=20$ sujets pour voir dans quelle mesure une pression forte d'azote porte atteinte à la faculté de raisonner conceptuellement, mesurée par un temps moyen mis à résoudre des problèmes.
Sur les mêmes plongeurs, on observe à 30 mètres de profondeur un temps moyen de résolution de $\bar{x}_1=$7.47 secondes, et à 60 mètres un temps moyen de $\bar{x}_2=$10.21 secondes, soit une différence moyenne de $\bar{x}_d=$-2.74. L'écart-type des différences de temps de résolution observées sur chaque plongeur est $s_{d}=$2.573631.
Diriez-vous que la profondeur (et la narcose induite) ralentit le raisonnement ($\alpha=0.05$) ?
-
Liu et al. (2018) rapportent une étude portant sur $N=10$ sujets qui souffrent d'un surpoids important. Ceux-ci sont soumis à un programme intensif d'accompagnement, alimentaire et sportif, de 12 semaines.
Sujets Semaine 0 Semaine 12 Différence 1 35 37 −2 2 32 26 6 3 27 28 −1 4 26 24 2 5 33 27 6 6 28 26 2 7 26 23 3 8 28 27 1 9 33 27 6 10 30 24 6 Moyennes 29.8 26.9 2.9 Ecarts-type 3.259175 3.900142 3.034981 L'indice de masse corporelle (IMC, poids en kilo divisé par le carré de la taille en mètres) est calculé avant le démarrage du programme, puis au bout de 12 semaines.
Cet indice est un bon indicateur de la masse graisseuse dans le corps. Les deux valeurs sont rapportées pour chaque sujet dans le tableau ci-contre, ainsi que la différence en IMC entre démarrage et fin de programme.
- Un IMC de 25 est considéré comme le seuil de définition du surpoids. Diriez-vous au seuil de $\alpha=0.05$ que l'échantillon étudié, au démarrage du programme, est globalement en surpoids ?
- En termes de progression, diriez-vous que ce programme a été efficace pour la perte de masse graisseuse, au seuil $\alpha=0.05$ ?
- A l'issue du programme, l'échantillon doit-il toujours être considéré comme obèse, au seuil $\alpha=0.05$ ?
-
expand_moreCorrection
- On trouve à l'aide du calculateur : $$t_{19}=\frac{\bar{x}_{1}-\bar{x}_{2}}{\sqrt{s_{d}^2/N}}=\frac{7.47-10.21}{\sqrt{2.573631^2/20}}=-4.761231 $$ Si l'hypothèse nulle d'absence d'effet de la profondeur ($\mu_D=0$), on s'attend à un effet pénalisant de la profondeur et les différences de temps de réolution devraient en moyenne être négatives. L'hypothèse alternative est donc unilatérale à gauche dans ce contexte. Le calculateur nous donne $P(T_{19} < -4.76)=0.000068$. On peut donc rejeter l'hypothèse nulle avec une probabilité infime de se tromper. Le temps moyen de résolution des problèmes est significativement plus court à 30 mètres qu'à 60. La profondeur a donc bien un effet de ralentissement cognitif.
-
Les trois questions se centrent sur les trois moyennes tour à tour :
- Initialement, le poids moyen est de $\bar{x}_1=29.8$ avec un écart-type de $s_1=3.259175$ calculé avec $N=10$ sujets. Avec ces données, et la norme théorique d'un IMC de 25, le calculateur nous donne $t_9=4.657293$. On cherche à détecter le surpoids et l'hypothèse alternative est unilatérale à droite. Avec cette option, le calculateur indique que $P(T_9 > 4.657293|\mu_0=25)=0.000595$, ce qui est infime par rapport au seuil $\alpha=0.05$. On peut donc conclure que l'IMC moyen de l'échantillon est significativement supérieur à la limite de 25, et qu'il peut donc être caractérisé comme obèse.
- Quand on s'intéresse non pas aux IMC absolus, mais à leur évolution, les données pertinentes sont celles de la colonne des différences. On a une diminution moyenne de l'IMC de $\bar{x}_d=2.9$ points, avec un écart-type de ces différences $s_d=3.034981$, calculé sur $N=10$ sujets. On cherche à détecter une différence positive (c'est-à-dire une diminution des IMC de la semaine 0 à la semaine 12) et l'alternative est unilatérale à droite. Dans cet usage d'un test de comparaison d'une moyenne à une norme pour la mesure d'une évolution, la norme est $\mu_0=0$. Avec ces données, on trouve dans le calculateur $t_9=3.021635$, et $p=P(T_9 > 3.021635|\mu_0=0)=0.007221$. On a $p < \alpha$ et on peut donc rejeter l'hypothèse nulle d'absence d'évolution. Le programme a permis aux sujets de significativement diminuer leurs IMC.
- Au final, l'IMC moyen atteint par les sujets à la fin du programme est de $\bar{x}_2=26.9$ ($s_2=3.900142, N=10$). En cherchant à regarder s'ils sont toujours au-dessus de la norme 25, on définit une alternative unilatérale à droite. Avec ces données, on trouve dans le calculateur $p=P(T_9 > 1.540541|\mu_0=25)=0.078908$. On a $p > \alpha$ et on ne peut rejeter l'hypothèse nulle. On peut donc dire que non seulement le programme leur a permis de réduire significativement (en moyenne) leur IMC (cf. point précédent), mais que cette diminution leur a permis de revenir dans la zone limite de définition du surpoids.