Distribution d'une moyenne

La moyenne comme variable aléatoire

Considérons la situation où nous faisons passer à $N$ sujets un test (de QI par exemple). Chaque sujet obtient la note $x_{i}$ au test (ou $i$ nous sert à numéroter les sujets de 1 à $N$).

Nous allons nous abstraire de ce que nous observons concrètement (une série de scores), pour considérer que si le sujet $i$ a obtenu le score observé $x_{i}$, les choses auraient pu se passer autrement. Un patient Alzheimer par exemple, à qui l'on fait passer deux fois le même test de perception spatiale (et qui en oublie les détails quelques minutes après), n'obtiendra pas deux fois le même score en général. Sa note observée sur une passation est donc la réalisation concrète d'une variable aléatoire score du sujet $i$, que nous noterons en majuscule $X_{i}$.

De la même manière, nous pouvons calculer sur une étude donnée une moyenne empirique $\bar{x}_{1}$ de scores sur un échantillon de sujets. La même étude, reproduite une deuxième fois sur les mêmes sujets, dans des conditions standardisées supposées identiques, n'est pas assurée de conduire à une valeur de moyenne empirique $\bar{x}_{2}$ telle que $\bar{x}_{2}=\bar{x}_{1}$. Dans une perspective d'inférence, la moyenne d'échantillon, pour une taille $N$ fixée, apparaît donc également comme une variable aléatoire moyenne, notée en majuscule $\bar{X}_{N}$, dont $\bar{x}_{1}$, $\bar{x}_{2}$, etc. sont des réalisations concrètes.

Ce double niveau d'échantillonnage peut être représenté comme le tirage de $p$ échantillons $E_{1},E_{2},...,E_{p}$ de même taille $N$ : $$\begin{array}{cccccc} E_{1}: & x_{1}^{(1)} & x_{2}^{(1)} & ... & x_{N}^{(1)}\\ E_{2}: & x_{1}^{(2)} & x_{2}^{(2)} & ... & x_{N}^{(2)}\\ \vdots & & & \vdots\\ E_{p}: & x_{1}^{(p)} & x_{2}^{(p)} & ... & x_{N}^{(p)} \end{array}$$ dont on calcule tour à tour les moyennes empiriques $\bar{x}_{1},\bar{x}_{2},\ldots,\bar{x}_{p}$.

Si nous concevons $\bar{X}_{N}$ comme une variable aléatoire, peut-on spécifier sa distribution de probabilité ? Un tel résultat nous permettrait, quand on obtient une moyenne dans une étude en psychologie, d'avoir une idée de ce que cette moyenne aurait pu prendre comme autres valeurs (sans avoir besoin de faire une infinité d'études du même type). Elle nous permettrait aussi de juger si cette moyenne est étonnamment grande ou petite, en regardant si elle était probable ou non dans la distribution de référence.

Atelier 1 : échantillonnage d'une moyenne

Dans cet atelier, on prélève un nombre fixé $p$ de groupes (échantillons) de personnes qui ont passé un test de QI. Chaque échantillon comprend $N$ observations (sujets). On calcule la moyenne empirique $\bar{x}$ pour chacun des $p$ échantillons et c'est la distribution de ces moyennes qui est représentée. On sait que les scores des individus sont issus d'une loi $N(100,15^2)$ et on compare cette distribution d'origine sur les scores individuels, avec la distribution des moyennes de groupes.

Pour faciliter cette comparaison, on affiche au-dessus de l'histogramme les moyenne (notée $m$), variance (notée $s^2$) et écart-type (noté $s$) de la distribution des moyennes.

  • expand_moreEn résumé

    En répondant aux questions de cet exercice, trois éléments apparaissent :

    • la distribution d'une moyenne d'échantillon semble être une loi normale. On peut le démontrer en invoquant le théorème central limite : pour calculer une moyenne, on fait d'abord une somme de variables aléatoires scores indépendantes. Si les sujets sont de niveau homogène (tirés d'une même distribution), on sait que cette opération construit une variables normale. La division par $N$ de cette somme ne fait que changer l'échelle de cette loi normale (voir atelier suivant).
    • la moyenne vraie (ou espérance) de la distribution des moyennes semble être exactement la même que celle des scores d'origine. En utilisant l'algèbre des espérances, on a en effet : $$\begin{aligned} E(\bar{X}_{N}) &=E\left[\frac{X_{1}+X_{2}+...+X_{N}}{N}\right]\\ &=\frac{1}{N}E(X_{1}+X_{2}+...+X_{N})\\ &=\frac{1}{N}\left\{ E(X_{1})+E(X_{2})+...+E(X_{N})\right\}\\ &=\frac{1}{N}N\mu\\ &=\mu \end{aligned}$$
    • la variance vraie de la distribution des moyennes, par contre, semble affectée par la taille des échantillons qu'on prélève. Elle est en effet toujours $N$ fois plus petite que la variance des scores d'origine : $$\begin{aligned} V(\bar{X}_{N}) &=V\left[\frac{X_{1}+X_{2}+...+X_{N}}{N}\right]\\ &=\frac{1}{N^2}V(X_{1}+X_{2}+...+X_{N})\\ &=\frac{1}{N^2}\left\{ V(X_{1})+V(X_{2})+...+V(X_{N})\right\}\\ &=\frac{1}{N^2}N\sigma^2\\ &=\frac{\sigma^2}{N} \end{aligned}$$

    Au final, en réunissant ces trois éléments, on spécifie la distribution d'une moyenne d'échantillon comme : $$\bar{X}_{N}\sim N\left(\mu,\frac{\sigma^{2}}{N}\right)$$

Exercice-type : test d'hypothèse sur une moyenne (variance connue)

Le résultat de la section précédente peut-être utilisé en psychologie pour juger du caractère étonnamment élevé ou faible d'une moyenne de performance calculée sur un échantillon, pour peu qu'on dispose de normes d'étalonnage. Nous allons pour cela utiliser la méthode de décision dite par valeur $p$, différente de l'approche bayésienne que nous avons utilisée avec les modèles binomiaux et multinomiaux. Les deux approches ont leurs avantages et leurs inconvénients, et nous étudierons les deux.

Par exemple, le test d'intelligence de la WAIS est étalonné dans la population pour être de moyenne $\mu_{0}=100$ et d'écart-type $\sigma_0=15$. Sur un groupe de 70 étudiants, on trouve un QI moyen empirique de $\bar{x}=105$. En admettant que l'écart-type des scores chez ces étudiants soit le même que dans la population générale (nous reviendrons sur ce point), peut-on dire qu'ils ont une intelligence supérieure à la moyenne ?

Type de problème statistique

Nous dirons que le type de problème posé est de comparer une moyenne inconnue à une moyenne de référence (ou normative). En appelant $\mu$ la moyenne vraie (inconnue) dans la population dont sont issus ces étudiants, la question revient à se demander si $\mu$ est égale à la valeur qu'on connaît dans la population de référence ($\mu_0$) ou si elle est supérieure.

Attention : il ne s'agit pas de comparer la moyenne observée $\bar{x}$ et la norme $\mu_0$, car ce sont deux valeurs numériquement définies et il n'y a pas besoin de test pour voir que $\bar{x} > \mu_0$. La problématique est bien de comparer la moyenne inconnue $\mu$ des étudiants avec la norme $\mu_0$, et c'est là que l'inférence sur la population devient importante.

Hypothèses statistiques

On peut opposer deux hypothèses, qu'on appelle hypothèse nulle ($H_0$) et hypothèse alternative ($H_1$) : $$\begin{aligned} H_{0}:\mu &= \mu_{0} \\ H_{1}:\mu &> \mu_{0} \end{aligned}$$

L'hypothèse alternative est dite unilatérale à droite, ou orientée à droite (car elle suppose que la différence $\mu-\mu_0$ est à droite de 0).

Statistique de décision

Nous ne connaissons pas $\mu$ et le mieux qu'on puisse faire est de poser une hypothèse sur elle. Faute de mieux, nous supposons $\mu=\mu_{0}$. L'avantage de cette hypothèse est que nous savons, si elle est correcte, que : $$\bar{X}\sim N\left(\mu_{0},\frac{\sigma_0^{2}}{N}\right)$$ à condition que la taille de l'échantillon soit suffisante ($N>30$) pour pouvoir invoquer le théorème central-limite, que les observations soient indépendantes (ce sont des sujets différents, testés séparément), et que les scores individuels puissent être conçus comme tirés d'une même loi.

Dans l'atelier suivant, on utilise cette connaissance sur la distribution d'une moyenne d'échantillon pour décider si un résultat moyen de $\bar{x}=105$ obtenu sur 70 personnes est surprenant, c'est-à-dire de faible probabilité, au regard de ce modèle sur la distribution des scores d'origine.

Atelier 2 : test d'hypothèse sur une moyenne

Dans cet atelier, on saisit d'abord les paramètres de cette distribution de référence des scores d'origine ($\mu$ et $\sigma$), puis les données observées (moyenne empirique $\bar{x}$ et effectif $N$) et l'interface calcule pour nous la probabilité associée (cumulée à gauche ou à droite selon la question) associée à la moyenne observée $\bar{x}$.

On peut aussi faire un calcul dans l'autre sens, c'est-à-dire saisir une probabilité directement, et obtenir en retour le quantile (ou valeur critique) associé(e).

  • expand_moreEn résumé

    En répondant aux questions de cet exercice, vous avez expérimenté quatre types de calculs qu'on peut faire sur les probabilités associées à des valeurs de moyenne d'échantillon :

    • le cumul à droite d'une certaine valeur de moyenne observée. Il permet de prendre la mesure du caractère extrême d'une moyenne dans les hautes valeurs. C'est ce cumul qu'on utilise quand on veut argumenter qu'une valeur de moyenne empirique est étonnamment grande.
    • Inversement, un calcul de cumul à gauche permet de prendre la mesure du caractère extrême d'une moyenne dans les basses valeurs. C'est ce cumul qu'on utilise quand on veut argumenter qu'une valeur de moyenne empirique est étonnamment faible (sous-performance ou déficit).
    • Le cumul dans un intervalle permet de savoir quelle est la probabilité de voir la moyenne d'échantillon rester entre certaines bornes. On peut chercher à définir explicitement l'intervalle qui contiendra la moyenne d'échantillon dans un certain pourcentage de cas (par exemple 95%). C'est ce qu'on appelle un intervalle de confiance.
    • Le cumul à l'extérieur d'un intervalle permet de mesurer le caractère extrême d'une valeur de moyenne, quel que soit le sens (basses ou hautes valeurs), c'est-à-dire son caractère surprenant.

    On note que ces calculs sont tous fondés sur l'hypothèse fondamentale $X\sim N(100,15^2)$. On s'autorise à rejeter cette hypothèse de départ si $\bar{x}$ apparaît vraiment trop extrême, c'est-à-dire avec une valeur $p$ trop faible (comparée à un seuil arbitraire de petitesse note $\alpha=0.05$).

Changement d'origine et d'échelle

Il arrive très souvent en psychologie qu'on soit amener à transformer des mesures, soit par addition/soustraction d'une constante (changement d'origine), soit par multiplication/division par une constante (changement d'échelle), soit les deux. Il n'y a pas de mesures psychologiques qui aient vraiment d'origine (son zéro) et d'échelle (son unité) naturelles, et elles sont donc choisies par commodité ou effet de tradition.

Ces transformations d'une mesure $X$ en une nouvelle mesure $X'$ sont résumables sous la forme linéaire : $$X'=aX+b$$.

Atelier 3 : changement d'origine et d'échelle dans une densité normale

Dans cet atelier, on cherche à observer l'impact d'une telle transformation sur : i) la moyenne, ii) l'écart-type et iii) les densités, de la distribution des nouvelles valeurs ainsi engendrées. On choisit d'abord les paramètres d'une distribution de départ (champs « Moyenne » et « Ecart-type »), et on tire $N$ valeurs de scores dans cette distribution. Ces scores sont ensuite transformés par multiplication (champ « Multiplier par» et addition (champ « Ajouter ») et on cherche à deviner les paramètres vrais de cette série de notes modifiées en ré-échantillonnant.

  • expand_moreEn résumé

    Cet exercice permet de découvrir plusieurs propriétés des transformations linéaires sur les variables : l'impact sur la la moyenne et l'écart-type, et la notion de standardisation.

    • la linéarité de leur effet sur les paramètres de la loi normale. Il existe ainsi une infinité de lois normales, selon les valeurs prises par ses deux paramètres $\mu$ et $\sigma$. Nous savons que la transformation linéaire $X'=aX+b$, avec $a$ et $b$ réels quelconques, produit une nouvelle variable dont la moyenne $\mu'$ et l'écart-type $\sigma'$ se trouveront transformées selon (voir chapitre 1, p. 23 et chapitre 2, p. 41) : $$\begin{aligned} \mu' &= a\mu+b\\ \sigma' &= |a|.\sigma\\ \end{aligned}$$
    • En particulier, la standardisation, c'est-à-dire la transformation qui centre sur la moyenne et réduit par l'écart-type : $$X'=\frac{X-\mu}{\sigma}=\left(\frac{1}{\sigma}\right)X-\left(\frac{\mu}{\sigma}\right)$$ construit une nouvelle variable telle que : $$\begin{aligned} \mu' &= \left(\frac{1}{\sigma}\right)\mu-\left(\frac{\mu}{\sigma}\right)&=0\\ \sigma' &= \left(\frac{1}{\sigma}\right)\sigma&=1\\ \end{aligned}$$ Toute variable $X\sim N(\mu,\sigma^{2})$ peut donc être transformée en une variable $X'\sim N(0,1)$ par la transformation $X'=\frac{X-\mu}{\sigma}$.
    • Notion de statistique $Z$. En particulier, si $\bar{X}$ est une variable aléatoire qui suit une loi normale de moyenne $\mu$ et d'écart-type $\sqrt{\frac{\sigma^2}{N}}$, la variable centrée réduite (ou standardisée) : $$Z=\frac{\bar{X}-\mu}{\sqrt{\sigma^{2}/N}}$$ suit une loi normale centrée réduite : $Z\sim N(0,1)$.

      Dans la loi normale, cette transformation préserve les probabilités sous la courbe, même si les valeurs de la variable d'origine sont modifiées. Dans l'exemple du QI, la moyenne $\bar{x}=105$ devient après standardisation : $z=2.789$. On vérifie facilement dans le calculateur de probabilités normale que $P(Z > 2.789)=0.002645$ dans une $N(0,1)$ :

      Cette variable transformée peut donc être utilisée comme statistique de décision pour juger de la valeur d'une moyenne observée, dans les cas où l'on connaît la moyenne et la variance vraie du phénomène, à condition de régler l'interface avec des paramètres de moyenne et écart-type vrai à 0 et à 1 respectivement.

      La disponibilité des logiciels statistiques rend théoriquement moins utile cette transformation qui se justifiait surtout à l'époque où l'on utilisait une simple table sur papier de loi normale centrée réduite. Elle est néanmoins d'usage courant, et a l'avantage de fournir des valeurs sur une échelle identique quels que soient les variables étudiées.

    • L'impact de la dispersion sur les densités apparaît clairement : en augmentant la dispersion, on diminue les densités proportionnellement (préservation de la surface unité sous la courbe).

Exercices d'entraînement

  1. Refaire l'exercice type ci-dessus en transformant la moyenne selon la formule (11). Adaptez le modèle de distribution de référence en conséquence, et calculez la valeur $p$ en utilisant le calculateur de probabilités normale dans le chapitre précédent. Que remarquez-vous ?
  2. Refaire l'exercice modèle ci-dessus avec pour question : peut-on dire que le niveau moyen de ces étudiants est différent de ce qu'on trouve dans la population générale ? Suggestion : prêter attention au sens de l'alternative, et bien garder en tête la définition de la valeur $p$ pour la calculer correctement à l'aide du calculateur.
  3. Achenbach (1991) a proposé un test d'évaluation des problèmes comportementaux chez les enfants. Ce test est étalonné pour être de moyenne $\mu=50$ et d'écart-type $\sigma=10$ dans la population. On étudie un échantillon de $N=10$ enfants, et on trouve chez eux une moyenne de $\bar{x}=56$ au test d'Achenbach. Diriez-vous que ces enfants montrent davantage de problèmes comportementaux que la population générale ? Répondez à cette question de deux manières : i) en prenant comme modèle la loi normale théorique de la moyenne pour ces données, ii) en utilisant le modèle de la loi normale centrée réduite.
  4. En 1979, $N=238$ étudiants du Dakota du Nord ont passé la partie orale de l'examen national américain appelé SAT (Standard Aptitude Test). La moyenne de leur scores individuels était de $\bar{x}=525$. Ce résultat est-il compatible avec les normes nationales du test ($\mu=500$, $\sigma=100$) ?
  5. La même année, $N=2345$ étudiants d'Arizona ont passé la partie mathématique du SAT et ont obtenu une moyenne de $\bar{x}=524$. Ce résultat est-il compatible avec les normes nationales du test ($\mu=500$, $\sigma=100$) ?
  6. Pourquoi les résultats aux deux questions précédentes diffèrent-elles considérablement, alors que les moyennes sont pratiquement identiques ?
  7. Diriez-vous que les étudiants d'Arizona sont meilleurs que la moyenne nationale ?

 

  • expand_moreCorrection

    1. Les probabilités dans une loi normale ne sont pas changées par un changement d'échelle sur la variable car si on réduit la dispersion, les densités augmentent mécaniquement (et les surfaces sous la courbe sont préservées). Par conséquent, la valeur $p$ trouvée est la même et la décision identique.
    2. La valeur $p$ précédente doit simplement être multipliée par 2 pour tenir compte de l'alternative bilatérale. On trouve $p=0.005289$. Dans ce cas particulier, cela ne changerait pas la décision.
    3. On trouve (l'alternative est unilatérale à droite) $p=P(\bar{X} > \bar{x})\approx0.029$. On peut donc dire que ces enfants montrent davantage de problèmes comportementaux que la population générale, avec moins de 5% de chances de se tromper.
    4. On trouve $p=P(\left|Z\right|>z)=0.0001149$. Une moyenne de 525 est donc un résultat surprenant au regard des normes (sans égard pour le sens de la différence).
    5. On calcule $z=11.622$ et on trouve (l'alternative est bilatérale) $p=P(\left|Z\right|>z)\approx0$. Ce résultat n'est pas compatible avec l'hypothèse selon laquelle les étudiants seraient représentatifs de la population générale en termes de niveau au SAT.
    6. On voit que la taille de l'échantillon réduit considérablement l'écart-type de la distribution des moyennes (ou erreur-type). Avec pratiquement la même moyenne, les valeurs $z$ sont radicalement différentes.
    7. L'alternative est unilatérale à droite. Il faut par conséquent diviser par deux la valeur $p$ bilatérale ci-dessus. Comme elle était déjà largement inférieure à $\alpha=0.05$, on voit immédiatement qu'on peut conclure que ces étudiants sont meilleurs que la moyenne nationale, avec une probabilité infime de se tromper.