Construction de la loi normale

Le problème du continu

Nous avons jusqu'alors étudié des variables dépendantes associées à des valeurs numériques discrètes (comptages). Nous nous intéressons dans cette deuxième séquence de cours à des variables dont les modalités sont numériques continues.

La particularité de ces mesures est qu'entre deux valeurs choisies arbitrairement proches, on peut toujours en trouver une infinité d'autres. C'est ce qu'on appelle la puissance du continu. Cette particularité va nous obliger à inventer une nouvelle manière d'évaluer les probabilités.

Imaginons une machine permettant de tirer aléatoirement un nombre compris entre 0 et 1, de sorte que toute valeur dans cet intervalle ait la même probabilité d'apparaître. Cliquez sur le bouton «Tirer» plusieurs fois pour apercevoir le comportement d'une telle machine :

Sélectionez l'option d'affichage des traces pour visualiser ce qui se passe sur une série de tirage. Le mécanisme aléatoire ainsi défini s'appelle loi uniforme (ou « distribution » uniforme). Dans une loi uniforme, toute valeur de la variable $X$ définie sur l'intervalle $[a;b]$ a les mêmes chances d’apparaître. On écrit : $$X\sim U(a,b)$$ où $a$ et $b$, paramètres de la distribution, sont la borne gauche et la borne droite de son intervalle de définition (dans notre exemple 0 et 1).

Nous avons vu avec la loi binomiale comment exprimer une distribution à l'aide d'une fonction à laquelle on passe des valeurs de variables, et qui retourne les probabilités associées. De façon analogue, comment écrire algébriquement la fonction de probabilité uniforme ? Nous supposons qu'elle sera de la forme $f(x)=c$, ou $c$ est une constante (une courbe complètement plate), puisque toutes les valeurs ont les mêmes chances d'apparaître, mais que vaut $c$ ?

La définition d'une loi de distribution pour des variables continues pose des problèmes nouveaux. Comment calculer la probabilité ponctuelle $P(X=0.5)$ par exemple ? Pour répondre à cette question, nous faisons dans l'atelier suivant un détour par un problème plus simple : calculer $P(X < 0.5)$.

Atelier 1 : probabilité uniforme cumulée à gauche

Dans cet atelier, on tire des nombres au hasard entre 0 et 1 selon une loi uniforme. Pour visualiser les résultats, on les représente comme des points dans une boîte : certains points sont en-dessous, et d'autres au-dessus d'une certaine coupure (la position verticale des points n'est qu'une commodité graphique et n'a pas de sens statistique). On cherche à comprendre quelle est la probabilité d'obtenir un point en-dessous de la coupure.

Pour vous aider, le graphique indique (pointeur triangulaire en haut) quelle est la proportion observée de points qui sont apparus en-dessous de la coupure sur un nombre fixé de tirages. Répondez aux questions ci-contre.

  • expand_moreEn résumé

    A partir de cet exercice, nous comprenons que :

    • il y a autant de chances dans une loi uniforme qu'un point apparaisse à gauche qu'à droite de la coupure 0.5 : $$P(X < \frac{1}{2})=P(X> \frac{1}{2}).$$ Comme un point est nécessairement en-dessous ou au-dessus de la coupure, on a aussi : $$P(X < \frac{1}{2})+P(X> \frac{1}{2})=1.$$ En réunissant les deux expressions, on trouve : $$\begin{aligned} P(X < \frac{1}{2})+P(X> \frac{1}{2}) &= 1\\ 2P(X < \frac{1}{2}) &=1\\ P(X < \frac{1}{2}) &=\frac{1}{2}. \end{aligned}$$
    • Par contre, il y a deux fois moins de chances dans une loi uniforme qu'un point apparaisse à gauche qu'à droite de la coupure $\frac{1}{3}$ : $$P(X > \frac{1}{3})=2P(X < \frac{1}{3}).$$ On a aussi $P(X < \frac{1}{3})+P(X> \frac{1}{3})=1$. En réunissant les deux expressions, on trouve : $$\begin{aligned} P(X < \frac{1}{3})+P(X> \frac{1}{3}) &= 1\\ P(X < \frac{1}{3})+2P(X < \frac{1}{3}) &=1\\ 3P(X < \frac{1}{3}) &=1\\ P(X < \frac{1}{3}) &=\frac{1}{3}. \end{aligned}$$
    • Dans la loi uniforme, il existe une relation simple entre une valeur de la variable et sa probabilité cumulée à gauche : $$P(X < x)=x.$$ C'est ce qu'on appelle la fonction de probabilité cumulée uniforme, ou fonction de répartition. On peut la représenter graphiquement :
    • On trouve la probabilité complémentaire par : $$P(X > x) = 1-P(X < x)=1-x.$$

Atelier 2 : probabilité uniforme sur un intervalle

Dans cet atelier, on utilise les éléments de la partie précédente pour calculer la probabilité qu'un point apparaisse dans un certain intervalle spécifié par deux bornes, inférieure et supérieure. On utilise pour cela la fonction de probabilité cumulée établie à la section précédente.

Cette analyse fournit le moyen de calculer, par un passage à la limite, la probabilité d'une valeur ponctuelle dans une loi continue.

  • expand_moreEn résumé

    A partir de cet exercice, nous comprenons que :

    • la probabilité d'apparition d'une observation dans un certain intervalle $[a;b]$ est simplement la largeur de l'intervalle : $$P(a < X < b)=P(X < b)-P(X < a)=b-a.$$ Cela implique que la probabilité tend vers 0 quand la largeur de l'intervalle tend vers 0 (cas d'une valeur ponctuelle).
    • A partir du moment où une variable est numérique continue, sa probabilité d'apparition est donc toujours nulle.
    • Ce sera problématique pour nous quand nous essaierons de calculer la vraisemblance d'un modèle sur de telles données, car la vraisemblance étant le produit des probabilités de chaque donnée, elle sera toujours nulle pour tout modèle, si ces probabilités sont nulles.
    • Nous en tirons la conclusion que la notion de probabilité telle que nous l'avons vue en L2 et en L3 sur les données discrètes et dénombrables, n'est pas appropriée pour traiter des données continues.

Notion de densité

La définition d'une loi de distribution pour des variables continues pose des problèmes nouveaux. En particulier, avec de telles données, toutes les probabilités sont nulles, ce qui est contre-intuitif. Nous construisons ci-dessous une nouvelle mesure de plausibilité pour les données continues, qui sera en même temps capable de restituer la valeur habituelle de probabilité pour les données numériques discrètes.

Atelier 3 : représentation en histogramme de densité

Le diagramme ci-dessous est un histogramme, permettant de représenter graphiquement la fréquence d'apparition de valeurs issues d'une loi uniforme, dans une série d'intervalles contigus.

A partir de cette représentation, nous essayons de trouver une expression de la forme $f(x)=c$, avec $c$ une constante, pour représenter le mécanisme aléatoire qui donne la même chance à toute valeur.

  • expand_moreEn résumé

    Cet exercice permet de voir que :

    • l'impact du nombre de classe sur les fréquences moyennes est essentiellement dû au fait que des classes plus nombreuses sont nécessairement plus étroites, et donc moins probables.
    • pour gérer les largeurs de classes inégales dans une représentation en histogramme, on utilise une pondération inverse par les largeurs de classes : plutôt que de raisonner sur la fréquence de la classe $k$ (de largeur $l_{k}$), on calcule une densité de fréquence, de la forme : $$d_{k}=\frac{f_{k}}{l_{k}}$$ C'est le même procédé que celui qui consiste, en géographie, pour comparer les mortalités d'un département français à un autre, à les calculer pour 100000 habitants, pour pouvoir comparer des départements de population différente. La notion de densité de fréquence rééquilibre l'importance des classes et permet de construire une représentation qui respecte le mécanisme de génération de données sous-jacent (loi uniforme). Vous pouvez le vérifier en essayant des nombres et valeurs de coupures variées.
    • En raisonnant en probabilité, on note $\delta$ la densité théorique (ou densité de probabilité) d'une classe $c_{k}=[a_{k};b_{k}]$, dont la largeur est $l_k=b_k-a_k$. Dans une loi $U(0,1)$, cette densité théorique est : $$\begin{aligned} \delta(a_{k} < X < b_{k}) &=\frac{P(a_{k} < X < b_{k})}{l_{k}}\\ &=\frac{P(X < b_{k})-P(X < a_{k})}{b_{k}-a_{k}}\\ &=\frac{b_{k}-a_{k}}{b_{k}-a_{k}}\\ &=1 \end{aligned}$$ Elle est constante, quelle que soit la largeur de la classe (et donc y compris pour une valeur ponctuelle), ce qui traduit bien l'équiprobabilité. La notion de densité de probabilité permet donc de définir une fonction univoque, indépendante des largeurs et nombre de classes, qui donne prise sur le continu.

      La loi uniforme $U(0,1)$ peut donc être définie de manière exacte par la fonction : $$f(x)=1,\forall x\in[0;1]$$ ou $f$ désigne sa fonction de densité de probabilité.

    • On note que la représentation en fréquences avait pour propriété : $$\sum_{k}f_{k}=1$$ ce qui n'est bien sûr plus vrai pour les densités. Mais comme $f_{k}=d_{k}l_{k}$ on a : $$\sum_{k}d_{k}l_{k}=1$$ Graphiquement, la quantité $d_{k}l_{k}$ représente le produit d'une hauteur par une largeur, c'est-à-dire la surface d'un bâton dans le diagramme des densités. On voit que c'est donc la surface complète de l'histogramme empirique de densités qui est égale à 1.

      De façon analogue, le lien entre probabilité et densité théorique d'une classe apparaît dans l'expression : $$P(a_{k} < X < b_{k})=\delta(a_{k} < X < b_{k})\times l_{k}$$ On voit que ce qui a le sens d'une probabilité dans la représentation graphique d'une fonction de densité, ce n'est pas la valeur sur la courbe (plate en l'occurrence), mais la surface sous cette courbe. En rétrécissant arbitrairement l'intervalle autour d'une valeur ponctuelle $x$, jusqu'à obtenir un intervalle infiniment petit, on a : $$P(X=x)=f(x)dx$$ où $dx$ représente une largeur infiniment proche de 0. Lorsque l'on fait tendre simultanément le nombre de classes vers $+\infty$, et leurs largeurs vers 0 (sans jamais l'atteindre), on obtient une infinité d'intervalles de largeurs infinitésimales. La somme qui porte sur une série infinie de termes infinitésimaux est notée classiquement en mathématiques avec le s médiéval $\int$ (« somme ») : $$\int_{0}^{1}f(x)dx=1$$ ou $f$ dénote la fonction de densité de la variable, et $dx$ la largeur infinitésimale des classes. A cause de ce traitement particulier du continu, on jugera de la probabilité d'un événement sur une variable continue (score ou valeur de statistique) en raisonnant sur des densités, ou bien des probabilités cumulées. En particulier, on définira pour nos tests d'inférence une notion de valeur $p$, soit la probabilité d'observer une valeur de statistique au moins aussi extrême que celle observée.

Construction de la loi normale

Le psychologue s'intéresse à des phénomènes (comportements, attitudes, émotions, compétences cognitives...) pour lesquels il n'a pas de modèle déterministe : il ne sait pas prévoir quelle forme ils prendront dans une observation.

Dans un certain nombre de cas de figure, il sait par contre définir une distribution de probabilité sur les valeurs d'un comportement, quand il sait argumenter le mécanisme par lequel la mesure comportementale est produite (une somme de temps élémentaires, ou un produit d'effets indépendants, ou un comptage sur des événements de même probabilité etc.). On parle de mécanisme aléatoire de production de données.

Nous étudions ci-dessous l'un de ces mécanismes, celui où une variable est en réalité la somme de multiples variables indépendantes.

Atelier 4 : somme de variables aléatoires

Dans cet atelier, on regarde ce qui se passe quand on tire une valeur dans $K$ distributions uniformes, et qu'on ajoute entre elles ces valeurs.

Cette opération sert à modéliser ce qui se passe quand un comportement est le résultat de l'addition d'une multitude de causes inconnues.

Cette addition est réalisée $N$ fois, pour représenter virtuellement $N$ sujets dont le comportement serait structuré de cette façon.

  • expand_moreEn résumé

    Cet atelier permet d'expérimenter un phénomène connu en statistiques sous le nom de Théorème Central Limite.

    • Théorème central-limite. Soient $p$ variables aléatoires $X_{1},X_{2},...,X_{p}$ indépendantes et de même distribution. La somme $S_{p}=X_{1}+X_{2}+...+X_{p}$ a une distribution qui tend vers une forme unique, dite « loi normale » ou « loi de Gauss », quand $p$ devient très grand. La densité de probabilité selon cette loi limite s'écrit : $$f(x|\mu,\sigma^{2})=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^{2}}$$ Cette fonction prend une forme en cloche parfaitement symétrique. Les quantités $\mu$ et $\sigma^{2}$ dans cette expression sont les deux paramètres de la distribution. On écrit de façon synthétique : $$X\sim N(\mu,\sigma^{2})$$
    • Généralité. Ce théorème est tout-à-fait remarquable, et d'une importance pratique considérable, car la loi des $X_{j}\ (j=1,...,p)$ peut vraiment être quelconque (dissymétrique, discrète, multimodale...) et donc pas uniquement uniforme comme dans notre exemple. Le théorème reste valable tant que ces variables ont bien même distribution, et que $p$ est assez grand (en pratique l'approximation est déjà très bonne pour $p=20$ comme on l'a vu).
    • Interprétation des paramètres. Les paramètres $\mu$ et $\sigma^2$ (par commodité graphique nous utiliserons plutôt sa racine carrée $\sigma$) sont respectivement des paramètres de position et d'échelle : le premier module la position horizontale de la distribution sur l'axe de la variable, et le second dilate ou contracte l'échelle sur cet axe.
      Quand sur un jeu de données concret on cherche à estimer ces paramètres par la méthode du maximum de vraisemblance, on démontre que leurs estimateurs sont respectivement la moyenne et la variance des données. Pour cette raison, il est usuel d'appeler ces paramètres « moyenne » et « variance » de la distribution (ou « écart-type » si on prend la racine carrée de la variance).
    • Propriétés. Cette loi est définie sur $\mathbb{R}$. Elle est donc théoriquement appropriée pour des données numériques continues non bornées.

      Mais c'est aussi une loi limite dans sa construction. Elle peut donc être utilisée dans des cas où elle offre une bonne approximation (par exemple des données numériques discrètes mais avec un nombre assez grand de modalités). On juge de la qualité de cette approximation par un test de normalité.

      La loi normale est parfaitement symétrique. Dans l'expression $(x-\mu)^{2}$, que $x$ soit au-dessus ($x-\mu > 0$) ou en-dessous ($x-\mu < 0$) de la moyenne, la densité calculée est la même (à cause du carré).

      La loi normale est une densité. La surface sous la courbe est donc égale à 1. On peut le percevoir en faisant varier l'étalement (l'échelle) de la distribution ci-dessus : les densités diminuent quand on dilate l'échelle, et réaugmentent quand on la contracte, de sorte que la surface totale reste préservée.

Probabilités cumulées dans la loi normale

La loi normale est apparue comme un bon modèle de distribution pour toute une série de phénomènes naturels dans des domaines très divers : en astronomie, pour mesurer la position d'une planète, en artillerie, pour analyser la distribution des points d'impact d'un projectile, en médecine, pour étudier la distribution des tailles d'organes, etc. En psychologie, les tests d'intelligence sont étalonnés pour fournir des scores distribués selon ce modèle. Et on fixe artificiellement un score moyen de 100 et un écart-type de 15 comme paramètres de population.

Atelier 5 : probabilités dans une loi normale

Dans cet atelier, on cherche à positionner un individu par son score de QI au sein de la population de loi normale.

Vous pouvez saisir un score (quantile) et obtenir la probabilité cumulée (à gauche ou à droite) correspondante. Ou bien saisir une probabilité particulière, et obtenir le score coupure qui permet d'obtenir ce cumul.

Remarque : dans cette interface, on saisit l'écart-type et non la variance, comme deuxième paramètre de la loi normale.

  • expand_moreEn résumé

    De cet exercice, on peut retenir que :

    • la représentation en densité fait apparaître trois quantités à ne pas confondre : i) la variable score (sur l'axe horizontal), ii) la densité de probabilité pour un score (valeur lue sur la courbe, et portée par l'axe vertical) et iii) la probabilité cumulée (à droite ou à gauche) pour un score, représentée par une portion de surface sous la courbe.
    • la symétrie parfaite de la loi normale permet de retrouver immédiatement un cumul à gauche d'un quantile sous la moyenne, à partir du cumul à droite du quantile en position symétrique au-dessus de la moyenne. Par exemple $P(X > 125) = P(X < 75)$ dans la $N(100,15^2)$.
    • le positionnement d'un individu dans la distribution peut se faire de deux manières : i) en nombre d'écart-types qui le séparent de la moyenne (on parle d'étalonnage sigmatique), ou ii) en proportion d'individus qui ont moins ou plus que lui (on parle d'étalonnage par quantilage).

Exercices d'entraînement

  1. On procède à un regroupement en 10 classes de largeurs constantes sur 500 observations tirées dans une U(0,1). Dans une des classes, on trouve 55 observations. Calculez la densité empirique (ou de fréquence) de cette classe.
  2. Dans un regroupement sur 500 observations tirées d'une U(0,1), l'une des classes, de largeur 0.1, est de densité empirique 0.9.
    1. Calculez la fréquence empirique de la classe.
    2. Calculez l'effectif de la classe.
    3. Quelle est la probabilité théorique de la classe ?
    4. Quelle est la densité théorique (ou de probabilité) de la classe ?
    5. Quelle est la densité théorique (ou de probabilité) pour une valeur quelconque dans cette classe ?
    6. Quelle est la probabilité théorique pour une valeur quelconque dans cette classe ?
  3. Dans une loi normale $N(0,1)$ :
    1. Trouver la valeur de variable dont la probabilité cumulée à droite est a) 0.05, b) 0.025.
    2. Sans calcul, en déduire les probabilités cumulées à gauche des valeurs $z_{1}=-1.96$ et $z_{2}=-1.645$.
    3. Trouver la probabilité cumulée à droite pour $z=2.57582930$.
    4. En déduire la probabilité $P(Z < -2.57582930)$.
    5. Quelle est la probabilité $P(\left|Z\right|>1.555)$ ? Suggestion : représenter d'abord sur une feuille, par une surface hachurée sous la courbe normale, la probabilité correspondante.
    6. Calculez $P(\left|Z\right|>2.5758)$.
    7. Quelle est la probabilité $P(\left|Z\right| < 1.555)$ ? Suggestion : représenter d'abord par une surface hachurée sous la courbe normale la probabilité correspondante.
    8. Sans calcul, quelle est la probabilité $P(Z>0)$ ?

 

  • expand_moreCorrections

    1. $d=1.1$.
    2. 0.09 - 45 - 0.1 - 1 - 1 - 0.
    3. Dans une loi normale $N(0,1)$ :
      1. A l'aide du calculateur, on trouve : $P(Z>1.645)=0.05$ et $P(Z>1.96)=0.025$.
      2. Par symétrie de la distribution normale, on en déduit que $P(Z < -1.645)=0.05$ et $P(Z < -1.96)=0.025$.
      3. On trouve par ailleurs que $P(Z > 2.5758)=0.005$.
      4. Par conséquent $P(Z < -2.5758)=0.005$ aussi.
      5. On remarque d'abord que : $$\begin{aligned} P(\left|Z\right| > 1.555) &= P\left[(Z < -1.555)\cup(Z> 1.555)\right]\\ &= P(Z < -1.555)+P(Z> 1.555)\\ &= 2\times P(Z > 1.555)\mbox{ par symétrie de la loi} \end{aligned} $$ On trouve $P(Z > 1.555)\approx0.06$ et $P(\left|Z\right| > 1.555)\approx2\times0.06=0.13$.
      6. P(\left|Z\right| > 2.5758)=2\times0.005=0.01$.
      7. On remarque d'abord que : $$P(\left|Z\right| < 1.555)=P(-1.555 < Z < 1.555)$$ Il s'agit simplement de l'ensemble des valeurs complémentaire au précédent. Par conséquent : $$P(\left|Z\right| < 1.555)=1-P(\left|Z\right|> 1.555)\approx0.87$$
      8. La loi normale est symétrique autour de $z=0$. Par conséquent $P(Z < 0)=P(Z> 0)=\frac{1}{2}$.