Probabilités a posteriori des modèles
Vraisemblance et probabilité du modèle
Dans les sections précédentes, nous avons sélectionné les modèles sur la base de la vraisemblanceLa vraisemblance d'un modèle est la probabilité des données observées, d'après ce modèle.. Le mot vraisemblance a en statistiques un sens différent de celui du langage courant. Dans la vie de tous les jours, quand nous disons qu'un fait est vraisemblable, nous voulons dire qu'il est probablement vrai. Par contamination, en retenant des modèles vraisemblables (au sens statistique), nous avons pu penser que cela voulait dire que ce modèle était très probablement vrai. En réalité, un modèle vraisemblable statistiquement est un modèle qui annonce que les données sont probables, d'après lui, ce qui n'est pas la même chose.
Pour clarifier les choses, nous allons noter $D$ l'état des données obtenues à l'issue d'une expérience, et $M$ le modèle cible à évaluer. La vraisemblance du modèle, ou probabilité des données selon le modèle, sera notée $P(D|M)$. La probabilité que le modèle soit vrai, en tenant compte de l'état des données observées, peut donc être notée $P(M|D)$.
Nous comprenons que ces deux quantités sont conceptuellement différentes, mais nous sommes intéressés dans cette partie à établir ce que pourrait être $P(M|D)$ pour un modèle donné dans une situation pratique. Par exemple, si nous reprenons les données de l'expérience de Busey & Loftus (2006) sur la reconnaissance des suspects (14 sujets sur 40 ont reconnu le coupable sans avoir assisté à la scène de crime, soit $D=(X=14)$), nous avions trouvé grâce au calculateur de vraisemblances les valeurs de vraisemblance : $$\begin{aligned} P(D|M_0)&=L_0=0.002586948521694072 \\ P(D|M_1)&=L_1=0.024390243902439025 \end{aligned}$$ pour le modèle $M_0$ de la chance seule, et le modèle $M_1$ de biais de procédure. Cela donne un facteur de Bayes $B_{10}=9.4282$.
En partant de la vraisemblance, que nous savons calculer (au besoin par intégration), on sait qu'on peut retrouver la probabilité conditionnelle inverse par (revoir la section sur le théorème de Bayes) : $$\begin{aligned} P(M_{0}|D)=\frac{P(D|M_{0})P(M_{0})}{P(D)} \\ P(M_{1}|D)=\frac{P(D|M_{1})P(M_{1})}{P(D)} \end{aligned}$$
Il est plus naturel de se dire qu'on va sélectionner le meilleur modèle en choisissant simplement celui qui est le plus probablement vrai, au vu des données disponibles. C'est plus simple à appréhender conceptuellement que la valeur $p$ et que la vraisemblance, qui sont des mesures de qualité plus indirectes, centrées sur les données.
Dans les expressions en (2), on distingue les quantités suivantes (en numérotant les modèles par $k=0,1$):
- $P(D|M_k)$ est la probabilité des données d'après le modèle, c'est-à-dire sa vraisemblance,
- $P(M_k)$ est la probabilité a priori du modèle. On l'appelle a priori car c'est la probabilité que le modèle soit vrai avant prise en compte de toute donnée informative,
- $P(M_{k}|D)$ est la probabilité a posteriori du modèle, c'est-à-dire la probabilité que le modèle soit vrai, évaluée après avoir pris connaissance des données de l'expérience,
- $P(D)$ est la probabilité marginale d'observer les données telles qu'elles sont. Le mot marginale ici veut dire tous modèles confondus.
Dans l'étude de Busey & Loftus (2006), $M_0$ ($\pi=\frac{1}{6}$) et $M_1$ ($\pi\neq\frac{1}{6}$) sont les deux seuls modèles possibles. Dans la comparaison des deux modèles, on choisira $M_1$ si $P(M_1|D) > P(M_0|D)$, ou de façon équivalente si : $$\frac{P(M_1|D)}{P(M_0|D)} > 1$$
En remplaçant $P(M_0|D)$ et $P(M_1|D)$ par leurs expressions en fonction de la vraisemblance, on peut aussi écrire : $$\frac{P(M_1|D)}{P(M_0|D)}=\frac{\frac{P(D|M_{1})P(M_{1})}{P(D)}}{\frac{P(D|M_{0})P(M_{0})}{P(D)}}=\frac{P(D|M_{1})P(M_{1})}{P(D|M_{0})P(M_{0})}$$
Signification du facteur de Bayes
L'expression (4) peut être présentée sous la forme suivante : $$\begin{aligned} \frac{P(M_1|D)}{P(M_0|D)}&=\frac{P(D|M_{1})}{P(D|M_{0})}&\times\frac{P(M_{1})}{P(M_{0})} \\ &=B_{10}&\times\frac{P(M_{1})}{P(M_{0})} \end{aligned}$$
Le rapport $\frac{P(M_{1})}{P(M_{0})}$, à droite, représente la façon dont nous jugeons l'un des modèles éventuellement plus probablement vrai que l'autre, avant tout examen des données. On l'appelle le rapport a priori. Il est supérieur à 1 si on pense (par exemple au vu de plusieurs études antérieures) que $M_1$ est plus probablement vrai que $M_0$, quoiqu'il arrive dans nos données, et inférieur à 1 si on pense que c'est $M_0$ qui est plus probalement vrai.
Le rapport $\frac{P(M_{1}|D)}{P(M_{0}|D)}$, à gauche, compare les deux modèles en prenant en compte l'information contenue dans nos données. On l'appelle rapport a posteriori. Il est supérieur ou inférieur à 1 selon que nos données nous ont conduit à donner à l'un ou l'autre une plus forte plausibilité.
En conséquence, le rapport $\frac{P(D|M_{1})}{P(D|M_{0})}$ (c'est-à-dire le rapport des vraisemblances), mesure l'amplitude de notre changement d'avis entre l'avant et l'après examen des données. Il est une mesure de la façon dont les données obtenues dans l'étude ont fait pencher la balance dans un sens ou dans l'autre dans le rapport a posteriori, par contraste avec notre avis initial représenté par le rapport a priori.
On l'appelle facteur de Bayes car il résume l'amplitude de notre changement d'avis (et donc la quantité d'évidence présente dans nos données en faveur d'un modèle) sous la forme d'une constante multiplicative.
Notion de probabilité a priori
Le calcul du rapport de vraisemblance (éventuellement sous une forme intégrée) ne pose pas de difficulté majeure dans nos problèmes. Par contre, le rapport a priori est une quantité plus abstraite : que peut bien représenter la probabilité que nos modèles soient vrais, avant tout examen des données ?
Cette quantité sert à représenter dans le raisonnement toute information antérieure ou externe que nous pourrions avoir sur la plausibilité des modèles, par exemple sous forme de méta-analyses d'études antérieures sur la même question. Nous avons déjà rencontré cette idée quand la nécessité du calcul d'une vraisemblance intégrée s'est faite sentir : en moyennant toutes les vraisemblances possibles résultant de toutes les valeurs possibles d'un paramètre inconnu, nous avons envisagé la possibilité de donner des poids différents à certaines valeurs de paramètres, jugées plus plausibles. Nous faisons ici le même raisonnement, mais sur les modèles possibles.
Il y a deux possibilités. Soit nous avons de l'information a priori grâce à des études antérieures et nous donnons plus de poids à l'un ou l'autre des modèles en fonction. Soit nous n'avons pas d'information particulière et nous sommes alors dans l'incertitude totale quand à la vérité des modèles. On traduit alors notre incertitude en écrivant : $$P(M_{0})=P(M_{1})=\frac{1}{2}$$
Dans cette situation d'incertitude sur les modèles (de loin la plus fréquente en pratique), on peut déduire : $$\frac{P(M_1|D)}{P(M_0|D)}=\frac{P(D|M_{1})}{P(D|M_{0})}$$ A ces conditions, on pourra dire que le rapport des probabilités a posteriori est exactement égal au rapport des vraisemblances. En sélectionnant le modèle le plus vraisemblable (ce qui strictement renvoie à la probabilité des données), nous sommes bien en train de sélectionner le modèle le plus probablement vrai, au prix de la condition (6). C'est la raison pour laquelle nous nous autoriserons cette formulation dans la conclusion de nos exercices : sans autre possibilité de hiérarchiser la plausibilité des modèles, le modèle retenu avec le facteur de Bayes le plus élevé sera déclaré plus probablement vrai.
Calcul pratique
Cas de deux modèles
Bien que le rapport de vraisemblance contienne toute l'information d'évidence dont nous avons besoin pour choisir un meilleur modèle, on calcule dans cette partie, pour illustration, les probabilités que les modèles soient vrais, dans l'étude de Busey & Loftus (2006). On a calculé $B_{10}$ et on sait que : $$\frac{P(M_1|D)}{P(M_0|D)}=B_{10}$$
Par ailleurs, comme il n'y a que deux modèles possibles, on a pour un jeu de données $D$ obtenu : $$P(M_0|D)+P(M_1|D)=1$$
Par conséquent, en supposant qu'aucune des $P(M_k|D)$ n'est nulle : $$\begin{aligned} P(M_1|D) &= B_{10}\times P(M_0|D)\\ &= B_{10}\left[1-P(M_1|D)\right]\\ &= B_{10}-B_{10}P(M_1|D)\\ P(M_1|D)\left[1+B_{10}\right]&=B_{10} \end{aligned}$$
soit au final : $$P(M_1|D)=\frac{B_{10}}{1+B_{10}}$$
Par conséquent : $$P(M_0|D)=1-P(M_1|D)=\frac{1}{1+B_{10}}$$ Dans l'expérience de Busey & Loftus (2006), on avait trouvé $B_{10}=9.4282$. En appliquant les formules (11) et (12) ci-dessus, on a donc les probabilités a posteriori : $$\begin{aligned} P(M_0|D)&= \frac{1}{1+B_{10}}&= 0.096\\ P(M_1|D)&= \frac{B_{10}}{1+B_{10}}&= 0.904 \end{aligned}$$
Il y a donc plus de 90% de chances que $M_1$ soit correct, ce qui lui donne une haute crédibilité.
Généralisation à $K$ modèles
D'une façon générale, quand il y a plus que deux modèles, mais qu'on dispose bien de la liste exhaustive de tous les $K$ modèles possibles dans une situation, on peut calculer la probabilité qu'un modèle $M_t$ particulier soit vrai comme : $$P(M_{t}|D)=\frac{B_{t0}}{\sum_{k}B_{k0}}$$ ou les rapports de vraisemblances $B_{k0}$ sont tous calculés par rapport au même modèle nul $M_0$. On note que pour le cas $M_0$, on a $B_{00}=1$.
Exercices
- sur la dissonance cognitive,
- sur le traitement de l'anorexie,
- sur le marquage négatif convergent,
- Saisissez les données de chaque étude (groupes en lignes, modalités de la VD en colonnes) et observez dans chaque cas la probabilité que votre meilleur modèle soit vrai, fournie par le calculateur.
- Au vu de la formule (14), se pourait-il que cette probabilité a posteriori fournisse une autre sélection de modèle que le facteur de Bayes ?
- Observez comment cette probabilité est affectée par le nombre de modèles possibles.
-
expand_moreCorrection
- On trouve tour à tour : $P(M_1|D)=0.80$ pour l'étude sur la dissonance, $P(M_s|D)=0.3778$ pour l'étude sur l'anorexie, $P(M_9)=0.4617$ pour l'étude sur le marquage social convergent.
- La probabilité que le modèle soit vrai, au vu des données, est égale au facteur de Bayes, divisée par une constante (la somme de tous les facteurs de Bayes). La hiérachisation des modèles sera donc exactement la même. Il est suffisant dans les applications de s'appuyer sur le seul facteur de Bayes.
- Quand il y a beaucoup de modèles concurrents, la probabilité a posteriori totale (1) est divisée en parties plus nombreuses. Il est plus difficile d'avoir une forte probabilité a posteriori pour le meilleur modèle quand il a beaucoup de concurrent. On passe ainsi de valeurs élevées (0.90 pour la reconnaissance des suspects, 0.80 pour la dissonance) à des valeurs plus faibles (0.38 pour l'anorexie et 0.46 pour le marquage social négatif) en passant de modèle à 1, 2 puis 3 et 4 paramètres.