[SON] Donc, nous allons faire un nouvel exercice, sur l'évaluation d'un test de dépistage. Nous supposons que dans une certaine population de grande taille, on nomme M l'événement qu'un individu est malade, et S l'événement où un individu est sain. Et dans cette population, on dispose d'un échantillon constitué d'individus malades, d'un échantillon composé d'individus sains, et d'une bonne estimation de la proportion que l'on va noter P(M) de malades. Donc je fais tout de suite une analogie entre proportion et probabilité. Donc évidemment, on suppose que la population est de grande taille, les échantillons sont de taille raisonnable, mais enfin c'est un peu un problème de sondage, une population de grande taille, ça peut être des dizaines de millions d'habitants, l'échantillon d'un test médical, ça peut être des dizaines ou des centaines de patients, mais rarement beaucoup plus. Et on peut imaginer que l'on obtient ces échantillons d'individus malades et ces échantillons d'individus sains et cette bonne estimation, de la proportion P(M) de malades, grâce à des examens approfondis, lourds et chers, qu'on ne peut pas appliquer à toute la population. Dans ce cadre, une maladie que l'on veut étudier, mais qui nécessite, pour être identifiée à coup sûr, des examens longs et coûteux, on peut vouloir avoir un test, plus simple, et imparfait, qui permette de déterminer avec une certaine certitude, le fait que l'individu est malade ou sain. Dans ce cas, une compagnie pharmaceutique met au point un test de dépistage, qui est plus simple que les examens approfondis, mais qui est imparfait. Et l'on note donc T+ l'événement où le test indique que la personne est malade, ce qu'on appelle un test positif, et T- l'événement complémentaire, où le test indique que la personne est saine, et c'est un test négatif. Donc, le test, il va dire positif l'individu est malade, négatif l'individu est sain, mais il peut se tromper. La compagnie va évaluer ce test. Pour ce faire, elle va l'évaluer sur l'échantillon d'individus malades et sur l'échantillon d'individus sains dont elle dispose, et grâce à ces évaluations, elle obtient une bonne estimation toujours de la probabilité conditionnelle que le test soit positif, sachant que l'individu est malade, ce que l'on appelle la sensibilité du test, le test est positif sachant que l'individu est malade, et le fait que l'on ait aussi une bonne évaluation de la probabilité conditionnelle T- que le test soit négatif, sachant que l'individu est sain, c'est ce qu'on appelle la spécificité du test. Parfois on s'intéresse aux probabilités complémentaires, par exemple la probabilité de faux négatifs, ou de faux positifs. Donc ici, on s'intéresse grâce aux échantillons d'individus malades et d'individus sains, on a accès à la probabilité que le test soit positif, sachant que l'individu est malade, et la probabilité que le test soit négatif, sachant que l'individu est sain. Donc la première question, c'est de calculer la probabilité M sachant T+, et la probabilité S sachant T-, donc on vous demande de calculer la probabilité qu'un individu soit malade sachant que le test est positif, c'est ce qu'on appelle la valeur prédictive positive du test, et la probabilité qu'un individu soit sain sachant que le test est négatif, qui est la valeur prédictive négative du test. On s'intéresse parfois aux probabilités complémentaires, par exemple la probabilité d'un faux positif, la probabilité qu'un individu soit sain sachant que le test est positif. Donc il s'agit de calculer ces deux quantités, la probabilité conditionnelle de M sachant T+ et la probabilité conditionnelle de S sachant T-, en fonction des données, les données, on l'a déjà dit c'est la probabilité M que l'individu soit malade, et les deux probabilités que la compagnie pharmaceutique a obtenues en évaluant le test sur les échantillons, la probabilité T+ sachant malade, et la probabilité T- sachant S. Donc le but, c'est de calculer, ce qui nous intéresse, la probabilité de M sachant T+ et la probabilité de S sachant T-, en fonction des données P(M), P(T+ sachant M), et P(T- sachant S). Ensuite, la compagnie rend publique le fait que T+ sachant M est de 95 %, et que P(T- sachant S) est de 90%. Ce qui semble assez impressionnant à première vue. Que pensez-vous de ces chiffres, sans en savoir plus? Et que pensez-vous, en sachant par ailleurs que la probabilité que l'individu soit malade, la proportion de gens malades, est de 2 %? Voici maintenant la solution de l'exercice. Je vous rappelle, on vous demandait de calculer P de M sachant T+, alors qu'on connaît P(M), P(T+ sachant M) et P(T- sachant S) essentiellement, donc, il s'agit de retourner les probabilités conditionnelles, et pour cela, comme toujours, en utilisant la définition des probabilités conditionnelles, la probabilité conditionnelle de M sachant T+, c'est la probabilité de M et de T+ divisé par la probabilité de T+, et donc c'est la probabilité conditionnelle de T+ sachant M, multiplié par la probabilité de M sur P(T+). On a déjà fait apparaître deux des termes, ce qu'il nous reste à trouver, c'est P(T+). De façon très classique, P(T+) c'est la probabilité de T+ et M + la probabilité de T+ et S, puisque M et S sont disjoints, et donc pour passer en probabilité conditionnelle, c'est la probabilité de T+ sachant M fois P(M) + la probabilité de T+ sachant S fois P(S), c'est ce qu'on appelle la formule de la probabilité totale, en fait on écrit très souvent immédiatement P(T+) = P(T+ sachant M)P(M) + P(T+ sachant S)P(S) Donc pour tout écrire en fonction des données, P(T+) = P(T+ sachant M)P(M) + (1- P(T- sachant S) ) (1- P(M) ). Pour écrire les choses en fonction des données. Nous avons donc trouvé une formule pour P(T+) et donc en définitive, P(M sachant T+) c'est égal à P(T+ sachant M)P(M) / P(T+) donc sur P(T+ sachant M)P(M) + (1- P(T- sachant S) ) (1- P(M) ) Et de même, on fait des calculs tout-à-fait analogues, P(S sachant T-) c'est P(S, T-) / P(T-) = P(T- sachant S) (1- P(M) ) / 1- P(T+) Donc en fait, en calculant P(T+), on a les deux dénominateurs. Donc, nous avons résolu le premièrement, on a obtenu P(M sachant T+) et P(M sachant T-) en fonction des données. Je rappelle quand-même que la formule P(T+) = P(T+ sachant M)P(M) + P(T+ sachant S)P(S) c'est la formule de la probabilité totale, que l'on utilise assez souvent, et la formule d'inversion si l'on veut, P(M sachant T+), peut s'écrire sous la forme P(T+ sachant M)P(M) / P(T+ sachant M) + P(T+ sachant S)P(S) P(T+ sachant M)P(M) / P(T+ sachant M) + P(T+ sachant S)P(S) Autrement dit, on a juste utilisé ce calcul-là, et on a remplacé dans ce calcul-là P(T+) par la formule de la probabilité totale. Cette formule s'appelle la formule de Bayes, ou la formule de la probabilité des causes. Il est en fait souvent plus pratique de faire les calculs directement plutôt que d'appliquer cette formule, même si on peut la programmer dans des ordinateurs et ça peut être utile. De toutes façons, une fois qu'on aura appliqué la formule de Bayes, il s'agira ensuite, quand même, d'exprimer les choses en fonction des données, donc d'écrire P(S) comme étant 1-P(M) etc Donc nous prenons l'exercice2. La réponse. Je reviens à l'exercice quand même pour que l'on s'en souvienne, la compagnie rend publiques les données P(T+ sachant M) = 95 % P(T- sachant S) = 90 % Qu'est-ce qu'on peut en dire sans en savoir plus? Eh bien on ne peut rien en dire, puisqu'on n'a pas P(M) donc voilà. Donc tout dépend de P(M), donc la réponse de la première sous-question. Et donc ensuite, dans l'énoncé, on fournissait le fait que P(M) vaut 2 % Donc ici on répond à la question. On sait que P(T+ sachant M) = 95 % P(T- sachant S) = 90 % et P(M) = 2%, Ca ce sont les données. On applique donc toutes ces formules, que l'on a démontrées en premièrement. Et donc en appliquant ces formules, on trouve P(M sachant T+) = (0.95 * 0.02) / 0.95 * 0.02 + 0.1 * 0.98 P(M sachant T+) = (0.95 * 0.02) / 0.95 * 0.02 + 0.1 * 0.98 Donc c'est 0.019 / 0.117 et ça fait à peu près 0.162, donc à peu près 16 % la probabilité d'être malade sachant que le test est positif n'est que de 16 %, c'est très mauvais. En revanche, quand même, P(S sachant T-), la probabilité d'être sain sachant le test négatif, c'est 0.9 * 0.98 / 1- 0.117, ce n'est pas la peine de recalculer le dénominateur, c'est 0.882 / 0.883, c'est 0.99887, c'est très proche de 1. Donc on a montré que dans l'exemple numérique P(M sachant T+) est à peu près 16 %, 0.162 et P(S sachant T-) c'est très proche de 1, c'est à peu près 0.99887, très proche de 1, donc le test est très mauvais pour dire que quelqu'un est malade, mais très bon pour dire que quelqu'un est sain. Donc ce test pourra servir à une présélection, on pourra l'administrer à une grande population. Si le test est négatif, on pourra être à peu près sûr que la personne que l'on a testée est un individu sain, en revanche, lorsque le test indique que la personne est malade, le test est positif, on n'a que 16 % de chances pour que l'individu soit malade, il faudra faire les examens complémentaires pour être sûr que l'individu est bien malade. Nous avons ainsi résolu le deuxièmement, et résolu l'exercice.