[SON] [AUDIO_VIDE] Bienvenue dans cette séance qui va être consacrée aux intervalles de confiance. Pour vous expliquer cette notion, on va choisir un exemple concret de sondage pour une élection, et vous verrez que le pilier qui justifie les intervalles de confiance est le théorème limite central. Donc c'est grâce à ce théorème que nous allons pouvoir dire avec quelle fiabilité on peut se fier à un sondage. L'exemple que nous allons choisir est celui d'une élection. Supposez que les électeurs ont le choix entre un candidat A et un candidat B, et qu'à la veille de l'élection vous vouliez faire un sondage pour estimer la proportion p de votes pour le candidat A. Vous n'allez pas interroger tous les électeurs, et vous vous limitez à, par exemple, n égal 2 500 individus que vous allez choisir au hasard parmi les électeurs. On ne considérera pas les abstentionnistes. On va considérer l'ensemble oméga l'ensemble de tous les échantillons de n individus. Si vous pensez par exemple à la France, il y a environ 40 millions d'électeurs. Oméga c'est l'ensemble de tous les échantillons de n individus pris parmi ces 40 millions. Chaque fois que vous prenez un petit oméga dans un grand oméga, vous avez un échantillon particulier de votre population. On va introduire des variables aléatoires X1, X2...Xn de la manière suivante : Xi va être égal à 1 si le i-ème individu que vous interrogez a l'intention de voter pour le candidat A. S'il vote pour l'autre candidat, Xi vaut 0. Vous supposez que les variables aléatoires Xi, elles sont indépendantes et elles ont la même loi de Bernoulli, de paramètre p. Autrement dit la probabilité que Xi vaille 1 vaut p, et la probabilité que Xi vaut 0 vaut 1 moins p. Une petite remarque avant de poursuivre : quand vous effectuez un sondage, on le fait sans remise, c'est-à-dire qu'on n'interroge pas deux fois le même individu, et à cause de ça les Xi sont a priori dépendants. En fait si vous avez un électorat de grande taille la différence entre un tirage avec ou sans remise est négligeable, et c'est ce que vous avez vu au début du cours et des exercices, quand vous avez étudié les urnes, on a vu que quand on a une grande population, la différence entre les deux est négligeable. Donc on va laisser de côté ce problème qui n'est pas important. Alors, revenons au problème central qui nous intéresse, c'est comment estimer le paramètre p qui est inconnu, à partir des observations X1, X2, Xn. L'estimateur qu'on va proposer c'est X chapeau n, qui va être Sn sur n, Sn étant simplement la somme des variables X1 plus X2... jusqu'à Xn. Autrement dit, pour chaque petit oméga, pour chaque échantillon, vous comptez le nombre de fois où les individus ont voté pour A et vous divisez par le nombre total d'individus interrogés qui est n. Là aussi je fais une petite remarque avant de poursuivre : vous pouvez vous demander si l'ordre des réponses va influer sur l'information qu'on pourrait avoir sur p. Intuitivement on peut penser que c'est pas le cas, que en faisant juste cette somme et en divisant par n vous avez toute l'information qu'il vous faut, et pour donner corps à cette intuition vous pouvez vérifier que si vous regardez la loi de probabilité de X1 etc., Xn, sachant que Sn vaut k, ça ne dépend pas de p. En fait, on peut montrer que c'est tout simplement la loi uniforme sur les suites X1 etc Xn qui contiennent k1 et n moins k0, et il y a là ce nombre-là de suites. Donc pour résumer, Sn sur n contient l'information qui nous intéresse, et nous pouvons regarder ses propriétés de base. La première chose c'est qu'on dit, dans le langage des statistiques, que cet estimateur est sans biais, car si vous regardez son espérance, vous trouvez p. Ça suit immédiatement la définition de Xn chapeau. L'autre propriété de base c'est la loi des grands nombres qui nous assure que asymptotiquement Xn est un estimateur correct, parce que Xn chapeau tend, quand n tend vers l'infini, vers p, paramètre de la loi de Bernoulli, en probabilité et presque sûrement. Donc on a de bonnes propriétés de base pour cet estimateur. La question est bien sûr vous pouvez pas faire tendre n vers l'infini et vous voulez savoir ce qui se passe quand n est fini. Alors je vais prendre un exemple concret : supposons que le sondage donne 1300 intentions de votes pour A donc 1 200 pour B, puisqu'on prenait 2 500 individus interrogés. Autrement dit, cet échantillon particulier vous donne une valeur pour Xn chapeau, que je vais noter p chapeau n, et qui est 1 300 divisé par 2 500, c'est-à-dire 0.52. pn chapeau est appelé l'estimation de p. La question qu'on se pose, c'est quelle confiance accorder à cette estimation. En particulier une question cruciale est de savoir si cette valeur est significativement différente de 0.5. Sinon le sondage ne nous servirait à rien pour savoir si on peut départager, de prévoir lequel des deux candidats l'emporterait. J'insiste sur le fait que Xn chapeau c'est une variable aléatoire. Dans l'exemple précis que j'ai donné on avait un échantillon où p chapeau n était O.52 pour cet échantillon, donc on pourrait très bien imaginer pour un autre échantillon, si vous interrogez 2 500 autres personnes, vous trouveriez une valeur différente, par exemple 0.49, qui est en-dessous de 0.5. Vous pouvez imaginer de nombreuses situations, et la question c'est de comprendre si on peut estimer la qualité de notre estimateur et comprendre comment il fluctue. Nous allons voir que pour comprendre cette chose-là on peut appliquer l'approximation par une loi normale, c'est-à-dire le théorème central limite. Alors que nous dit l'approximation normale que nous avons étudiée en cours? Quand on l'applique à cette situation, elle nous dit que, si on regarde la probabilité que X chapeau n moins p soit en valeur absolue plus petit que epsilon, cette probabilité, je peux multiplier en haut et en bas par racine de n p est racine de p(1- p) moins p des deux côtés, donc j'ai cette probabilité qui est égale à celle-là, et là maintenant je sais que le théorème central limite me dit que, en tous cas quand n tend vers l'infini cette probabilité tend vers l'intégrale de la densité gaussienne de moins a à a. Alors qu'est-ce que c'est a? Ici a c'est la valeur qui se trouve ici, et g j'ai noté la densité de la variable aléatoire gaussienne centrée réduite. Si n est fini, on a approximativement l'égalité entre cette probabilité et cette intégrale, et ce nombre. En pratique, remplacer cette probabilité par ce nombre va être correct. Je reviendrai sur les corrections qu'on pourrait apporter à cette approximation. Alors le coefficient ici a, qui se trouve ici, qui est cette quantité-là, on l'appelle le coefficient de confiance. Je prends un petit exemple numérique : si le coefficient de confiance est 1.96 on peut vérifier que la probabilité que Xn chapeau moins p soit plus petit en valeur absolue que epsilon c'est 95 %, de l'ordre de 0.95. Et puisque epsilon a cette forme-là, j'ai juste inversé la formule qui relie entre a epsilon et n, ce qu'on peut dire c'est que l'erreur commise en prenant p chapeau n comme approximation de p ne dépassera pas, avec une probabilité environ égale à 95 %, le seuil qui est donné par ce nombre-là. On dit aussi que la marge d'erreur est d'environ 5 %. Si on prend un autre exemple, on prend a égal 2.6, on trouve que cette probabilité est 99 % à peu près. Donc l'erreur commise en utilisant notre estimateur ne dépassera pas, avec une probabilité environ égale à 99 %, ce seuil-là. On a donc une marge d'erreur d'environ 1%. Alors pour calculer ces choses-là il faut utiliser des tables qui nous donnent les valeurs pour l'intégrale de la densité gaussienne entre moins a et a et à chaque fois vous pouvez estimer ces probabilités. Alors le petit inconvénient dans ce que je viens de dire, c'est que le seuil lui-même, le seuil qu'on vient de décrire, il dépend de p, et p on le connaît pas. Il y a plusieurs solutions pour pallier à ce problème. La plus simple dans cet exemple c'est de remplacer racine de p(1 moins p) par un 1/2, simplement parce que sigma p, qui est la racine de p(1 moins p) atteint un maximum qui est 1/2, si on fait varier p entre 0 et 1. En fait en faisant, en remplaçant cette quantité par 1/2 on ne fait qu'augmenter notre quasi-certitude. En fait ce que je viens de vous faire est tout simplement l'esquisse de la démonstration d'un théorème que je vais appeler le théorème de l'intervalle de confiance pour l'estimation de p, que nous allons énoncer et commenter. Si je me donne un nombre alpha entre 0 et 1, qu'on va appeler le niveau de confiance de l'intervalle, dès que n est assez grand, on verra ce que ça signifie concrètement, l'intervalle I alpha, qui est défini comme [P chapeau n- (S alpha / 2 racine de n), P chapeau n + (S alpha / 2 racine de n) ] [P chapeau n- (S alpha / 2 racine de n), P chapeau n + (S alpha / 2 racine de n) ] où S alpha est donné par cette équation, donc on regarde quand on se donne alpha, les bornes qu'on doit mettre ici pour que l'intégrale de la densité gaussienne soit égale à alpha. Donc cette intervalle, qu'on appelle l'intervalle de confiance de P de niveau alpha, ce qui signifie plus précisément que, la probabilité pour que P se trouve dans l'intervalle I alpha, est d'environ I alpha. plusieurs remarques s'imposent après se théorème. En partique, on a bien-sûr envie de prendre alpha proche de 1, on peut se demander ce qui signifie n assez grand dans cet énoncé, alors en pratique, si n est plus grand ou égal à 50, c'est que nP et n(1- P) sont plus grands ou égaux à 5 c'est correct, ça correspond à une bonne approximation de la gaussienne par la binomiale, une petit détail pour simplifier un peu l'allure, on a remplacé la valeur 1.96 qui correspondait à une marge d'erreur de 5 %, par 2, et ça c'est un petit détail qui ne change pas grand-chose, si ce n'est la tête des intervalles. Ainsi, l'intervalle [ P chapeau n- (1 / racine de n), P chapeau n + (1 / racine de n) ] c'est l'intervalle de confiance de niveau 95 %. Et si vous prenez cet intervalle-là, c'est l'intervalle de confiance de niveau 99 %. Je continue avec les remarques. Dans l'exemple de départ, l'intervalle de confiance, si vous le calculez l'intervalle de confiance à 95 % pour P, est [0.5, 0.54] En fait si vous revoyez ce que nous avons fait précédemment, on devrait rigoureusement parler d'intervalle de confiance de P de niveau asymptotique, car ce que nous avons vraiment montré, si nous utilisons le théorème limite centrale, c'est que la probabilité que P soit dans cet intervalle elle tend, quand n tend vers l'infini, vers alpha. Autrement dit, il faudrait considérer, ce que j'ai dit précédemment au sens asymptotique. Fort heureusement, en pratique, l'erreur que vous commettez en prenant n fini, de l'ordre de 50 ou plus, bien-sûr, est suffisamment petite pour que ce qu'on a dit précédemment soit essentiellement correct, et vous donne avec une très bonne précision, la même chose que si vous preniez n qui tend vers l'infini. Alors j'insiste à nouveau sur le fait que l'intervalle de confiance c'est un intervalle aléatoire, il faut bien prendre conscience de l'interprétation qu'il faut lui donner, qui n'est pas évidente. Par exemple, un intervalle de confiance à 95 % donnera un encadrement correct de P, 95 fois sur 100 en moyenne. C'est comme ça qu'on peut le voir, et c'est-à-dire que, si on pouvait répéter des estimations, prendre plusieurs fois des échantillons, un grand nombre de fois, on se tromperait en moyenne 5 fois sur 100. C'est ça que cela signifie. Je vais vous montrer à présent, avec une expérience numérique, comment on peut visualiser tout ça. Voici l'expérience numérique interactive que nous vous proposons, et que je vais vous présenter brièvement, on va représenter P en fonction de P chapeau n on va pouvoir jouer sur les deux paramètres essentiels, qui sont le nombre de tirages, c'est-à-dire le nombre d'individus que vous sondez, donc la taille de votre échantillon, grâce à ces boutons on va pouvoir changer la marge d'erreur, c'est-à-dire le niveau de confiance. Entre parenthèses, j'ai mis, à chaque fois, le niveau de confiance associé. Si nous prenons par exemple, P n chapeau = 0.36, nous pouvons afficher ici une intervalle de confiance, c'est-à-dire qu'avec 5 % de marge d'erreur, P va être contenu dans cet intervalle. Et nous constatons que nous pouvons trancher la question fondamentale, qui est de savoir si l'on est bien en-dessous de 50 % et qu'on peut donc, avec une quasi-certitude, avec une marge d'erreur de 5 %, dire que, d'après le sondage, le candidat A ne va pas être élu. On peut faire glisser cette valeur avec la souris, la valeur de P n chapeau vers 0.5, et vous voyez qu'à partir de 0.41, l'intervalle de confiance, ici, se met à contenir 0.5. Et ça continue dans toute une plage, dans tout un intervalle de valeurs de P chapeau n on va comme ça jusqu'à 0.6. Là on arrive au bord, 0.5 est au bord de l'intervalle. Et ensuite, elle sort. Donc en fait, si P n chapeau est l'intervalle de [0.41, 0.6] l'intervalle de confiance, à 50 % contient 0.5, ce qui signifie qu'avec une marge d'erreur d'environ 5 %, vous ne pouvez tout simplement pas savoir si P va être inférieur strictement à 0.5 ou supérieur strictement à 0.5. Cette situation est typique des referendum, ou des seconds tours d'élections présidentielles, où les scores sont proches de 50 / 50 et ce que vous pouvez vous demander, c'est qu'est-ce qui se passe si, par exemple, j'augmente le nombre de tirages? Si je reviens à une situation où j'étais dans le rouge, c'est-à-dire que je ne pouvais pas trancher avec une marge d'erreur de 5 % si j'étais dans cette situation, j'augmente le nombre de tirages et vous avez vu que avec le nombre de tirages qui augmente, ce qui fait rétrécir l'intervalle de confiance, vous sortez de cette situation où 0.5 est dans l'intervalle de confiance. Une autre chose que vous pouviez faire, c'est aussi voir que si vous voulez augmenter votre niveau de confiance, c'est-à-dire diminuer la marge d'erreur, passer à 2 %, vous voyez que l'intervalle de confiance s'agrandit et que, à un nombre de tirages fixé, les choses empirent si vous prétendez vouloir diminuer la marge d'erreur. Et ceci bien-sûr, s'améliore, si à nouveau vous tirez plus d'individus pour les sonder. C'est à vous de jouer maintenant, vous pouvez utiliser cette simulation numérique pour explorer ce que nous avons décrit précédemment. Ceci clôt cette séance consacrée aux intervalles de confiance, maintenant c'est à vous de jouer pour utiliser cette expérience numérique, et essayer de mieux comprendre le théorème que nous avons énoncé.