[SON] [AUDIO_VIDE] Bienvenue dans cette séance, où nous allons voir comment construire des intervalles de confiance pour la méthode de Monte Carlo. Je vous rappelle la question que nous nous posions, qui était de calculer l'intégrale d'une fonction g sur l'hypercube de côté 1 et g, c'est une fonction de d variable à valeur réelle, qu'on supposait mesurable et bornée. On peut considérer des exemples plus compliqués, mais tenons-nous à cet exemple. Nous avions vu dans la séance où nous avons montré le fondement de la méthode de Monte Carlo que pour calculer cette intégrale, en supposant qu'effectivement, c'est pas la calculer explicitement, que c'est une fonction vraiment compliquée, qu'on pouvait simuler n point aléatoire ou n vecteur aléatoire, chacun ayant des composantes, et chacune de ces composantes suit une loi uniforme sur l'intervalle 0, 1. Toutes ces variables aléatoires sont indépendantes, autrement dit, quand on fait varier k, qui est le nombre de points, et la coordonnée, cet ensemble de variables aléatoires constitue un ensemble de variables aléatoires indépendantes. On avait vu que la loi des grands nombres nous permet de dire que cette quantité, qu'on va appeler l'estimateur de notre intégrale, convergeait effectivement vers I. Alors plus précisément, on avait vu que si on prenait g de X 1 plus etc., g de X n divisé par n, j'appelle cette quantité I chapeau n, cette quantité, cette moyenne converge presque sûrement et en probabilité vers I, donc l'intégrale qui nous intéresse, lorsque n tend vers l'infini. Je vous rappelle un petit peu le détail. Donc ça signifie que I n chapeau tend presque sûrement et en probabilité vers l'espérance de g de X k, qui est l'espérance commune de toutes les variables aléatoires qu'on considère. Et cette espérance, puisqu'on considère des lois uniformes, sur 0, 1 puissance d, on obtient l'intégrale qui nous intéresse, qui est I. La question que nous avions laissée en suspens était de se demander quelle était la confiance qu'on peut accorder à cet estimateur, c'est-à-dire se demander quelle est sa qualité. Pour discuter ce point, je vais me concentrer sur la dimension 1 et je vous montrerai à la fin ce qu'on peut dire quand d est plus grand que 1. Dans le cas d égal 1, on a des variables aléatoires x i qui sont uniformes sur l'intervalle 0, 1. L'intégrale est simplement l'espérance de X i, qui est intégrale de g sur 0, 1. I chapeau n, c'est cette quantité. Donc il faut bien réaliser que si on utilise une réalisation donnée de nos variables aléatoires, on obtient une estimation, c'est-à-dire qu'on a une valeur bien précise pour I n chapeau. Mais bien sûr, si on change de réalisation, on retire n variables aléatoires uniformes. A priori, il n'y a aucune raison qu'on retrouve la même valeur. Cette quantité est bien une variable aléatoire. Ҫa, c'est la première chose. Deuxièmement, évidemment, n joue un rôle fondamental puisqu'on sait que cet estimateur converge seulement quand n tend vers l'infini. La question qui se pose, c'est comment est distribuée l'erreur, c'est-à-dire la différence entre I chapeau n et I. Cette question est vraiment fondamentale. Nous espérions donner un sens à la confiance attribuée à cet estimateur ou prétendant qu'il estime correctement I. Dans la séance, nous avions montré simplement que la méthode de Monte Carlo fonctionne, en s'appuyant seulement sur des grands nombres. J'avais évoqué le fait que cette erreur était d'ordre 1 sur racine de n. Et en fait, nous allons voir pourquoi c'est effectivement le cas. Pour ça, on va appliquer le théorème limite central. Et on va l'appliquer aux variables aléatoires g(Xi). Voilà ce que ça donne. Si vous reprenez l'énoncé du théorème limite central dans le cours, il nous dit que la différence entre I chapeau n et I, si vous la multipliez par racine de n, et vous la divisez par sigma, on va voir ce que c'est sigma dans un instant, cette aléatoire, vous regardez quand est-ce qu'elle tombe dans l'intervalle moins a, a et la probabilité que cet événement se passe tend quand n tend vers l'infini, vers l'intégrale de moins a, a de la densité normale standard. Je vous rappelle ici que f, c'est la densité de la loi normale pour une variable aléatoire de moyenne 0 et de variance 1 et ça a cette expression. Qu'est-ce que c'est sigma dans cette formule? Il s'agit de la variance associée à g (Xi), c'est donc l'espérance du carré de g (Xi) moins le carré de l'espérance de g (Xi). Voilà ce que nous dit le théorème limite central. Comment l'utiliser pour le problème qui nous intéresse? J'ai repris la probabilité qu'il y avait précédemment et je la réécris de la manière suivante. Au lieu de dire que cette quantité dans cet intervalle, je peux réécrire facilement que c'est la même probabilité que I soit plus grand ou égal que I chapeau n moins a, sigma sur racine de n et plus petit que I chapeau n plus a, sigma sur racine de n. Donc cet événement, c'est le même que celui-là, ils ont la même probabilité. la première chose qu'on fait, on ne dispose pas de n infini, on a n qui est fini, on va donc supposer que cette quantité ou cela, est très proche de la valeur asymptotique qui est ce nombre. On peut se demander ce qui signifie n est assez grand. En fait, si vous regardez les livres de statistiques ou si vous interrogez les praticiens, n assez grand, c'est de l'ordre de 30, 50 et il est bien évident que si vous pouvez avoir n plus grand, c'est encore mieux. Dans ce cours, nous ne verrons pas comment on peut plus précisément quantifier l'écart entre cette probabilité et sa valeur asymptotique, c'est l'objet de théorèmes qui dépassent ce cours. Mais souvent, ces théorèmes généraux nous donnent une erreur pessimiste. Tout ce qu'il faut utiliser ici, c'est que, en pratique, si vous avez n qui est de quelques dizaines ou quelques cetaines ou mieux, évidemment, on remplace carrément cette probabilité par cette valeur. Alors, ces valeurs-là sont tabulées, parce qu'on ne peut pas les calculer de façon explicite, mais on trouve facilement leur valeur. Je vous en donne deux. Si, par exemple, on veut que ce nombre soit 0.95, on a prend a égal 1.96. On sait la surface sous la courbe en cloche, qui est presque 1. Les 0.95 si on prend a égal 1.96. Notre valeur typique, si on veut que cette surface soit 99 % de la surface sous la courbe en cloche. On trouve a égal 2.58 dans les tables qui sont faites à cet effet. Donc, en vertu de ce que je viens de dire, la probabilité maintenant que I soit encadré de cette manière, entre I chapeau n moins 1.96 sigma sur racine de n et I chapeau n plus 1.96 sigma sur racine de n, j'ai pris l'exemple où a égal 1.96. On peut bien sûr faire varier ce paramètre, j'ai pris juste celui-là pour illustration. Cette probabilité donc est approximativement 0.95. Dit un peu différemment, la probabilité que I soit dans l'intervalle qui est ici, cet intervalle, elle est de l'ordre de 0.95. Il faut bien prendre conscience que cet intervalle est aléatoire, puisque chaque fois qu'on a une réalisation, cette quantité ici varie et elle va varier selon les réalisations que vous aurez. Pour résumer cette phrase, on dit en général que l'intervalle de confiance est à 95 % sur I. Il faut bien prendre conscience de ce que signifie ce résultat. On peut dire de façon un peu moins précise, mais assez parlante, qu'un intervalle de confiance à 95 % donnera un encadrement correct pour ce qui vous intéresse, I 95 fois sur 100 en moyenne. On peut dire encore que si l'on pouvait répéter des estimations un grand nombre de fois, on se tromperait, en moyenne, 5 fois sur 100 en affirmant que I se trouve dans cet intervalle. Peut-être avez-vous remarqué que dans l'intervalle précédent, il apparaît explicitement sigma, la variance, plus exactement donc le carré, le sigma qui est la variance des variables aléatoires g (Xi). Le petit problème, c'est que on ne connaît pas sigma. Et vous voyez, j'ai rappelé ici l'expression de sigma carré, c'est cette espérance de g (Xi) carré moins l'espérance de g (Xi) au carré, et c'est au moins aussi difficile à calculer que I lui-même, qui est, en fait, l'espérance de g (Xi). Comment on s'en sort? L'idée est d'utiliser encore la méthode de Monte Carlo. On va définir l'estimateur pour la variance, qui est le suivant. Je vais introduire V n. Je prends la moyenne des carrés de g (X j) et je retranche le carré de la moyenne de g (X i), qui est tout simplement le carré de I chapeau n. Ce que je prétends, c'est que racine de V n est un estimateur de sigma. Autrement dit, la racine carrée de Vn tend, quand n tend vers l'infini, vers Sigma, presque sûrement et en probabilité. Et on va voir que c'est une conséquence de la loi des grands nombres. Alors en effet, si on prend le carré de În il tend presque sûrement et en probabilité vers I², si l'on considère maintenant l'autre morceau, qui est la moyenne des g(Xj)², on peut appliquer également la loi des grands nombres, parce que si on pose Yj = g(Xj)², à cause du fait que c'est une fonction mesurable bornée, on peut appliquer le théorème, de la loi des grands nombres. On a des variables indépendantes, qui sont identiquement distribuées, bornées donc tout va bien, et cette quantité converge presque sûrement et en probabilité vers l'espérance de g(Xi)² Donc Sigma², qu'on veut approcher par Vn, c'était ça, donc cette quantité-là moins celle-là, et si on fait cette différence, elle tend aussi presque sûrement et en probabilité, vers Sigma². Il suffit ensuite de prendre la racine carrée pour obtenir bien Sigma. Donc l'idée, c'est de substituer à Sigma, dans ce que nous avons fait précédemment, racine de n. Autrement dit, nous aurons vraiment utilisé seulement l'échantillon dont nous disposons, et pas de connaissances sur la variance de g(Xi), que nous ne connaissons pas. Donc en fait, si on reprend l'intervalle de confiance à 95 % pour I, que l'on avait tout à l'heure, qui était celui-là, vous voyez qu'ici on avait Sigma, on va le remplacer par le même, sauf que Sigma va être remplacé par racine de Vn ici, et ici. Donc voilà, nous avons maintenant un nouvel intervalle de confiance à 95 %, où ici, il n'y a que des choses connues, ou qui viennent de la réalisation des v.a. qu'on a. Quelle est, si je puis dire, la morale de ce que nous avons fait? C'est qu'il faut systématiquement déterminer un intervalle de confiance, pour avoir une idée de la précision de la valeur obtenue, et comme vous avez pu le voir cela nous demande finalement peu de calculs supplémentaires, puisqu'une fois que vous avez les valeurs de g(Xi), pour I = 1 jusqu'à n, calculer la moyenne et calculer la variance l'estimateur de la variance, ça ne demande pas beaucoup de calculs de plus que si on calculait seulement la moyenne, ça c'est la première chose, la deuxième chose est que vous voyez que si 2a(racine de Vn) / racine de Vn >> |În|, c'est-à-dire que l'intervalle que nous avons est beaucoup trop grand par rapport à >> la valeur absolue de În, on se dit qu'il faut accorder peu de crédit à la valeur de În. La solution est bien-sûr d'augmenter n, si c'est possible évidemment, ce qui n'est pas toujours le cas. Je voudrais faire une remarque sur ce que nous avons fait en remplaçant Sigma par racine de Vn. On peut se demander si l'on peut justifier rigoureusement, de la même manière que nous l'avons fait en utilisant le théorème limite centrale tout à l'heure, si on peut justifier rigoureusement cet intervalle de confiance, avec racine de Vn ici. La réponse est oui. Si on reprend le cheminement de tout à l'heure, On aimerait bien maintenant comprendre ce qui se passe quand on prend (În- i) et qu'on le multiplie par (racine de n) / racine de Vn, tout à l'heure nous avions (racine de n) / Sigma, et on va réécrire ça de la manière suivante. On peut écrire que c'est exactement pareil que (Sigma / (racine de Vn) ) [ ( (racine de n) / Sigma) (În- I) ] Donc là, il faut invoquer un théorème que vous n'avez pas étudié en cours, qui s'appelle le théorème de Slutsky, qui vous dit que, si vous avez cette situation notamment, si vous êtes capable de démontrer que cette partie tend presque sûrement ou simplement probabilité vers 1, et cette partie tend en loi vers la loi normale centrée réduite, alors on a bien que cette v.a. tend vers la loi normale centrée réduite. Effectivement, nous avons vu que racine de Vn tend presque sûrement ou en probabilité vers 1, donc ce quotient tend vers 1, et ça, c'est tout simplement le théorème limite centrale, usuel. Donc on peut conclure, grâce à ce théorème, qu'effectivement, cette quantité-là tend bien en loi vers la normale centrée réduite. Autrement dit, nous pouvons vraiment répéter le cheminement de tout à l'heure, et vraiment arriver à cet intervalle de confiance. Pour terminer, je voudrais commenter ce qui se passe en dimension plus grande que 1, si vous vous souvenez de ce que nous avons dit sur la méthode de Monte-Carlo, quand nous l'avons présentée, nous avons vu que, comparée aux méthodes déterministes, elle devenait extrêmement intéressante dès que la dimension devenait grande, et en fait, même si elle est par exemple égale à 8 ou 10, en pratique on peut avoir des nombres beaucoup plus grands, et donc je voulais vous montrer ce qui se passe dans ce cas-là. Dans ce que nous avons fait juste avant, je me suis restreint à la dimension 1 pour simplifier la présentation ; ce qu'il faut faire pour refaire ce que nous avons fait précédemment, c'est en fait appliquer une version multidimensionnelle du théorème limite centrale. C'est-à-dire une version où les v.a. sont vectorielles. On a des vecteurs aléatoires. Vous n'avez pas vu cette version en cours, mais elle se trouve dans le livre. Le point important, c'est que le théorème limite centrale fonctionne encore, et le point tout-à-fait remarquable, c'est que la largeur de l'intervalle qui contient (I- În) est de l'ordre de (1 / racine de n), en particulier elle ne dépend pas de la dimension d. C'est ce que j'avais annoncé dans la séance la première séance sur Monte-Carlo, à savoir que, effectivement, il n'y a pas de dépendance dans l'erreur, dans la dimension, elle est toujours en (1 / racine de n) elle n'est pas très rapide mais au moins elle ne dépend pas de la dimension alors que, dans le cas des méthodes déterministes, l'erreur dépend beaucoup de la dimension et elle devient énorme en fonction de la dimension. Voilà ce qui termine cette séance sur les intervalles de confiance pour la méthode de Monte-Carlo.