[AUDIO_VIDE] Bonjour. Nous allons aborder maintenant la huitième et dernière séance du Chapitre 1. Cette séance va s'intéresser, va introduire la notion de variables aléatoires dont nous allons voir que c'est en fait la version, le point de vue moderne des probabilités. En fait, je vous rappelle que jusqu'à present nous avons construit l'espace de probabilité (Ω, A, P), où Ω est l'espace d'état, A une tribu sur Ω et P une probabilité. Et nous l'avons introduit d'un point de vue ensembliste, c'est-à -dire que nous avons défini une probabilité par ses valeurs P de A, pour A un évènement appartenant à la tribu A ronde. Donc nous avons construit cet espace par une approche que l'on peut qualifier d'ensembliste. Nous avions vu que la base de ce travail était en fait la manière dont on pouvait décrire des évènements aléatoires par des ensembles et utiliser toutes les operations de la théorie des ensembles. Donc dans cette séance nous allons prendre un autre point de vue, qui est un point de vue plus moderne comme je l'ai dit, et qui est un point de vue fonctionnel et qui est de dire qu'en fait, en général, décrire une expérience aléatoire c'est compliquée. Définir l'espace abstrait Ω de tous les résultats de l'expérience ça peut être très lourd. Et dans la pratique, ce qui nous intéresse quand on a une expérience aléatoire, en général, c'est de quantifier certaines valeurs qui dépendent de l'expérience. Par exemple, si vous jouez 100 fois pile ou face, vous allez avoir envoie de compter le nombre de pile que vous avez fait dans ces 100 lancers de pile ou face. Si vous lancez une fléchette sur un disque, vous allez avoir envie de compter, de connaître, par l'exemple, la distance du point d'un d'impact de votre fléchette au centre de la cible, qui vous donnera des point, si vous jouez à ce jeu. Si vous regardez une population de cellules qui se reproduisent et se divisent donc de manière aléatoire, et qui meurent de manière aléatoire, vous allez pouvoir vous intéresser au nombre de cellules, l'évolution du nombre de cellules au cours du temps, et donc compter le nombre de cellules à chaque instant t. Si vous regardez l'évolution d'un portefeuille boursier, vous aurez peut-être envie de connaître le maximum de la valeur de ce portefeuille sur un certain interval de temps, [0,T]. Donc dans tous ces cas de figure, c'est pas vraiment l'expérience aléatoire qui nous importe, mais c'est une certaine valeur, liée à , donc à cette experience aléatoire, qui est quantifiable. Une distance pour les, la cible et le point d'impact, un nombre de cellules dans l'exemple précédent, un maximum d'une certaine trajectoire pour le portefeuille boursier. Donc c'est ça que, on va essayer d'utiliser et on va voir que cette approche là est en fait très féconde du point de vue de la modélisation probabiliste. Donc nous nous donnons maintenant notre espace (Ω, A, P) de probabilité et nous allons nous intéresser donc à une grandeur que l'on peut quantifier et qui va dépendre de l'expérience. Donc, en fait, ce point de vue fonctionnel consiste à considérer une fonction, donc l'on va noter X, défini de l'espace de probabilité Ω à valeurs dans un ensemble F, donc F ça sera un ensemble que vous connaissez, soit R, soit un sous-ensemble de R, soit R puissance d, donc ici on peut avoir des vecteurs, ou soit (soient) même des espaces beaucoup plus généraux comme un espace de fonctions continues dans l'intervalle [0, T] à valeurs dans R, par exemple. Donc cette fonction a ω, un résultat de l'expérience, elle va associer une certaine valeur X(ω). Donc c'est une fonction de l'aléa, une fonction pour laquelle les variables sont des éléments de l'espace d'état Ω et c'est cette fonction qu'on va appeler une variable aléatoire. Alors, la définition ici n'est pas complète, ce sur quoi je veux insister c'est sur cette terminologie qui est un petit peu troublante, puisque on appelle une variable aléatoire, en fait, c'est pas une variable, c'est une fonction d'une variable qui est liée a l'aléa de l'expérience. Bien. Alors, je vous ai donné ici d'autres exemples mais qu'on vient essentiellement de décrire. Donc le nombre de pile obtenu sur 100 lancers de pièce, donc voyez dans ce cas là , F c'est un espace qu'on peut énumérer, qui consiste en les nombres entiers de 0 à 100. Si je regarde, comme on l'a vu tout à l'heure, la distance du point d'impact d'une flèche au centre de la cible, la cible est supposée de rayon 15 centimètres, par exemple, et bien cette distance peut prendre toutes les valeurs possibles entre 0 et 15. Si on considère la valeur maximale d'un prix d'actif boursier, sur un intervalle de temps donc donné, et bien cette valeur pourra prendre toute valeur réelle, strictement positive et dans ce cas la F est égale à R+. Donc vous voyez ici, on a trois structures d'espace, un espace discret, F, un espace continu, borné, l'intervalle fermé, borné, {0, 15}, ou l'intervalle ouvert R+, bon je ne précise pas ici si ça contient 0 ou pas en fait. Alors qu'est-ce qu'on gagne à ce point de vue-là ? Bien, on gagne au fait que si Ω, en général, est un espace difficile à décrire, puisque c'est l'ensemble de tous les résultats possibles d'une expérience, qui dans des modèles sophistiqués, peut être très compliquée à décrire. L'espace F des valeurs de X sera, en général, connu et beaucoup plus simple puisque ça sera comme on l'a dit un sous-ensemble de R ou de R^d, ou un espace fonctionnel, mais en tout cas, on pourra faire des calculs sur cet espace F. En fait toute l'idée va être d'utiliser cette fonction de l'aléa X pour transporter les propriétés de l'espace de probabilité abstrait (Ω, A, P) sur l'espace F, sur lequel on va travailler beaucoup plus facilement et pouvoir faire des calculs. Alors, dans toute la suite, je vais utiliser les notations suivantes et les ensembles suivants. Donc là encore ce sont des notations qui sont assez spécifiques au contexte probabiliste. Donc je vais toujours noter par B une partie de F. Et pour un B inclu dans F, on va noter {X ϵ B}, puisqu'il ne veut rien dire a priori puisque X est une fonction, je le répète, mais cette notation là va désigner donc un sous-ensemble de Ω qui est l'ensemble des ω, telle que X(ω) appartient à B. Donc ça c'est une notation traditionnelle en probabilité, qui n'est pas la notation standard de théorie des ensembles. La notation de théorie des ensembles c'est noter ça X –1 (B), l'image réciproque par la fonction F de l'intervalle de l'espace d'arrivée B. Je vous rappelle que X c'est une application de Ω à valeurs dans F. Donc cette notation là va être utilisée systématique en probabilité, mais je me demande vraiment de vous rappeler que la définition est là , c'est un sous-ensemble de Ω. Alors, en fait, ce qu'on va étudier ici, plutôt que d'étudier pour chaque évènement aléatoire de A, la probabilité de A, en fait, on va s'intéresser, nous, uniquement aux réalisations des valeurs de X. Ce qui nous intéresse c'est de connaître les probabilités de réalisations de ces ensembles là , de ces ensembles, de résultats d'expérience ω, tel que pour ω, X(ω), donc cette valeur, donne là fonction aléatoire qui nous intéresse, pris en cette experience-là , soit dans B, B fixé a priori. Donc on cherche à connaître cette probabilité-là . Alors, bien sûr, pour pouvoir donner un sens à ça, je vous rappelle que pour donner un sens à la probabilité d'un sous-ensemble de ω, il faut s'assurer que, cette, ce sous-ensemble soit dans la tribu A ronde de notre espace de probabilité. Donc, il faut que notre ensemble de ω, telle que X(ω) soit dans B, appartienne à A ronde. Donc on va s'intéresser à ces ensembles-là et ce qu'on peut remarquer facilement, c'est que si on fixe, donc que X(Ω) est égale à F, à savoir que X est surjective de Ω dans F, et bien l'ensemble des parties B de F, telles que X –1 (B) soit dans A ronde, donc les parties B de F qui nous intéressent. Donc si on regarde tous ces B, eh bien ça forme une tribu de A ronde que je vais noter B ronde. Alors une remarque, en général, cette tribu-là , voyez comme c'est défini, c'est vraiment lié à X. C'est pas du tout l'ensemble des parties de F, c'est plus petit que l'ensemble des parties de F. En général, ça, ça dépend de la définition de la variable aléatoire X, mais ça justifie que on n'attribue pas toujours à un ensemble, l'ensemble de ses parties comme tribu. Alors montrons cette proposition. Donc je vous rappelle qu'une tribu c'est un ensemble d'ensembles de F, d'ensembles B de F, de parties de F, qui contient l'espace, dont F tout entier, et qui est stable par passage au complémentaire et par réunion dénombrable. Donc là , vous avez toujours le choix entre choisir réunion dénombrable ou intersection dénombrable puisqu'on a vu que le passage au complémentaire faisait passer d'une réunion dénombrable à une intersection dénombrable, ou d'une intersection dénombrable à une réunion dénombrable. Alors, première chose, est-ce que B égale F appartient à notre ensemble B ronde, mais on regarde X -1 de F, et par définition, X -1 de F, c'est tout Oméga, Oméga, par définition de la tribu A ronde, appartient à A ronde, donc on peut en déduire que F est dans B ronde. Maintenant, regardons la stabilité par passage au complémentaire, supposons que B est dans cet ensemble B ronde, c'est-à -dire que X -1 de B appartient à A ronde, et je regarde maintenant X -1 de B complémentaire. Or, nous avons vu dans les rappels sur la théorie des ensembles, que X -1 de B complémentaire, c'est égal, donc, à l'image réciproque de B par X, le tout complémentaire, puisque B est dans B ronde, X -1 de B est dans A ronde, et A ronde est stable par passage au complémentaire, donc le complémentaire de X -1 de B est dans A ronde. Nous en déduisons donc, que le complémentaire de B est dans B ronde. Troisième propriété, nous devons montrer la stabilité par réunion dénombrable de cet ensemble B ronde. Donc, je prends une suite Bn d'éléments de B ronde, je sais, donc, que pour chaque n, l'image réciproque par X de Bn est dans A ronde, j'en déduis que la réunion dénombrable de ces ensembles est dans A ronde, puisque A ronde est une tribu, donc stable par passage au complémentaire, et il suffit maintenant de remarquer que la réunion dénombrable des images réciproques par X des Bn est égale à l'image réciproque par X de l'union dénombrable des Bn, là encore c'est une propriété bien connue de théorie des ensembles. Donc, nous en déduisons que l'image réciproque par X de l'union des Bn est un élément de A ronde et donc, que l'union des Bn est dans B ronde. Bien. Donc, vous voyez que l'on peut toujours munir F de cet ensemble B ronde, qui est en fait une tribu, donc on peut munir F de la tribu B ronde, défini ainsi. Donc, on peut plus généralement munir l'espace F d'une tribu, et pour que X nous permette, donc, comme je l'ai dit tout à l'heure, de quantifier les probabilités de tels événements, donc, il faut s'assurer que ces ensembles-là soient dans A ronde, donc si on munit, en fait, F d'une tribu plus générale B ronde, il faut s'assurer que pour tout B dans B ronde, X -1 de B soit dans A ronde. Donc, ça, c'est ce qu'on appelle en théorie de la mesure, une application mesurable, de l'espace d'état Oméga muni de sa tribu A ronde, dans F muni de sa tribu B ronde. Donc, en probabilité d'une telle application mesurable est appelée variable aléatoire. Notre but maintenant est de calculer la probabilité d'un ensemble de oméga, donc un sous-ensemble de grand Oméga, un ensemble de petit oméga tel que X de petit oméga soit dans B, bien sûr, sous cette hypothèse qui est maintenant caractérisée par le fait que B est dans la tribu B ronde de F. Donc, nous avons le théorème suivant, qui va être fondamental dans la pratique, qui est de remarquer que si on prend, donc, B dans B ronde et si je définis P X donc, une application sur l'ensemble des éléments de B ronde par P indice X, donc on va voir que cette application dépend de X, P indice X de B est égal à la probabilité, celle-ci est la probabilité que j'ai sur mon espace Oméga, A, P, probabilité de l'ensemble X -1 de B, c'est-à -dire la probabilité de l'ensemble des petits oméga tels que X de oméga est dans B, eh bien, cette application-là qui est défini sur B ronde, et qui est clairement à valeurs dans 0, 1, puisque vous voyez que chaque P X de B est défini comme la probabilité d'un événement de A, eh bien, P X va définir une probabilité sur l'espace d'arrivée de X, à savoir F. Donc, on va tout de suite montrer ce théorème, vous allez voir que la preuve est très simple, mais avant je vais insister sur l'importance de ce résultat et en particulier, pour les applications, pour les calculs, on a vu que l'espace d'état Oméga était ce qu'on appelle l'espace abstrait, et donc difficile à appréhender et donc, décrire des probabilités sur Oméga, c'est difficile mais ce qu'on a gagné par ce théorème-là , c'est qu'en général on connaît bien F, et les probabilités sur F vont être beaucoup plus faciles à caractériser. On a déjà vu dans une séance précédente comment on pouvait décrire une probabilité sur un espace fini ou dénombrable, par une suite de nombres compris entre 0 et 1, et telle que la somme de la série associée soit égale à 1. Donc, on va pouvoir même dans des cas plus généraux, caractériser les probabilités sur des espaces F que l'on connaît, comme R, R puissance d ou même des espaces fonctionnels mais là , ça dépassera le cadre de ce cours. Donc, vous voyez que cette probabilité qui dépend, bien sûr, de X, c'est fondamental, eh bien, en fait, elle va s'appeler la loi de X ou la loi de probabilité de X, vous pourrez trouver aussi la terminologie distribution de X. Du point de vue théorie de la mesure, en fait, c'est la mesure image ce qu'on appelle la mesure image de la probabilité P défini sur l'espace abstrait Oméga A, Oméga A ronde, est transporté par l'application X. Donc, nous allons maintenant montrer ce théorème, comme je vous l'ai dit c'est très simple à montrer, donc il nous faut montrer que cette application P indice X est bien une probabilité sur F, on a déjà remarqué qu'elle était définie sur la tribu B ronde de F et à valeurs dans 0, 1. Donc, pour montrer que P X est une probabilité sur F muni de sa tribu B ronde, nous devons montrer 2 choses. Tout d'abord, premier axiome, que P X de F est égal à 1, or, par définition, P X de F, c'est la probabilité de l'ensemble des petits oméga tels que X de oméga appartient à F. Mais ça, nous l'avons vu, c'est cet ensemble-là est égal à l'espace grand Oméga tout entier et puisque P est une probabilité, ceci vaut 1. Bien. Nous devons maintenant montrer la sigma additivité donc, nous allons prendre une suite Bn d'événements aléatoires de B ronde qui sont disjoints, 2 à 2. Et, nous allons montrer que la probabilité de l'union sur n des Bn est égale à la somme de la série de terme général P X de Bn qui est donc une série convergente. Donc, montrons cette propriété. Par définition, P X de l'union sur n des Bn, c'est égal à la probabilité de l'ensemble des oméga, tels que X de oméga appartient à l'union sur n, des Bn mais ceci est encore égal à la probabilité de la réunion sur n de l'ensemble des oméga tels que X de oméga appartient à Bn, puisqu'en fait dire que X de oméga est dans l'union sur n des Bn, c'est dire qu'il existe un n, tel que X de oméga soit dans Bn. Ces ensembles, je vais les souligner en rouge, ces ensembles oméga tels que X de oméga soient dans Bn, je peux les appeler An, ce sont donc des éléments de A ronde, par définition de Bn puisque Bn, je vous le rappelle, est dans B ronde, pour tout n, et les An sont disjoints, puisque comme les Bn sont disjoints, bah vous voyez que X de oméga ne peut pas être dans 2 Bn différents à la fois. Bien. Donc, nous pouvons appliquer la sigma additivité de la probabilité P et écrire que ceci vaut la somme sur n des probabilités des ensembles de oméga, tels que X de oméga est dans Bn. Et ceci, par définition, est exactement la somme des P X de Bn. Nous avons donc montré les 2 axiomes qui caractérisent une probabilité, et nous avons ainsi construit une nouvelle probabilité mais maintenant sur cet espace des valeurs de X que l'on a appelé F. Étudions maintenant un exemple, nous allons considérer 2 dés, nous allons lancer 2 dés et nous intéresser donc aux résultats des 2 dés, nous allons supposer que les dés ne sont pas pipés, donc on a autant de chance a priori de tomber sur l'une ou l'autre des faces de chacun des deux dés. Donc, l'espace de tous les résultats possibles de l'expérience, dans ce cas-là , l'espace d'états, c'est l'ensemble de tous les couples (i, j), où i désigne le résultat, donc du premier dé, et j le résultat du second. Donc i et j sont deux nombres entiers compris entre 1 et 6. Puisque j'ai supposé que les dés ne sont pas pipés, eh bien on va supposer qu'on peut munir donc l'espace oméga d'une probabilité uniforme. Donc bien sûr, je ne l'ai pas redit, mais comme oméga est fini, on munit toujours oméga de la tribu de l'ensemble de ses parties. Et on a vu qu'une probabilité sur oméga était caractérisée par la probabilité de ses singletons. Donc, dire qu'on prend une probabilité uniforme, c'est considérer une probabilité p, qui à chaque singleton petit oméga, donc ici oméga c'est un couple (i, j), donc à chaque couple (i, j) va associer la probabilité 1 / 36 puisque 36 est le nombre d'éléments de notre espace d'états oméga. Ce qui m'intéresse, ce ne sont pas forcément les couples (i, j), mais c'est le résultat de la somme de i et de j. Donc, nous allons introduire grand S, qui est donc une fonction définie sur grand oméga qui à un couple (i, j) de oméga va associer la somme i + j. Donc, grand S est une variable aléatoire, et c'est la variable aléatoire somme des résultats des deux dés. Donc, l'ensemble de ces valeurs, donc c'est l'ensemble discret de {2, ..., 12}, puisque i et j appartiennent chacun à {1, ..., 6}. Et comme F est un ensemble discret, là encore on associe à cet ensemble grand F, la tribu de toutes ses parties. Donc, nous voulons caractériser la loi de grand S. Donc, c'est une probabilité sur l'ensemble {2, 3, ..., 12}, et par définition si je prends un sous-ensemble de notre ensemble {2, ..., 12}, je sais que la loi P indice S (B), c'est la probabilité de l'ensemble des couples (i, j), de l'ensemble des oméga, tels que S (oméga), S (i, j), appartienne à B. Mais ici la probabilité sur grand oméga est une probabilité uniforme et on sait que dans ce cas-là , la probabilité d'un événement, c'est le nombre de cas favorables à l'événement sur le nombre de tous les cas possibles. Dans notre cas de figure, le nombre de cas favorables à l'événement, c'est le nombre de couples (i, j) tels que S (i, j) appartient à B. Le nombre de tous les cas possibles, on l'a déjà vu, c'est 36. Donc, la loi de grand S est définie par ces valeurs-là , pour toutes les parties grand B de {2, ..., 12}. Donc, c'est là encore un résultat de dénombrement. Néanmoins, nous avons également vu et on l'a rappelé tout à l'heure, qu'une probabilité d'un ensemble discret était caractérisée par la probabilité de ses singletons. Donc, pour décrire P S, il va en fait suffire d'appliquer cette formule-là , pour B un singleton de grand F. Donc, pour B singleton de {3, ..., 12}. Donc, regardons déjà la probabilité P indice S ({2}). Par définition, c'est P (S = 2). Or, il faut qu'on compte le nombre de couples (i, j), tels que i + j = 2, eh bien il n'y en a qu'un seul, c'est le couple (1, 1), et donc par la formule qu'on vient de voir juste ici, P de, P S ({2}), c'est 1 / 36. De même, si on regarde P S ({12}), eh bien on remarque qu'il n'y a qu'une seule manière d'obtenir 12, c'est que chacun des dés donne le résultat 6. Donc, P S ({12}) vaudra aussi 1 / 36. Si on regarde P S ({3}) ou P S ({11}), vous pouvez vérifier facilement qu'il y a deux possibilités d'obtenir soit une somme de deux dés égale 3, soit une somme de deux dés égale 11, et donc la probabilité de ces singletons-là vaudra 2 / 36. Et vous voyez qu'en décrivant des ensembles, donc les couples (i, j) tels que i + j vaille soit 4, soit 10, etc, 6, 8, 9, 5 ou 7, vous aurez de cette manière-là , et vérifiez-le à titre d'exercice, vous aurez de cette manière-là toutes les probabilités P indice S des singletons de l'ensemble {2, 3, ..., 12}. Et nous avons ainsi, cela suffit pour caractériser la loi, la loi de S. Donc, vous voyez que finalement, pour une variable qui prend ses valeurs donc dans un ensemble fini, en particulier ici pour S qui prend ses valeurs petit i entre 2 et 12, et des valeurs entières, on décrit complètement la probabilité, la loi de grand S, la probabilité P S, par les valeurs que prend grand S, et la probabilité P indice i de réalisation de ces valeurs. P indice i, c'est P grand S ({i}). Alors, on peut représenter graphiquement cette loi par des histogrammes. Donc, nous allons représenter graphiquement, par ce qu'on appelle un diagramme en bâton, les valeurs (i, p i). Donc, sur l'abscisse, on va indiquer les valeurs entières petit i qui varient entre 2 et 12. Et en ordonnée, on va indiquer ces valeurs théoriques p i. Alors, sur les simulations que vous avez sous les yeux, ces valeurs théoriques seront données par l'histogramme vert que vous voyez derrière le rouge. Vous voyez une vrai symétrie, symétrie qu'on peut remarquer dans les calculs. J'ai fait exprès de présenter les calculs comme cela. Vous voyez qu'il y a une symétrie autour de l'entier 7 ici. Donc, vous avez les valeurs théoriques qui sont représentées par les bâtons verts. Et, je vous ai mis en même temps des fréquences empiriques qui sont les vraies, des résultats obtenus là par simulation des deux lancers de dés. Donc, dans le premier cas, on a lancé 100 fois deux dés. Et on a regardé la répartition des valeurs de grand S que l'on a obtenues, et on les a rangées en regardant la proportion de valeurs grand S qui vaut 2, 3, 4, 5, 6, 7, etc, jusqu'à 12. Donc, vous voyez que dans le cas de 100 lancers, vous avez quand même une grosse différence entre les résultats empiriques, qui décrivent la distribution de grand S, et la valeur théorique. On remarque également que si on fait 1 000 tirages, eh bien là on a une adéquation beaucoup plus importante. Je vous rappelle qu'on a construit tout le modèle probabiliste comme cela, en faisant l'hypothèse que si le nombre d'expériences est de plus en plus grand, ici c'est le nombre de lancers de dés, eh bien, on va avoir des fréquences empiriques qui se rapprochent de la loi théorique, c'est comme cela qu'on a défini d'une manière axiomatique, les probabilités, et je vous ai dit qu'en fait on justifierait tout cela dans le chapitre 5 sur la loi des grands nombres. Bien. Alors, juste une petite remarque, c'est qu'on est parti donc d'une probabilité uniforme pour nos résultats possibles des deux dés, mais qu'en fait la loi de S n'est pas du tout uniforme. Une loi uniforme, c'est une loi qui présente un histogramme où tous les bâtons ont même taille. Ici, vous avez une loi qui est une forme pyramidale. Alors, on verra même au cours, dans une séance ultérieure de ce chapitre que l'on ne peut pas piper les dés, de telle sorte que la loi de S soit uniforme sur {2, ..., 12}.