[MUSIQUE] [MUSIQUE] [MUSIQUE] [MUSIQUE] Bonjour et bienvenue dans cette leçon dédiée à la géostatistique et au krigeage, une méthode d'interpolation avancée. Nous avons vu dernièrement que l'incertitude des résultats fournis par les méthodes d'interpolation déterministe locale posait problème. Des connaissances plus approfondies sur la nature de la distribution spatiale étaient nécessaires et dès les années 1940, c'est sur ce sujet qu'ont porté les travaux de recherche de Danie Krige et de Georges Matheron. Leurs contributions respectives ont permis de développer et de consolider le concept de variable régionalisée. Le premier but de cette leçon est de présenter le concept de variable régionalisée, introduit pour décrire la nature particulière d'une variable qui caractérise un phénomène spatial continu. Ce type de variable joue un rôle fondamental en géostatistique. Ensuite, nous introduirons des notions et des outils clés comme la nuée variographique ou le variogramme, avant de vous expliquer le fonctionnement du krigeage. Ces informations vous permettront d'acquérir des connaissances de base en géostatistique et d'appliquer une procédure standard d'analyse variographique et d'interpolation par krigeage à tout jeu de mesures qui caractérise un phénomène spatial continu. Nous allons commencer par une brève introduction à la géostatistique, puis nous suivrons le fil d'une procédure d'analyse variographique empirique, ce qui permettra d'introduire progressivement des notions de nuée variographique, de variogramme expérimental, de variogramme surfacique et directionnel et de variogramme théorique, avant de passer au krigeage. [MUSIQUE] Dans quelle mesure peut-on estimer une valeur en un point quelconque d'un domaine par interpolation? Et si la réponse est affirmative, quelle loi d'interpolation est-il judicieux d'appliquer? Est-elle linéaire? Est-elle quadratique ou d'une autre nature encore? Ces questions trouvent une réponse si l'on est capable de proposer une théorie complète et rigoureuse qui permet de modéliser la relation entre le comportement de l'échantillon et celui du phénomène sur l'ensemble du domaine. Cette problématique relève de la géostatistique qui a pris ses racines dans l'étude des fonctions aléatoires, développée notamment par Kolmogorov et Weiner au cours des années 1930 et 1940. Mais on attribue les premiers travaux à l'ingénieur des mines sud-africain Danie Krige. Krige a examiné les corrélations spatiales entre deux points échantillonnés en fonction de la distance qui les sépare et il a proposé le variogramme pour les représenter. Son approche a été reprise ensuite par le mathématicien français, Geogres Matheron, au début des années 1960 pour en établir les fondements théoriques. Matheron a notamment introduit le concept de variable régionalisée pour décrire la nature particulière d'une variable caractérisant un phénomène spatial continu et il a fait appel à la notion de fonction aléatoire pour élaborer une théorie rigoureuse et complète. Le concept de variable régionalisée et le variogramme sont les deux outils de base au service des techniques d'interpolation par krigeage. Nous allons découvrir leur rôle et leur fonctionnement en appliquant progressivement une procédure d'analyse variographique à un jeu de données empiriques. Une campagne d'échantillonage a permis de récolter des échantillons de sol et de mesurer les teneurs d'arsenic, de cadmium et de plomb, exprimées en partie par million ou ppm. Toute analyse de ce type débute par une caractérisation descriptive du jeu de données, basée sur des indicateurs statistiques. Il s'agit dans un premier temps de se faire une idée des données à disposition, avec pour objectif de décrire les caractéristiques statistiques de la variable, d'observer si la variable se comporte de manière homogène sur l'ensemble du domaine et de vérifier aussi si la variable satisfait aux exigences des outils statistiques utilisés pour la régionalisation. On va pour commencer, cartographier le domaine échantillonné, puis calculer un certain nombre d'indicateurs statistiques qui fournissent une première vision des propriétés des valeurs mesurées. Cette étape permet de déceler d'éventuelles incohérences ou des valeurs aberrantes pouvant provenir d'erreurs de mesure. Ici dans le tableau, le fait d'observer une variable maximale pour l'arsenic, très écartée de la moyenne, laisse présager la présence d'une ou de plusieurs mesures aberrantes. [MUSIQUE] Les indicateurs de statistiques descriptives ne donnent aucune indication sur le comportement local de la variable d'intérêt sur le domaine D. Ils ne tiennent pas compte de la localisation des sites échantillonnés et ne sont que des indicateurs globaux. Il convient donc de mettre en évidence le comportement spatial et local du phénomène, c'est ce que l'on appelle la nuée variographique qui nous permet d'effectuer cette opération. Pour étudier la variation locale, le principe de la nuée variographique est d'analyser les différences de valeurs entre paires de sites proches, puis éloignés, et puis finalement entre toutes les paires de points du domaine. Une possibilité est le calcul de la différence entre paires de points et d'en tirer la moyenne, c'est la formule qui apparait en jaune, en haut, à droite. Ici, ∆(z) peut prendre des valeurs positives ou négatives de sorte que la moyenne peut être nulle indépendamment de l'amplitude de la variation de la variable, Il n'est donc pas un bon indicateur du comportement de la variable. En revanche, le carré de la différence permet d'éviter cet inconvénient. On crée alors l'indicateur γ*(˙h) où h est la distance entre les points de mesure α et ß, et qui est constituée des carrés des différences que l'on divise par deux pour exprimer la variation sur un point seulement, c'est la demi-différence quadratique. Pour analyser le comportement de toutes les paires de points, nous utilisons un diagramme de dispersion des écarts quadratiques, justement appelé nuée variographique. Ce diagramme montre les valeurs de γ*(h) par rapport à h. Les paires de points ne sont représentées qu'une seule fois. Il est important de noter que cette approche ne tient pas compte de l'orientation des paires de points, la nuée variographique est dite omnidirectionnelle. [MUSIQUE] Passons maintenant à l'étape suivante de la procédure d'analyse. La nuée variographique a produit un grand nombre de paires et il n'est pas aisé de dégager un enseignement de la dispersion des demi-écarts quadratiques. On y parvient en segmentant le domaine en classes de distance, symbolisées ici par les barres oranges, de manière similaire à un histogramme. Un pas ∆(h) est choisi, ou lag ∆(h) en anglais, et pour chaque intervalle de h(o) à h(n), on calcule la moyenne des valeurs de γ*(h). Nous verrons plus loin sur la base de quels critères la valeur du pas, ou du lag, est établie. Les moments où on considère une moyenne par classes de distance, la dispersion quadratique est désignée par γ(h), sans l'astérisque, et prend le nom de variogramme expérimental. Les nombres inscrits en bleu, au-dessus des points moyens de l'histogramme, désignent le nombre de paires ayant servi au calcul. Plus le nombre de paires est élevé, plus la moyenne du pas est représentative. Une valeur produite par un nombre de paires trop faible n'est pas acceptable en termes statistiques. Il y a lieu dans ce cas d'augmenter la taille du pas de sorte qu'un plus grand nombre de paires soit inclus. La ligne reliant les points facilite l'interprétation du variogramme. Le variogramme expérimental est caractérisé par divers paramètres : la portée est la distance à partir de laquelle l'autocorrélation disparait, le palier est la partie plane du variogramme, censée apparaître au-delà de la portée, la pépite est déterminée par l'intersection du tracé du variogramme expérimental avec l'ordonnée et la pépite du variogramme représente l'incertitude sur la mesure en chaque point. Le nom de pépite a été proposé par Krige dans le contexte de l'extraction d'or dans les mines d'Afrique du Sud, la présence d'une pépite créant en effet une discontinuité dans la densité du minerais. Une paire de sites de mesure très proches produit ainsi pour l'un, une teneur très faible, et pour l'autre, une teneur très élevée, ce qui produit de l'incertitude. Théoriquement, la hauteur du palier correspond à la variance de la variable. Si cette hypothèse est respectée, la valeur de γ(h(x)) peut être interprétée comme l'incertitude qui affecte une teneur z estimée de s et éloignée d'une distance h(x) du point d'appui le plus proche. En pratique, la coincidence palier-variance n'est pas souvent observée, mais l'interprétation proposée en termes d'incertitude reste tout de même valable. [MUSIQUE] [MUSIQUE] [AUDIO_VIDE] Nous allons maintenant expliquer comment prendre cette orientation en compte. Si le phénomène manifestait un comportement différent selon l'orientation, en d'autres termes s'il était anisotrope, le variogramme omnidirectionnelle ne le révélerait pas. Comment alors mettre en évidence un tel comportement potentiel? Faisons une petite experience de pensée pour commencer dans le but de visualiser un phénomène régionalisé anisotropique. Le relief d'une vallée exprimé par l'altitude est un bon exemple. Son comportement est différent si on l'observe dans la direction du cours d'eau ou au contraire perpendiculairement à celui-ci. La solution est de représenter la nuée variographique ou le variogramme sur un diagramme dont les axes sont les composantes h de x et h de y de la droite reliant les paires de points. Les valeurs de gamma de h sont portées perpendiculairement au plan h de x, h de y. Un tel variogramme correspond à un histogramme bivarié. Il est dénommé variogramme surfacique. La figure ici à l'écran présente un variogramme surfacique de la teneur en arsenic qui met en évidence les directions principales d'anisotropie de son comportement spatial. Les valeurs de gamma de h sont représentées en tons de gris selon l'échelle située sur la droite de l'image. Ce variogramme est construit sur la base de cinq pas de 20 mètres. La concentration en arsenic présente un comportement anisotrope. Elle montre une continuité maximale dans la direction 160 degrés et minimale dans la direction 60 degrés. De manière générale, si le variogramme surfacique est uniformément réparti autour de son centre, le comportement de la variable est isotrope. Les isovaleurs forment des cercles concentriques. Mais si les isovaleurs forment des ellipses concentriques, il y a anisotropie dite géométrique et le pallier est le même dans toutes les directions. Et si le pallier n'est pas le même dans toutes les directions, l'anisotropie est dite zonale. Lorsqu'une anisotropie est détectée, on procède au calcul des variogrammes dans les directions observées. Dans ce cas, pour éviter qu'un nombre trop restreint de paires soient pris en compte, on définit une tolérance angulaire. On inclura donc toutes les paires dont l'orientation se situe dans un intervalle de direction principal plus ou moins une certaine tolérance. Par exemple, 60 degrés pour la direction principale et plus ou moins 20 degrés. Nous avons représenté ici les variogrammes calculés d'une part pour la direction de la continuité maximale de la concentration en arsenic, 160 degrés, et pour sa direction perpendiculaire, 60 degrés. [MUSIQUE] [MUSIQUE] Nous avons vu que le variogramme expérimental permet d'exprimer la dépendance entre les valeurs mesurées entre deux points constituant une paire de sites en fonction de la distance qui les sépare. Cette dépendance peut être interprétée comme un poids que l'on attribuera au point de mesure dans une procédure d'interpolation Alors, comment exploiter une telle propriété? Pour mettre en œuvre l'interpolateur jugé optimal qui est le krigeage et que nous présenterons dans un instant, les variables spatiales échantillonnées doivent être interprétées en termes de variables aléatoires. Cependant, les contraintes fixées sur les variables aléatoires ne peuvent pas exploiter directement les informations fournies par le variogramme expérimental pour correspondre à la réalité et à la solution des équations de krigeage. Le variogramme expérimental doit être ajusté par un tracé qui ne peut être le fait que d'un nombre restreint de fonctions dites autorisées pour la modification du variogramme théorique. Ces fonctions autorisées sont le modèle de la pépite pure avec un gamma de h qui est constant, le modèle linéaire, le modèle exponentiel, le modèle gaussien et le modèle sphérique. Les combinaisons de ces différentes fonctions sont également autorisées. Toutefois, il faut être conscient qu'un seul variogramme est défini pour l'ensemble du domaine et pour toutes les directions, même si l'analyse a mis en évidence une anisotropie. En général, les logiciels de variographie offrent un mode d'ajustement et calculent les paramètres nécessaires pour permettre l'interpolation par krigeage. Ici à l'écran, nous avons un exemple d'interface de paramétrisation permettant l'ajustement par un variogramme théorique des valeurs de gamma de h par une combinaison de fonctions, soit une fonction sphérique pour la première structure et une fonction exponentielle pour la seconde. [MUSIQUE] [MUSIQUE] Une fois les différentes étapes de l'analyse structurelle effectuées, il reste à exploiter les résultats par un interpolateur capable d'en tirer le maximum de profits et c'est le krigeage. Le problème du krigeage consiste à trouver la meilleure estimation possible de la variable régionalisée z de S compte tenu de l'information disponible, c'est-à-dire compte tenu des valeurs déterminées en un certain nombre d'échantillons. Du point de vue théorique, le meilleur estimateur est celui qui satisfait à deux conditions. Premièrement, être sans biais, ce qui correspond à une espérance des résidus qui est nulle. Donc, la moyenne des écarts entre les valeurs estimées et les valeurs mesurées est nulle. Et d'autre part, être optimal. Ce qui correspond à minimiser la variance estimée. Donc, la variance des écarts entre valeurs estimées et valeurs mesurées est minimale. Cette hypothèse permet par la suite de calculer une incertitude d'estimation sur les sites interpolés. Et c'est cette propriété qui constitue une des grandes qualités du krigeage. Le krigeage dit ordinaire est utilisé dans la situation la plus courante. On a un domaine qui a été échantillonné et dont la moyenne peut être considérée comme constante. Et l'étude variographique a montré que les hypothèses de stationnarité sont respectées. L'espérance mathématique sur les résidus est nulle et la variance correspondante ne dépend que de h. Le krigeage est un interpolateur linéaire. La valeur estimée est une somme pondérée des valeurs prises par les sites dans son voisinage. Il est de ce fait un cas particulier de l'interpolateur, moyenne mobile pondérée, que nous avons déjà examiné. Une valeur estimée est donc produite par l'équation suivante où les gammas de alpha sont les inconnues. Pour déterminer ces inconnues, nous devons appliquer les deux équations qui définissent les propriétés du krigeage, soit un estimateur d'une part sans biais et d'autre part optimal. Pour commencer, de la propriété sans biais, on tire une première condition sur les poids. Cette somme des poids doit être égale à 1. En fait, on montre que si cette somme est égale à 1, elle vérifie l'équation qui définit la condition sans biais, soit une espérance des résidus qui est nulle. L'estimateur doit également être optimal, donc la variance estimée doit être minimale. Cette variance est exprimée par le variogramme gamma de h conformément à des conditions spécifiques définies par Matron dans les fondements théoriques de l'analyse structurale mais dans les détails desquels nous n'entrerons pas ici. L'important étant de retenir où ici en rouge les informations produites par le variogramme interviennent dans l'équation qui permet de minimiser la variance estimée. Le minimum de variance estimée est atteint lorsque sa dérivée par rapport au poids est nulle. La première étape pour résoudre l'équation est donc de calculer sa dérivée. Et la solution finale exige une méthode particulière basée sur les paramètres de Lagrange et ses développements ne sont pas présentés ici. En synthèse, le krigeage doit sa robustesse au fait que son fonctionnement est conditionné par des paramètres produits par le variogramme. Les deux conditions que nous venons d'analyser permettent principalement de définir la pondération liée à la distance qui caractérise les points de mesure. Et finalement d'inférer au mieux des valeurs intermédiaires. [MUSIQUE] [MUSIQUE] L'analyse structurale dont la composante principale est la variographie est un préalable à toute procédure d'interpolation. Cette dernière est arbitraire en l'absence d'une structure, c'est-à-dire en l'absence de l'existence d'un comportement prévisible de la variable entre deux sites de mesure. Cette analyse structurale consiste à élaborer un variogramme expérimental sur la base de la différence des teneurs mesurées entre toutes les paires de sites d'échantillonnage et réparties en classes de distance. C'est ensuite l'ajustement d'un modèle théorique à ces valeurs empiriques qui permettra de fournir les paramètres utiles aux calculs d'interpolation par krigeage. L'approche choisie dans cette leçon comme introduction à la variographie est de nature strictement empirique. Cette approche est fondée car elle met en jeu des connaissances simples mais établies. Néanmoins, vous vous serez sans doute aperçu qu'elle repose sur des hypothèses qui n'ont pas été évoquées et qui ne s'insèrent dans aucune théorie mathématique complète et rigoureuse susceptible d'expliquer notamment comment modéliser la dépendance entre sites de mesure mise en évidence par le variogramme expérimental. Les fondements théoriques de l'analyse structurale ont été développés par Matron et nous renvoyons aux références indiquées sur les pages web de ce MOOC pour plus d'informations. [MUSIQUE] [MUSIQUE]