[MUSIQUE] [MUSIQUE] [MUSIQUE] [MUSIQUE] Bonjour et bienvenue dans cette leçon qui introduit le concept d'autocorrélation spatiale. Nous allons principalement parler de dépendance spatiale, soit de déterminer dans quelle mesure la valeur prise par l'attribut d'un objet dépend de sa position géographique ou pas. Cela peut être le cas de la température mesurée à la surface des feuilles d'une plante par exemple. Les buts de cette leçon sont d'expliquer le concept de dépendance spatiale et de présenter le paradoxe lié à l'utilisation des outils de la statistique classique dans un contexte géographique. Les informations présentées ici vous permettront d'assimiler le concept de dépendance spatiale, qui est un concept fondamental pour la mesure de l'autocorrélation spatiale, et de reconnaître le biais induit par l'utilisation des statistiques classiques dans ce contexte. [MUSIQUE] [MUSIQUE] C'est un géographe quantitativiste américano-suisse, appelé Waldo Tobler, qui a le mieux décrit ce concept en énonçant ce qu'on appelle la première loi de la géographie, dans un article écrit en 1970. Selon cette loi, tout interagit avec tout dans l'espace géographique, mais deux objets proches ont plus de chances de le faire que deux objets éloignés. Pour illustrer cette notion de dépendance spatiale, voici un premier exemple lié au football. Nous allons porter notre attention sur les supporters brésiliens et croates lors du match d'ouverture de la Coupe du monde 2014 entre le Brésil et la Croatie. Sur cette image, un individu vêtu de jaune a plus de chance d'interagir avec une autre personne portant la même couleur. Et de la même façon, une personne en rouge et blanc a plus de chance d'interagir avec une autre personne en rouge et blanc. L'appartenance à un même groupe a déterminé la distribution spatiale de ces personnes et la dépendance spatiale induite par cette appartenance est perceptible dans l'espace géographique grâce à la couleur des t-shirts. Un autre exemple, ici à Dakar, autour de l'aéroport international, que l'on voit à l'image. Les activités commerciales et logistiques qui sont liées à l'activité de l'aéroport sont regroupées dans ses alentours, alors que d'autres activités, comme le résidentiel par exemple que l'on voit au premier plan, sont regroupées ailleurs sur le territoire. Autour de l'aéroport, les bâtiments se ressemblent, on trouve des entrepôts ou des hangars de grande surface. Et c'est aussi le cas dans la zone résidentielle. Les maisons ont une apparence et une taille comparables. La proximité spatiale favorise l'interaction entre objets de la même catégorie et la nature de l'activité est trahie par une apparence similaire. La dépendance spatiale mise en évidence par les deux exemples que nous venons de voir, peut être mesurée avec des outils simples que vous allez apprendre à manipuler. Le fonctionnement de ces outils est basé sur la comparaison entre une répartition spatiale observée et une répartition spatiale aléatoire. Sur cette grille régulière de dix fois dix cellules, on a représenté la distribution spatiale d'un phénomène. On remarque un agencement particulier des valeurs affichées, ce qui dénote une certaine dépendance spatiale. À droite, nous avons illustré la répartition spatiale aléatoire des mêmes valeurs mais dans plusieurs configurations. À gauche, l'espace géographique n'est pas neutre. Celui-ci fixe, d'une manière ou d'une autre, certaines valeurs à des endroits précis. À droite, il est neutre. Toute localisation dans l'espace peut prendre toutes les valeurs possibles. Sur cette base, les outils de mesure que nous allons utiliser permettent : premièrement, de quantifier la régularité spatiale d'un phénomène, ensuite, de déterminer le rayon d'action de la dépendance spatiale, et finalement, de différencier une distribution spatiale observée d'une distribution spatiale aléatoire. Considérons des données réelles maintenant. Cette carte montre 765 sites néolithiques, Ils ont été datés et leur âge est compris entre 6 000 et 8 000 ans avant le présent. Plus le vert du point est foncé, plus le site néolithique est ancien. On constate que les sites les plus anciens sont concentrés dans la région du Croissant fertile et en se dirigeant progressivement vers le nord-ouest, on trouve des sites qui sont plus jeunes. C'est un exemple de dépendance spatiale qui illustre ici les migrations humaines en direction du nord après la fin de la dernière importante période glaciale. Nous réutiliserons cet exemple un peu plus tard. [MUSIQUE] Dès le moment où l'on désire quantifier cette dépendance spatiale, on est confronté à un paradoxe. En effet, selon Tobler et la première loi de la géographie, tout interagit avec tout, mais les objets proches ont plus de chances de le faire que des objets éloignés. Donc les phénomènes naturels, comme la température de l'air, ou des phénomènes socio-démographiques, comme la densité de population, ne sont pas distribués au hasard dans l'espace géographique. Mais pour mesurer la structure spatiale de ces phénomènes, on doit utiliser des outils de la statistique classique. Et ces outils requièrent d'une part l'indépendance entre les échantillons et d'autre part une distribution aléatoire de ces derniers, il y a donc une contradiction. Cette contradiction est due au fait que les outils de la statistique classique ne sont pas prévus pour être appliqués dans un contexte géospatial. Leur utilisation est basée sur l'hypothèse selon laquelle l'espace géographique est neutre. Cet espace géographique constitue le simple support, sans friction, sur lequel se déroulent les phénomènes étudiés. Théoriquement, dans ce cadre, la localisation d'observations dans l'espace ne doit pas influencer leurs attributs. Mais comme il n'existe souvent pas d'outils alternatifs, on doit les utiliser en étant conscient des biais induits par leur utilisation avec des données géographiques et adapter les jeux de données pour respecter les prérequis de la statistique. Un bon exemple est la régression linéaire. Théoriquement, celle-ci doit être calculée avec des observations sélectionnées selon une procédure aléatoire. En effet, si les observations sont spatialement dépendantes, les valeurs estimées seront biaisées pour toute la zone d'étude, ceci, parce que des valeurs exceptionnelles, localisées dans des sous-régions géographiques, vont influencer les valeurs prédites sur tout le territoire analysé. Ou encore, une forte corrélation entre deux attributs d'échantillons situés dans une même petite sous-région va influencer la mesure sur toute la zone étudiée. Nous allons maintenant passer à un exemple pratique pour illustrer ce type de biais. Reprenons l'exemple des 765 sites néolithiques. Dans le logiciel GeoDa, nous avons créé trois vues. En haut, à gauche, nous avons l'histogramme de la distribution des classes d'âge des sites. En bas, à gauche, la distribution spatiale des 765 sites. Et sur la droite, un graphe qui illustre la relation entre l'âge des sites en ordonnée et une variable de diversité génétique en abscisse qui caractérise des populations de chèvres échantillonnées aux alentours des sites, au début du XXIe siècle. Cette relation présente un intérêt puisqu'elle permet de confirmer l'hypothèse selon laquelle les populations néolithiques du Croissant fertile ont commencé à migrer en direction du nord-ouest à partir de la fin de la dernière grande période glaciaire. Moins l'âge des sites est avancé, moins la diversité génétique est élevée, puisque les populations animales se sont progressivement fragmentées et que la reproduction a ensuite eu lieu entre individus apparentés. La droite de régression montre bien que plus l'âge des sites est ancien, plus la diversité génétique est élevée, mais cette relation est fortement influencée par un groupe de sites concentrés au Moyen-Orient. En effet, si on retire du calcul ce groupe de sites, la pente de la régression diminue sensiblement. Les valeurs prédites par le modèle à travers toute l'Europe sont largement influencées par une quarantaine de points, tous situés dans la même sous-région. [MUSIQUE] Voilà, vous savez dorénavant ce qu'est la dépendance spatiale. Les objets proches ont plus de chances d'interagir entre eux que de le faire avec des objets éloignés. Certains attributs peuvent être influencés par des caractéristiques de l'environnement et par conséquent, l'espace géographique n'est pas neutre. Ceci met en évidence un paradoxe puisque les outils statistiques que nous utilisons le plus souvent, exigent que cet espace soit neutre. C'est donc sur un tirage aléatoire des objets qui constituent les jeux de données géoréférencées, que doivent porter les calculs. Nous verrons dans la leçon suivante comment implémenter une mesure d'autocorrélation spatiale et puis comment en déterminer la significativité. [MUSIQUE] [MUSIQUE]