UC 2022 - Esri annonce ArcGIS GeoAnalytics Engine
Aujourd'hui, de nombreuses organisations dont la stratégie digitale et "data driven" reconnaissent que l'analyse spatiale est la pièce manquante de leurs outils de traitement Big Data. Auparavant considérée comme une niche et utilisée uniquement par les spécialistes des départements SIG, l'exploitation de la dimension spatiale prend désormais une véritable importance auprès des data scientists et des analystes, qui souhaitent élargir leurs objectifs d'analyse de données.
Depuis plusieurs mois maintenant, Esri a intégré ce besoin d'analyse spatiale des Big Data en-dehors de l'environnement SIG (au-delà d'ArcGIS GeoAnalytics Desktop ou Server), et la nécessité de proposer les capacités de la technologie GeoAnalytics mais de manière plus flexible : à qui en a besoin, quand ils en ont besoin et où ils en ont besoin.
A l'occasion de la UC, Esri annonce la disponibilité d'une nouvelle solution nommée ArcGIS GeoAnalytics Engine. Il s'agit d'une riche librairie de fonctions et d'outils d'analyse spatiale livrée s'intégrant directement dans les flux de travail d'analyse de données Big Data d'Apache Spark™. Ainsi, les capacités de GeoAnalytics, déjà largement éprouvées depuis quelques années par des organisations dans le monde entier, sont accessibles par les Data Scientists, à la vitesse et à l'échelle requises pour les mégadonnées de l'organisation.
ArcGIS GeoAnalytics Engine intègre plus de 120 fonctions et outils spatiaux qui sont exploitables directement dans vos services Spark de traitement de données dans le cloud ou dans l'entreprise. Et, il offre une variété d'outils puissants d'analyse spatiale qui vont au-delà des bases que l'on trouve dans la plupart des packages d'analyse spatiale open source. Cela signifie que les Data Scientists n'ont plus besoin d'assembler des outils et des fonctions de différents packages pour effectuer une analyse de données spatiales complète et de bout en bout.
La complexité des données géospatiales
On le constate tous, les données des entreprises continuent de croître à un rythme exponentiel, et de plus en plus d'organisations en font le fondement de leur processus décisionnel. La grande majorité des Big Data contiennent des propriétés spatiales (directes ou indirectes) telles qu'une localisation géographique (x/y, lat/long,...) ou autre (adresse, nom de lieu, identifiant localisé,...). Elles peuvent ainsi fournir un contexte important sur la géographie du phénomène étudiée ou sur les relations.
L'un des facteurs qui explique la sous-utilisation de la dimension spatiale des Big Data est lié aux paradigmes informatiques modernes. De nombreuses organisations ont dépassé leurs environnements informatiques traditionnels et se sont tournées vers le Cloud pour les ressources de stockage et de calcul. En 2022, plus de 60 % de toutes les données d'entreprise sont stockées dans un cloud (statista.com). Cependant, l'analyse spatiale des mégadonnées stockées dans le cloud est difficile pour plusieurs raisons :
- L'approche de traitements distribués dans les workflows Big Data des data scientists n'a pas été conçue en intégrant l'analyse spatiale, de sorte que le traitement et l'analyse sont lents et gourmands en ressources.
- L'analyse des données géospatiales nécessite généralement l'ingestion de données dans un logiciel SIG spécialisé, par opposition à la technologie cloud native
- Afin d'obtenir des résultats complets et utiles pour l'analyse spatiale, les data scientists doivent regrouper de multiples bibliothèques ou packages spatiaux d'origines différentes et par conséquent hétérogènes.
Le résultat est que l'analyse spatiale est souvent mise de côté dans les stratégies "Data Driven".
L'analyse spatiale sur des données plus volumineuses offre encore plus de potentiel
Des quantités massives de données sont générées chaque jour à partir de dispositifs de suivi de personnes ou d'équipements, d'appareils mobiles, de capteurs IoT,... et leurs applications sont infinies. Les utilisateurs de SIG le savent bien, lorsque nous allons au-delà de la cartographie de base, l'analyse des données géospatiales permet de comprendre où, quand et pourquoi se produit un phénomène ou un événement. La découverte de modèles spatiaux à partir de millions, voire de milliards, d'enregistrements peut donner aux organisations une intelligence comme jamais auparavant.
Grâce à l'analyse spatiale d'ArcGIS GeoAnalytics Engine, les organisations peuvent :
- Mesurer la taille, la forme et la distribution d'objets physiques.
- Déterminer comment les entités dans vos données sont liées les unes aux autres et pourquoi.
- Trouver les meilleurs emplacements pour implanter des choses (équipements, magasins, services, ...) et les itinéraires optima pour y accéder.
- Détecter et quantifier des modèles.
- Faire des prédictions sur ce qui pourrait arriver dans le futur, quand et où.
L'analyse spatiale plus largement accessible
Pendant de nombreuses années, Esri a fourni une large gamme d'outils d'analyse spatiale au sein de l'écosystème ArcGIS pour prendre en charge des opérations géométriques simples aux outils d'agrégation spatiale en passant par les algorithmes statistiques avancés. Notre communauté d'utilisateurs traditionnels a utilisé ces capacités d'analyse spatiale dans le cadre de leurs flux de travail SIG et a joué un rôle déterminant dans l'évolution des capacités spatiales. Il existe plusieurs produits Esri qui exposent l'analyse spatiale ArcGIS à l'utilisateur de bureau, à l'utilisateur en ligne et aux utilisateurs d'entreprise.
Volume massif de données sur des centaines de milliers de mouvements de personnes agrégés selon des îlots de recensement |
Avec l'introduction d'ArcGIS GeoAnalytics Engine, les analyses spatiales sont accessibles en dehors de la plateforme SIG directement dans les environnements d'analyse de Big Data de l'entreprise. Les data scientists peuvent désormais accéder à la plus grande collection d'outils et de fonctions spatiales du marché dans une seule et même librairie sur leur plateforme Big Data Spark.
Contrairement aux autres produits ArcGIS, ArcGIS GeoAnalytics Engine ne nécessite pas d'installation d'ArcGIS. Les utilisateurs déploient simplement les librairies d'analyse spatiale ArcGIS GeoAnalytics dans leurs environnements de traitement de données volumineuses dans le Cloud. Il s'agit d'une bibliothèque native Spark que les data scientists insèrent dans leurs workflows existants pour exécuter leur traitement spatial à travers, par exemple, des scripts Python dans des Notebooks.
Les clients peuvent déployer ArcGIS GeoAnalytics Engine sur leur propre environnement Spark ou utiliser des plateformes Spark gérées comme Amazon EMR, Azure Synapse Analytics, Databricks et Google Cloud Dataproc. Les fonctionnalités intégrées de Spark leur permettent de se connecter facilement et d'analyser les données de leurs Datalakes, leurs Datawarehouse et autres structures de stockage de données sur le Cloud. Ils peuvent également enregistrer les résultats des traitements spatiaux dans ces systèmes, puis utiliser ces résultats dans des applications décisionnelles ou dans des applications ArcGIS. Un des objectifs également d'ArcGIS GeoAnalytics Engine est de créer des processus d'analyse qui simplifient et réduisent considérablement le déplacement ou la duplication d'énormes quantités de données juste pour leur appliquer des traitements spatiaux.
Étant donné qu'ArcGIS GeoAnalytics Engine expose les résultats des analyses spatiales en dehors de tout système ArcGIS, il n'y a que deux prérequis principaux pour l'utiliser :
- Un cluster Spark supporté par Esri: GeoAnalytics Engine doit s'exécuter sur un cluster Spark qui utilise une version prise en charge d'Apache Spark (3.0.1 à 3.2.x). Il peut s'agir d'un cluster Spark sur des machines déployées par votre organisation, ou via un service Spark géré. Une liste des environnements Spark certifiés est disponible dans la rubrique d'aide Installer et configurer.
- Données vectorielles accessibles par Spark: Les fonctions et outils fournis par GeoAnalytics Engine sont conçues pour fonctionner sur des données vectorielles (telles que des points, des lignes, des polygones et des multipoints). Elles ne fonctionnent pas avec des images ou des données raster. Les données doivent être stockées dans un emplacement où Spark peut s'y connecter. Les sources de données d'ArcGIS Analytics Engine sont très variées. Il peut s'agir de fichiers (csv, , de bases de données, de Datalakes, de Datawarehouses ou encore de source de données SIG (shapefiles, services, ...)
0 comments :
Enregistrer un commentaire