Introduction à Data Pipelines sur ArcGIS Online
Depuis la dernière mise à jour d'ArcGIS Online, Esri propose une nouvelle
capacité pour faciliter et automatiser la préparation, l'ingestion et la
publication de diverses sources de données dans vos contenus ArcGIS
Online. Ces nouvelles fonctionnalités sont proposées à travers une
nouvelle application dénommée Data Pipelines.
Qu'est-ce que Data Pipeline ?
Data Pipelines est une nouvelle application (en version beta) pour définir un
enchainement d'opérations (pipeline) à appliquer à des sources de données en
ligne pour les intégrer nativement dans ArcGIS Online. L'objectif est
d'accélérer, d'automatiser et de faciliter l'accès, la préparation et
l'intégration de ces données.
Voici quelques exemples de ce que l'on peut faire avec Data Pipeline
:
- Se connecter à des ensembles de données dans des magasins de données externes, comme Amazon S3 ou Snowflake.
- Ingérer des données publiques accessibles via une URL, telles que des ensembles de données téléchargeables exposés sur des portails Open Data (CSV, GeoJSON, ...).
- Filtrer et nettoyer vos données à l'aide d'outils de traitement de données, tels que "Filtrer par attribut", "Sélectionner des champs" ou encore "Supprimer les doublons"
- Améliorer (enrichir) ses données en faisant des jointures sur les informations des couches du Living Atlas à l'aide de l'outil "Joindre", ou utiliser les fonctions Arcade pour calculer des valeurs de champ à l'aide de l'outil "Calculer le champ".
- Intégrer et nettoyer facilement des données déjà chargées sur ArcGIS Online avec une interface glisser-déposer facile à utiliser
- Créer des workflows de préparation de données reproductibles et répétables, sans aucune ligne de code
Comment construire un Pipeline de données ?
Les pipelines de données se composent des types d'éléments suivants
:
Entrées : Il s'agit des connexions aux sources de données
utilisées pour lire les données que vous souhaitez préparer. Vous
pouvez ajouter une ou plusieurs entrées pour créer votre flux de
travail. Une liste complète des entrées prises en charge est
disponible ici.
Outils : Une fois que vous êtes connecté à vos données, vous
pouvez configurer des outils pour préparer et transformer vos
données. Par exemple, vous pouvez filtrer certains enregistrements à
l'aide de requêtes, intégrer des jeux de données à l'aide de
jointures, fusionner plusieurs jeux de données ou calculer un champ
géométrique pour activer la localisation. Une liste complète des
outils disponibles peut être
documentée ici.
Sorties : une fois vos données préparées, elles peuvent être
publiées en tant que couches d'entités. Vous pouvez créer une
nouvelle couche d'entités ou mettre à jour des couches d'entités
existantes. Pour plus d'informations sur la configuration des
sorties du pipeline de données, consultez la documentation sur les couches d'entités en sortie.
L'image ci-dessous montre un exemple de flux de travail utilisant
les trois éléments :
-
Une entrée : Dans cet exemple, une connexion à un flux de données GeoJSON sur une URL publique pour accéder aux données de la
Base de Données Nationale des Bâtiments.
-
Un outil : Dans cet exemple, un filtre permettant de ne
récupérer que les bâtiments du département de la Seine-Maritime
- Une sortie : Dans cet exemple, l'écriture des entités de ces bâtiments dans une couche d'entités hébergée sur ArcGIS Online.
Bien entendu, vous pouvez créer des pipelines de données bien plus
compliqués, avec plusieurs entrées, outils et sorties.
Préparation interactive des données
Les pipelines de données proposent une expérience interactive pour étudier vos
données tout en créant votre flux de travail de préparation. Lorsque
vous travaillez avec vos données, vous souhaiterez peut-être vérifier
que chaque étape est effectuée comme prévu. Vous pouvez le faire via
l'option de prévisualisation. À chaque étape, vous pouvez visualiser
vos données dans un tableau ou une carte pour mieux comprendre comment
elles ont été traitées.
La prévisualisation signifie aussi que vous pouvez facilement identifier les étapes restantes dans la préparation de vos données. Si vous réalisez que vous avez manqué une étape, vous pouvez mettre à jour les paramètres de l'outil existant ou ajouter / supprimer des outils dans votre diagramme.
Premiers pas avec les pipelines de données
Je vous ai rapidement présenté comment vous pouvez désormais vous connecter à une source de données externe, utiliser une suite d'outils de préparation des données et enregistrer les résultats dans ArcGIS Online. Data Pipelines prend en charge l'une des parties les plus difficiles de vos flux de travail SIG et la simplifie en vous donnant la possibilité de préparer et d'ingérer facilement vos données. Pour démarrer avec Data Pipelines, vous pouvez consulter les ressources suivantes :
Informations supplémentaires
Les pipelines de données consomment des crédits en fonction de la durée d'activité de la session de l'éditeur (actif signifie dans un état de connexion ou connecté). Pendant que la session est active, vous pouvez prévisualiser et exécuter en continu votre workflow de pipeline de données. Pour en savoir plus sur les crédits dans ArcGIS Online, consultez la rubrique Comprendre les crédits. Pour plus de détails sur la manière et le moment où Data Pipelines consomme des crédits, vous consulterez la FAQ de Data Pipelines sur la consommation de crédits.
Pour plus d'informations et des détails supplémentaires sur les pipelines de données, consultez la documentation des pipelines de données. Pensez à consulter la rubrique FAQ pour trouver des réponses à des questions spécifiques. Pour toute autre question ou suggestion, vous pouvez publier un message sur les pages dédiées d'Esri Community où l'un des membres de l'équipe Data Pipelines se fera un plaisir de vous aider.
Si vous êtes intéressé par les workflows de préparation des données dans ArcGIS Pro, vous pouvez consulter cette rubrique de l'aide en ligne d'ArcGIS Pro sur les capacités de Data Engineering.