Introduction à ArcGIS Data Pipelines sur ArcGIS Online
Depuis la dernière mise à jour d'ArcGIS Online, Esri propose une nouvelle
capacité pour faciliter et automatiser la préparation, l'ingestion et la
publication de diverses sources de données dans vos contenus ArcGIS Online.
Ces nouvelles fonctionnalités sont proposées à travers une nouvelle
application dénommée Data Pipelines.
Qu'est-ce qu'ArcGIS Data Pipeline ?
ArcGIS Data Pipelines est une nouvelle application (en version beta) pour définir
un enchainement d'opérations (pipeline) à appliquer à des sources de données
en ligne pour les intégrer nativement dans ArcGIS Online. L'objectif est
d'accélérer, d'automatiser et de faciliter l'accès, la préparation et
l'intégration de ces données.
Voici quelques exemples de ce que l'on peut faire avec Data Pipeline :
- Se connecter à des ensembles de données dans des magasins de données externes, comme Amazon S3 ou Snowflake.
- Ingérer des données publiques accessibles via une URL, telles que des ensembles de données téléchargeables exposés sur des portails Open Data (CSV, GeoJSON, ...).
- Filtrer et nettoyer vos données à l'aide d'outils de traitement de données, tels que "Filtrer par attribut", "Sélectionner des champs" ou encore "Supprimer les doublons"
- Améliorer (enrichir) ses données en faisant des jointures sur les informations des couches du Living Atlas à l'aide de l'outil "Joindre", ou utiliser les fonctions Arcade pour calculer des valeurs de champ à l'aide de l'outil "Calculer le champ".
- Intégrer et nettoyer facilement des données déjà chargées sur ArcGIS Online avec une interface glisser-déposer facile à utiliser
- Créer des workflows de préparation de données reproductibles et répétables, sans aucune ligne de code
Comment construire un Pipeline de données ?
Les pipelines de données se composent des types d'éléments suivants
:
Entrées : Il s'agit des connexions aux sources de données
utilisées pour lire les données que vous souhaitez préparer. Vous
pouvez ajouter une ou plusieurs entrées pour créer votre flux de
travail. Une liste complète des entrées prises en charge est
disponible ici.
Outils : Une fois que vous êtes connecté à vos données, vous
pouvez configurer des outils pour préparer et transformer vos
données. Par exemple, vous pouvez filtrer certains enregistrements à
l'aide de requêtes, intégrer des jeux de données à l'aide de
jointures, fusionner plusieurs jeux de données ou calculer un champ
géométrique pour activer la localisation. Une liste complète des
outils disponibles peut être
documentée ici.
Sorties : une fois vos données préparées, elles peuvent être
publiées en tant que couches d'entités. Vous pouvez créer une
nouvelle couche d'entités ou mettre à jour des couches d'entités
existantes. Pour plus d'informations sur la configuration des
sorties du pipeline de données, consultez la documentation sur
les couches d'entités en sortie.
L'image ci-dessous montre un exemple de flux de travail utilisant
les trois éléments :
-
Une entrée : Dans cet exemple, une connexion à un flux de
données GeoJSON sur une URL publique pour accéder aux données de
la Base de Données Nationale des Bâtiments.
-
Un outil : Dans cet exemple, un filtre permettant de ne
récupérer que les bâtiments du département de la
Seine-Maritime
- Une sortie : Dans cet exemple, l'écriture des entités de ces bâtiments dans une couche d'entités hébergée sur ArcGIS Online.
Bien entendu, vous pouvez créer des pipelines de données bien plus
compliqués, avec plusieurs entrées, outils et sorties.
Préparation interactive des données
Les pipelines de données proposent une expérience interactive pour
étudier vos données tout en créant votre flux de travail de
préparation. Lorsque vous travaillez avec vos données, vous
souhaiterez peut-être vérifier que chaque étape est effectuée comme
prévu. Vous pouvez le faire via l'option de prévisualisation. À chaque
étape, vous pouvez visualiser vos données dans un tableau ou une carte
pour mieux comprendre comment elles ont été traitées.
La prévisualisation signifie aussi que vous pouvez facilement
identifier les étapes restantes dans la préparation de vos données.
Si vous réalisez que vous avez manqué une étape, vous pouvez mettre
à jour les paramètres de l'outil existant ou ajouter / supprimer des
outils dans votre diagramme.
Premiers pas avec les pipelines de données
Je vous ai rapidement présenté comment vous pouvez désormais vous
connecter à une source de données externe, utiliser une suite
d'outils de préparation des données et enregistrer les résultats
dans ArcGIS Online. Data Pipelines prend en charge l'une des parties
les plus difficiles de vos flux de travail SIG et la simplifie en
vous donnant la possibilité de préparer et d'ingérer facilement vos
données. Pour démarrer avec ArcGIS Data Pipelines, vous pouvez consulter
les ressources suivantes :
Informations supplémentaires
Les pipelines de données consomment des crédits en fonction de la
durée d'activité de
la session
de l'éditeur (actif signifie dans un état de connexion ou connecté).
Pendant que la session est active, vous pouvez prévisualiser et
exécuter en continu votre workflow de pipeline de données. Pour en
savoir plus sur les crédits dans ArcGIS Online, consultez la
rubrique
Comprendre les crédits. Pour plus de détails sur la manière et le moment où Data
Pipelines consomme des crédits, vous consulterez la FAQ de Data Pipelines sur la consommation de crédits.
Pour plus d'informations et des détails supplémentaires sur les
pipelines de données, consultez
la documentation des pipelines de données. Pensez à consulter la rubrique FAQ pour trouver des réponses à
des questions spécifiques. Pour toute autre question ou suggestion,
vous pouvez publier un message sur
les pages dédiées
d'Esri Community où l'un des membres de l'équipe Data Pipelines se
fera un plaisir de vous aider.
Si vous êtes intéressé par les workflows de préparation des données
dans ArcGIS Pro, vous pouvez consulter cette rubrique de l'aide en
ligne d'ArcGIS Pro sur
les capacités de Data Engineering.
0 comments :
Enregistrer un commentaire