Le blog francophone consacré
aux technologies Esri

Introduction à Data Pipelines sur ArcGIS Online


Depuis la dernière mise à jour d'ArcGIS Online, Esri propose une nouvelle capacité pour faciliter et automatiser la préparation, l'ingestion et la publication de diverses sources de données dans vos contenus ArcGIS Online. Ces nouvelles fonctionnalités sont proposées à travers une nouvelle application dénommée Data Pipelines.


Qu'est-ce que Data Pipeline ?

Data Pipelines est une nouvelle application (en version beta) pour définir un enchainement d'opérations (pipeline) à appliquer à des sources de données en ligne pour les intégrer nativement dans ArcGIS Online. L'objectif est d'accélérer, d'automatiser et de faciliter l'accès, la préparation et l'intégration de ces données.


Voici quelques exemples de ce que l'on peut faire avec Data Pipeline :

  • Se connecter à des ensembles de données dans des magasins de données externes, comme Amazon S3 ou Snowflake.
  • Ingérer des données publiques accessibles via une URL, telles que des ensembles de données téléchargeables exposés sur des portails Open Data (CSV, GeoJSON, ...).
  • Filtrer et nettoyer vos données à l'aide d'outils de traitement de données, tels que "Filtrer par attribut", "Sélectionner des champs" ou encore "Supprimer les doublons"
  • Améliorer (enrichir) ses données en faisant des jointures sur les informations des couches du Living Atlas à l'aide de l'outil "Joindre", ou utiliser les fonctions Arcade pour calculer des valeurs de champ à l'aide de l'outil "Calculer le champ".
  • Intégrer et nettoyer facilement des données déjà chargées sur ArcGIS Online avec une interface glisser-déposer facile à utiliser
  • Créer des workflows de préparation de données reproductibles et répétables, sans aucune ligne de code

Ci-dessous une courte vidéo qui présente rapidement un pipeline de données en action :




Comment construire un Pipeline de données ?

Les pipelines de données se composent des types d'éléments suivants :

Entrées : Il s'agit des connexions aux sources de données utilisées pour lire les données que vous souhaitez préparer. Vous pouvez ajouter une ou plusieurs entrées pour créer votre flux de travail. Une liste complète des entrées prises en charge est disponible ici.

Liste des entrées possibles pour un Pipeline de données

Outils : Une fois que vous êtes connecté à vos données, vous pouvez configurer des outils pour préparer et transformer vos données. Par exemple, vous pouvez filtrer certains enregistrements à l'aide de requêtes, intégrer des jeux de données à l'aide de jointures, fusionner plusieurs jeux de données ou calculer un champ géométrique pour activer la localisation. Une liste complète des outils disponibles peut être documentée ici.

Liste des outils disponibles pour un Pipeline de données

Sorties : une fois vos données préparées, elles peuvent être publiées en tant que couches d'entités. Vous pouvez créer une nouvelle couche d'entités ou mettre à jour des couches d'entités existantes. Pour plus d'informations sur la configuration des sorties du pipeline de données, consultez la documentation sur les couches d'entités en sortie.

Liste des sorties disponibles pour un Pipeline de données


L'image ci-dessous montre un exemple de flux de travail utilisant les trois éléments :

  1. Une entrée : Dans cet exemple, une connexion à un flux de données GeoJSON sur une URL publique pour accéder aux données de la Base de Données Nationale des Bâtiments.

  2. Un outil : Dans cet exemple, un filtre permettant de ne récupérer que les bâtiments du département de la Seine-Maritime

  3. Une sortie : Dans cet exemple, l'écriture des entités de ces bâtiments dans une couche d'entités hébergée sur ArcGIS Online.


Bien entendu, vous pouvez créer des pipelines de données bien plus compliqués, avec plusieurs entrées, outils et sorties.


Préparation interactive des données

Les pipelines de données proposent une expérience interactive pour étudier vos données tout en créant votre flux de travail de préparation. Lorsque vous travaillez avec vos données, vous souhaiterez peut-être vérifier que chaque étape est effectuée comme prévu. Vous pouvez le faire via l'option de prévisualisation. À chaque étape, vous pouvez visualiser vos données dans un tableau ou une carte pour mieux comprendre comment elles ont été traitées.


La prévisualisation signifie aussi que vous pouvez facilement identifier les étapes restantes dans la préparation de vos données. Si vous réalisez que vous avez manqué une étape, vous pouvez mettre à jour les paramètres de l'outil existant ou ajouter / supprimer des outils dans votre diagramme.



Premiers pas avec les pipelines de données

Je vous ai rapidement présenté comment vous pouvez désormais vous connecter à une source de données externe, utiliser une suite d'outils de préparation des données et enregistrer les résultats dans ArcGIS Online. Data Pipelines prend en charge l'une des parties les plus difficiles de vos flux de travail SIG et la simplifie en vous donnant la possibilité de préparer et d'ingérer facilement vos données. Pour démarrer avec Data Pipelines, vous pouvez consulter les ressources suivantes :



Informations supplémentaires

Les pipelines de données consomment des crédits en fonction de la durée d'activité de la session de l'éditeur (actif signifie dans un état de connexion ou connecté). Pendant que la session est active, vous pouvez prévisualiser et exécuter en continu votre workflow de pipeline de données. Pour en savoir plus sur les crédits dans ArcGIS Online, consultez la rubrique Comprendre les crédits. Pour plus de détails sur la manière et le moment où Data Pipelines consomme des crédits, vous consulterez la FAQ de Data Pipelines sur la consommation de crédits.

Pour plus d'informations et des détails supplémentaires sur les pipelines de données, consultez la documentation des pipelines de données. Pensez à consulter la rubrique FAQ pour trouver des réponses à des questions spécifiques. Pour toute autre question ou suggestion, vous pouvez publier un message sur les pages dédiées d'Esri Community où l'un des membres de l'équipe Data Pipelines se fera un plaisir de vous aider.

Si vous êtes intéressé par les workflows de préparation des données dans ArcGIS Pro, vous pouvez consulter cette rubrique de l'aide en ligne d'ArcGIS Pro sur les capacités de Data Engineering.

Partager cet article:

Rejoindre la discussion

    Les commentaires à propos de cet article: