It's Big : GIS Tools for Hadoop
Esri a lancé à l'occasion de son Developer Summit une première solution SIG permettant une connexion à Hadoop, le framework Open Source de la fondation Apache dédié à la mise en place d'applications distribuées de type Big Data.
GIS Tools for Hadoop est disponible sur un repository Github et la solution est publiée en licence libre (Apache 2.0).
La solution est réellement composée de 2 ensembles d'outils :
Tout d'abord, les outils de Géotraitement ArcGIS pour Hadoop qui permettent :
- d'échanger des données entre ArcGIS (géodatabase) et Hadoop dans les 2 sens
- d'exécuter à partir d'ArcGIS des workflows Oozie. Oozie est l'ordonnateur de workflow d'Hadoop. Avec cet outil de géotraitement, l'utilisateur ArcGIS peut mettre en place des modèles de géotraitement intégrant SIG ArcGIS et traitements Big Data Hadoop.
- Ensuite, le framework spatial pour Hadoop apporte à Hadoop la capacité à intégrer la dimension spatiale dans les analyses de données. Pour cela, Esri a mis en place Hive Spatial, un ensemble de user-defined-functions (HDFs) à HiveQL lui apportant les fonctions géographiques/géométriques.
HiveQL est le langage de requête de Hive, Les fonctions géographiques ajoutées à Hive sont basées sur le modèle ST_geometry de l'OGC. Des requêtes de type SQL géographiques sont donc possibles dans Hadoop avec ce framework
Il faut noter que ce framework spatial est basée sur une librairie de géométrie Java fournie aussi en licence Apache 2.0 par Esri dans le cadre de ce projet. Cette librairie elle-même est une contribution significative d'Esri au monde de l'open source géographique et constitue une alternative à la seule librairie équivalente aujourd'hui JTS.