Die Integration eigener Daten steht oft am Anfang aller weiteren Aktionen in ArcGIS Online. Mit den Data Pipelines gibt es eine neue, interaktive Methode externe Daten einzubinden.
Die Vorbereitung und Integration von Daten für die Erstellung von Karten oder das Durchführen von Analysen gehört zu den wichtigsten und mitunter zeitaufwendigsten Tätigkeiten bei der Arbeit in GIS. Oft stehen Daten nicht im richtigen Format bereit, oder sie müssen erst gefiltert und transformiert werden, bevor sie in ArcGIS sinnvoll genutzt werden können.
Es gibt verschiedene Methoden in ArcGIS Online Daten zu bereinigen, zusammenzuführen und als Dienste bereitzustellen. Jetzt gibt es eine weitere Möglichkeit, nämlich die ArcGIS Data Pipelines.
Überblick
Mit ArcGIS Data Pipelines kann man Daten aus verschiedenen Quellen einlesen, bearbeiten und in Feature Layer schreiben. Es ist ein schlankes ETL-Tool, voll integriert in ArcGIS Online und verfügt über einen Web-Editor mit dem Sie Pipelines interaktiv erstellen können.
- Daten können aus externen Datenquellen importiert werden, z.B. Google Big Query, Amazon S3 und Microsoft Azure Blob.
- Dateien hochladen, z.B. Shape, Apache Parquet oder GeoJSON
- Öffentliche Daten über eine URL und Featurelayer aus ArcGIS Portalen referenzieren
Für ArcGIS Data Pipelines wird die Technologie aus dem Apache Spark Projekt genutzt, die auch bei ArcGIS GeoEngine oder ArcGIS GeoAnalytics zum Einsatz kommt. Daher werden vor allem Datenformate aus dem Big Data Bereich und natürlich einige direkte Geoformate unterstützt.
- Daten bereinigen, indem Sie nach Attributen oder Ausdehnung filtern
- Neue Felder berechnen oder bestehende Felder aktualisieren
- Daten verbinden (join) oder zusammenführen (merge)
- Die Daten in neue Feature Layer schreiben oder bestehende überschreiben, bzw. um neue Daten ergänzen
Vorgehen zum Erstellen einer Data Pipeline
Mit der ArcGIS Online Creator-Lizenz können Sie eine Data Pipeline erstellen, indem Sie die Data Pipelines Startseite im ArcGIS Online App-Menü öffnen und eine bestehende Pipeline anpassen, kopieren oder eine komplett neue Pipeline erstellen.
Eine Pipeline besteht im Wesentlichen aus drei Elementen:
- Eingaben: Hier werden eine oder mehrere Verbindungen zu einem Data Store, z.B. Snowflake oder Amazon S3, definiert oder Daten hochgeladen bzw. öffentliche Dienste und ArcGIS Feature Layer der eigenen Organisation verknüpft.
- Werkzeuge: Die Werkzeuge dienen dazu, die eingelesenen Daten zu filtern, neue Felder zu berechnen, die Geometrie zu bestimmen (z.B. beim Einlesen einer CSV-Datei) oder die Geometrie neu zu projizieren. Wenn man verschiedene Eingaben hat, kann man diese auch verbinden oder zusammenführen. Es ist auch möglich, verschiedene Werkzeuge nacheinander auszuführen.
- Ausgaben: Die aufbereiteten Daten werden entweder in einen neuen Feature Layer geschrieben, ein bestehender Feature Layer wird überschrieben oder es werden Feature ergänzt.
Die Feature Layer verhalten sich wie alle anderen Feature Layer in der ArcGIS Online Organisation und können für Karten oder Analysen genutzt, mit anderen Nutzer:innen geteilt und in anderen Anwendungen verwendet werden.
Ein weiteres Beispiel:
In dieser Pipeline werden Punktdaten (Tabelle) aus einem Amazon S3 eingelesen, gefiltert, bereinigt und eine Geometrie erstellt. Diese Daten werden mit einem ebenfalls gefilterten und bereinigten Polygon Feature Layer verschnitten und das Ergebnis wird in einen neuen Feature Layer geschrieben.
Bei jedem Schritt, dem Einlesen der Daten oder bei der Anwendung der Werkzeuge, können die Ergebnisse in tabellarische oder wie im nächsten Screenshot sichtbar in einer räumlichen Vorschau mit Pop-ups überprüft werden, bevor die Pipeline mit sämtlichen Daten läuft.
Weitere Informationen
- Die ArcGIS Date Pipelines befinden sich derzeit noch im Beta-Stadium. Das finale Release erwarten wir im Oktober.
- Während des Designs einer Pipeline und dem Ausführen fallen Kosten von 30 Credits pro Stunde an. Eine solche Pipeline Session schließt sich nach einer Stunde Inaktivität automatisch. Pro User gibt es, auch wenn mehrere Browser Tabs mit Data Pipelines offen sind, eine Session im Hintergrund. Creditkosten fallen also nur einmal an, aber die unterschiedlichen Data Pipelines teilen sich auch die Performance einer Session.
Mehr zu Credits finden Sie hier. - Data Pipelines können aktuell nur interaktiv ausgeführt werden. Ein zeitgesteuertes, automatisches Ausführen erwarten wir in der finalen Version oder einer der nachfolgenden Versionen.
- Data Pipelines sind im Wesentlichen ein ETL-Tool und kein Analyse-Tool. Die verfügbaren Werkzeuge beschränken sich deshalb auf Datenbereinigung, Datenfilterung und Datentransformation. Mit dem Join-Werkzeug und Felder berechnen sind allerdings auch einige Analyse-ähnliche Schritte möglich.
Wo gibt es noch mehr zu erfahren?
In der Esri Community gibt es Dokumentationen, Blogs und die Möglichkeit, Ideas zu hinterlassen.
Data Pipelines Hilfe (englisch)
Tutorial mit ersten Schritten (englisch)
Einführungs-Video (englisch)