Mit der ArcGIS GeoAnalytics Engine können Sie Ihre Big Data Umgebung mit Apache Spark durch die räumlichen Analyse Tools und Funktionen von ArcGIS erweitern. Entdecken Sie effizient zeit-räumliche Muster in Ihren großen Mengen an Geodaten.
Durch die fortschreitende Digitalisierung wachsen unsere Datenmengen immer weiter. Seien es gespeicherte Daten von Sensordatenströmen, die in immer höherer Frequenz Echtzeitdaten übermitteln, oder bestehende Unternehmensdaten, welche in Datenbanken, Cloud Speichern oder Data Lakes vorliegen.
Analyse großer Datenmengen
Um über Analysen sinnvolle Erkenntnisse zu erlangen, bedarf es bei solch großen Datenmenge spezielle Frameworks, die eine Parallelisierung der Analysen ermöglichen, um diese effizient durchführen zu können. Ein weit verbreitetes Framework aus diesem Bereich ist Apache Spark, welches aufgrund seiner Popularität vielfältig eingesetzt wird.
Was bei der Analyse solch großer Datenmengen oft noch fehlt, ist die Berücksichtigung der räumlichen Komponente! Doch gerade der Raumbezug ist essenziell, um verschiedene Datensätze miteinander in Verbindung zu bringen und – kombiniert mit der zeitlichen Dimension – raum-zeitliche Muster in ihren Daten zu identifizieren.
GeoAnalytics Tools: Big Data Analysen für GIS- und Nicht-GIS- Analysten
Damit auch Nicht-GIS-Analysten die räumlichen Big Data Analysen des ArcGIS GeoAnalytics Tools nutzen können, stellen wir nun mit der GeoAnalytics Engine, eben diese Tools und Funktionen zur Integration in Ihre Big Data Umgebung mit Apache Spark zur Verfügung!
So können Ihre Data Scientisten und Analysten die Mehrwerte der räumlichen Analyse-Funktionalität in Ihrer gewohnten Big Data Umgebung nutzen, um das volle Potential der großen Datenmengen auszuschöpfen.
Die GeoAnalytics Tools gibt es damit in 3 Ausprägungen:
- Desktop Tool in ArcGIS Pro
- Funktionaler Server für ArcGIS Enterprise
- NEU: Engine für Ihre bestehende Big Data Spark Umgebung
Für mehr Details zur Desktop- und Server-Variante empfehle ich Ihnen unsere frühere Blogreihe zu eben diesem Thema.
GeoAnalytics Engine Deployment
Die GeoAnalytics Engine ist also eine Spark Native Integration der GeoAnalytics Tools und losgelöst vom restlichen ArcGIS System. Egal, wo Sie Ihre Big Data Plattform betreiben – ob in der Cloud oder On-Premise – solange Sie Apache Spark nutzen, können Sie die Bibliotheken der GeoAnalytcis Engine einfach integrieren.
Folgen Sie einer “Cloud first”-Strategie, bieten die großen Cloud Provider hier jeweils SaaS-Lösungen an und mit Databricks wird auch ein Cloud agnostisches Deployment unterstützt (siehe Abbildung 1).

Am Beispiel von Azure Synapse Analytics zeigt Ihnen Abbildung 2, wie einfach sich die GeoAnalytics Engine Tools integrieren lassen: Laden Sie zwei Dateien als Workspace Packages hoch und schon können diese mit einer entsprechenden Apache Spark Configuration (3 zu definierende Parameter) für einen neuen Apache Spark Pool genutzt werden!
Weitere Installationsanleitungen finden Sie auf unserer ArcGIS Developer Website.

Datenintegration
Durch den weit verbreiteten Einsatz von Apache Spark, lassen sich eine Vielzahl an Datenquellen wie Datenbanken, Cloud Speicher, Data Lakes oder Cloud Data Warehouses anbinden. Jedes System, in dem Apache Spark das Lesen und Schreiben von Daten unterstützt, können wir von nun an für unsere räumlichen Big Data Analysen nutzen.
Natürlich haben wir hier die Schnittstellen zum ArcGIS System zusätzlich implementiert, so dass Sie alle Inhalte Ihres ArcGIS Systems oder aus dem ArcGIS Living Atlas of the World ganz einfach über einen Feature Layer einlesen und Ihre Analyse-Ergebnisse auch wiederum als Feature Layer oder Vector Tiles zur Verfügung stellen können. Selbiges gilt auch für die üblichen räumlichen Datenformate wie GeoJSON oder GeoParquet.

Analysen & Visualsierung
Die GeoAnalytics Engine bietet in der aktuellen Version (1.2) 19 vordefinierte räumliche Analyse Tools, welche neben der räumlichen Komponente natürlich auch die zeitliche Dimension mitberücksichtigen, um raum-zeitliche Muster in Ihren großen Datenmengen zu erkennen und zu identifizieren Wann? etwas Wo? geschehen ist.
- Ein Fokus der Tools ist neben der Mustererkennung dabei die Analyse von Tracking Daten, also von Objekten, die sich in Raum und Zeit bewegt haben, wie z. B. Positionsmeldungen von Schiffen oder Flugzeugen.
- Zusätzlich werden über 120 räumliche SQL-Funktionen zur Verfügung gestellt, welche räumliche Operationen wie Topologische Analyse, Binning sowie die Distanzberechnung auf die Reihen und Spalten eines Spark Data Frames ermöglichen.
Angesprochen werden die Tools und Analysen über PySpark, dem Python Interface zu Ihrem Spark Deployment, welches typischerweise über Notebooks genutzt werden kann. Hier wurden zur Visualisierung in einem Notebook noch zahlreiche Optionen zur Plotting Bibliothek hinzugefügt, um räumliche Daten direkt in einem Notebook darstellen zu können.
Abbildung 4 zeigt ein Beispiel eines Analyseergebnisses in Azure Synapse Analytics. HIer wurden die Standorte von Mobilfunktürmen aus dem OpenCellID Datensatz aus einem Azure Blob Store mit dem Inspire Bahnnetz der Deutschen Bahn aus dem ArcGIS Living Atlas verschnitten, um die Netzabdeckung entlang des Streckennetzes zu analysieren:

Lizensierung und Fazit
Um möglichst flexibel bei der Dimensionierung Ihres Spark Clusters zu sein, wird die GeoAnalytics Engine nutzungsbasiert über Kern/Stunden lizensiert.
Dies bedeutet, dass Sie mit einem kleinen Cluster von 16 Kernen pro Stunde Laufzeit 16 Kern/Stunden abgerechnet bekommen. Wenn die Analyse aber mehr Power benötigt, kann ebenso ein Cluster mit 128 Kernen genutzt werden. Verfügbar sind aktuell jährliche Pakete von 10.000 Kernstunden, welche in 5.000er Schritten erweitert werden können.
Mit der GeoAnalytics Engine erhält Ihre Big Data Umgebung ein räumliches Analyse Upgrade für Apache Spark!
So bringen wir unsere räumlichen Analyse Tools und Funktionen in Ihre bestehende Big Data Umgebung. Auch Ihre Nicht-GIS-Analysten haben damit den einfachen Zugang zu diesen mächtigen Funktionalitäten in Ihrer gewohnten Arbeitsumgebung, um das volle Potential Ihrer großen Datenmengen effizient auszuschöpfen. Entdecken Sie raum-zeitliche Muster und beantworten Sie Fragen dazu, Wann? etwas Wo? stattgefunden hat, um informierte, datenbasierte Entscheidungen zu treffen.
Weitere Informationen zur ArcGIS GeoAnalytics Engine finden Sie in der Dokumentation von ArcGIS Developers (auch hier im Store erhältlich).
