Mithilfe von GeoAnalytics können Sie große Mengen an Daten effizient analysieren. In diesem Teil der Blogserie zeigen wir Ihnen, wie Big Data in ArcGIS Pro eingebunden werden und was dabei zu beachten ist.
GeoAnalytics Tools wurden entwickelt, um große Mengen an Tabellen und Vektordaten effizient zu analysieren. Neben dem GeoAnalytics Server für ArcGIS Enterprise sind die GeoAnalytics Tools auch in ArcGIS Pro ab der Version 2.4 verfügbar. Seit der Version 2.6 unterstützt ArcGIS Pro in seinen Geoverarbeitungswerkzeugen für Eingabe-Features, neben der Feature-Class einer Geodatabase oder eines Layers mit Feature-Auswahl auch Features aus einer sogenannten Big Data-Verbindung.
Big Data-Verbindung in ArcGIS Pro 2.6
Die Big Data-Verbindung ist eine neue Datenquelle in ArcGIS Pro 2.6 für die Darstellung und Analyse von Daten, die nicht in der Geodatabase gespeichert sind. In diesem Fall liegen die Daten in einem Quellordner in unterschiedlichen Datei-Formaten (z.B. .csv, .txt, .shp und andere) vor, enthalten Informationen zur räumlichen Lage (Geometrie) und häufig auch Zeit- oder Zeitintervall-Angaben. Die Dateien werden darüber hinaus in weiteren Unterordnern organisiert. Jeder Unterordner im Quellordner steht jeweils für ein Dataset in dieser Quellstruktur. Diese Art der Speicherstruktur ermöglicht die Bereitstellung mehrerer sehr großen Datensets mit sehr vielen einzelnen Dateien. Lassen Sie sich aber nicht vom Namen täuschen: Big Data-Verbindungen funktionieren auch für kleine Datenmengen.
Geoverarbeitungswerkzeuge in ArcGIS Pro mit der Toolbox „GeoAnalytics Desktop Tools“ ermöglichen den Zugriff auf diese Datenstrukturen. In ArcGIS Pro wird dabei eine Big Data-Verbindungsdatei (.bdc) in einem Ausgabeverzeichnis erzeugt. Letzteres kann dann im ArcGIS Pro-Projekt als Ordnerverbindung referenziert werden.
Weitere Werkzeuge des Toolsets dienen der weiteren Konfiguration und Verwaltung dieser Big Data-Verbindungen. Im Folgenden beschreibe ich einen typischen Workflow für die Einrichtung und Verwendung einer Big Data-Verbindung.
Tipp: Testen Sie die Erstellung und Konfiguration an einem kleinen Testdatensatz im Rahmen eines Pilotprojekts.
Big Data-Verbindung vorbereiten
1. Quellordner strukturieren
Die Daten werden so organisiert, dass alle Dateien innerhalb eines Quellordners organisiert sind. Jeder Datensatz ist als Unterordner innerhalb des Quellordners definiert. Darunter befinden sich die einzelnen Dateien, alle vom gleichen Typ und in der gleichen Struktur – diese können aber auch bei Bedarf in weitere Unterordner strukturiert sein.
2. Quellordner im Katalog als Ordnerverbindung einrichten
Stellen Sie in einem ArcGIS Pro Projekt eine Ordnerverbindung zum Quellordner her – das verschafft einen Überblick über die verfügbaren Datenquellen und erleichtert die Definition der Big Data-Verbindung im nächsten Schritt.
3. Ordner für die Big Data-Verbindungsdatei als Favorit anlegen
Da die Big Data-Verbindung als Datei im Filesystem abgelegt wird, empfiehlt es sich, einen gemeinsamen Ordner für diese Dateien anzulegen und als Favorit in ArcGIS Pro zu hinterlegen. So können alle Big Data-Verbindungen jederzeit in die aktuellen Projekte eingebunden werden.
Big Data-Verbindung erstellen
Mit dem Geoverarbeitungswerkzeug „Big Data-Verbindung erstellen“ wird eine Big Data-Verbindungsdatei (.bdc) erstellt. Dafür wird das Verzeichnis benannt, in dem die Datei abgelegt werden soll, der Name der Datei und der Pfad zum Quellordner der zu referenzierenden Big Data-Dateien.
Im Katalog wird die neue Big Data-Verbindungsdatei angezeigt mit allen von ArcGIS Pro identifizierten Datasets.
Das angezeigte Big Data-Dataset kann unter Umständen sofort für Analysen verwendet werden. Allerdings sollten Sie vorher überprüfen, ob die Daten und Felder speziell für die Identifizierung der Geometrie und für die Zeitangaben richtig erkannt wurden. In diesem Fall – und das erkennt man an dem Icon des Datasets – wurde noch keine Geometrie erkannt.
Big Data-Verbindungseigenschaften konfigurieren
Um zu überprüfen, welche Struktur in den Quelldateien erkannt wurden, verwenden Sie das Werkzeug „Vorschau von Dataset aus Big-Data-Verbindung anzeigen“.
Das Resultat dieser Analyse erscheint zum einen in den Meldungen des Geoverarbeitungswerkzeugs. Die Ausgabe-Vorschaudatei (.csv) in Form einer Tabelle wird gleichzeitig der aktuellen Karte (entsprechend der Umgebungseinstellung) hinzugefügt.
Mit dem Werkzeug „Eigenschaften des Big Data-Verbindungs-Datasets aktualisieren“ können Sie Definitionsabfragen definieren, Feldeigenschaften ändern, Felder ausblenden, die Geometrie und den Raumbezug festlegen, und – soweit möglich und erforderlich – den Zeittyp und das Zeitformat bestimmen.
Im Katalog wird das Big Data-Dataset jetzt mit dem richtigen Icon einer Punkt-Feature-Class angezeigt.
Wichtiger Hinweis: Die Konfiguration der Big Data-Dataset-Eigenschaften verändern nicht die Daten im Quellordner.
Für die abschließende Überprüfung eignet sich am besten das Werkzeug „Dataset beschreiben“ aus dem Toolset „Daten zusammenfassen“. Damit erstellen Sie eine Übersichtstabelle über alle Felder, sowie eine Zusammenfassung der Geometrie und der Zeit. Das Werkzeug eignet sich vor allem, um zu überprüfen, ob die Zeit mit dem von Ihnen definierten Zeitformat korrekt erkannt wird.
Wenn alles passt, sind die Daten „ready for analysis“.
Pandas DataFrame
Nicht immer ist es so einfach, wie oben beschrieben, Daten einzubinden. Oftmals ist auch noch eine inhaltliche Bereinigung der Daten (Data Engineering) vor der Analyse notwendig.
Im nächsten Artikel dieser Blog-Serie zeigen wir Ihnen deshalb einen alternativen Weg über die Funktion des Pandas DataFrame. Und dann geht’s auch schon los mit der Analyse.
Lizenzierung
Um die Werkzeuge der Toolbox GeoAnalytics Desktop Tools nutzen zu können, ist eine Advanced-Lizenz erforderlich.
Weitere Infos zum Thema
Teil 1 verpasst? Hier geht es zu Teil 1: GeoAnalytics – Big Data Analysen in der ArcGIS Plattform.
Auch interessant ist dieser Blogpost von Esri Inc.