Geoinformationssysteme ermöglichen immer bessere Sicherheits-Anwendungen, zum Beispiel für die frühzeitige Indentifizierung von Panik-Potentialen bei Menschenversammlungen. Mit dynamischer Pseudonymisierung geht das sogar DSGVO-konform.
Karten sind heute vor allem Dank GPS keine statischen Dinge mehr, sondern sie “leben”. Polizeiautos lassen sich ebenso orten wie Lieferfahrzeuge und Menschen. Sie können mittels GPS-Tracker oder ihrem Smartphone lokalisiert werden. Neben GPS werden immer mehr Datenlieferanten genutzt, um interaktive Karten mit hoher Aussagekraft zu erstellen. Videokameras speisen heute Bewegtbilder in Karten ein, um beispielsweise die Auslastung von Straßen oder Menschenansammlungen zu analysieren. Und durch die zunehmende Nutzung von IoT-Informationen werden weitere spannende Einsatzfelder entstehen.
Unser Gastautor:
Michael Achtelik ist seit August 2019 bei Hitachi Vantara und verantwortet den Bereich Lumada Software für die Central & Southern Region. Die große Stärke bei Hitachi Vantara sieht er durch die einzigartige Kombination von Industrie- und IT-Expertise und die Konzentration auf die gesamte Wertschöpfungskette von Unternehmensdaten von der Speicherung bis hin zur Monetarisierung der Daten. Herr Achtelik konzenrtiert sich mit seinem Team insbesondere auf die Integration und Analyse aller Daten im Unternehmen, seien es Sensordaten, Daten aus der Cloud oder im Rechenzentrum
Die gewonnen Daten werden mittels Datenintegration aus verschiedensten Quellen erfasst, bereinigt und nach Analyse entsprechend transformiert und in das GIS eingespeist. So lassen sich im Anschluss Karten erstellen, mit denen vielfältigste Ansichten und Auswertungen möglich sind. Wichtig ist dabei das Zusammenspiel zwischen GIS und Datenintegrations-Plattform. Im Umfeld von ArcGIS kommt dabei immer öfter Pentaho von Hitachi Vantara zum Einsatz.
Herausforderung Datenschutz
Es ist natürlich toll, wenn eine Routenplanung live optimiert werden kann. Auch dass bei Menschenansammlungen eine mögliche Panik im Vorfeld aufdeckbar ist und so eventuell vermieden werden kann, ist mehr als wünschenswert. Aber bei vielen dieser Einsatzfelder existiert eine Herausforderung, die nicht unterschätzt werden darf – das Recht auf Privatsphäre und damit die Einhaltung der DSGVO (GDPR).
Durch GPS-Tracker, das Erfassen und Auswerten von Mobilfunkdaten oder gar die Aufnahme von Gesichtern oder Fahrzeugen durch Videokameras entstehen gesetzliche Konflikte. Auf der einen Seite benötigt man diese Daten, um mittels Big Data und Analytics entsprechende Auswertungen zu fahren und intelligente Karten, Anwendungen & Services zu schaffen. Auf der anderen Seite muss dass wegen der DSGVO in den meisten Fällen anonym passieren. Und um dem Ganzen die Krone aufzusetzen, sollte es trotz Anonymisierung der Daten möglich sein, wenn Gefahr im Verzug ist oder bei einer Verbrechensaufklärung später dennoch zu erkennen, wer wann wo war.
Anonymisierung alleine reicht nicht aus
Ursprünglich versuchte man, mittels Anonymisierung den Anforderungen der DSGVO gerecht zu werden. Technisch gesehen ist das kein Problem, denn man kann einfach alle “verräterischen” Daten vom Datensatz trennen und löschen. Aber eine endgültige Löschung der personenbezogenen Informationen kann kontraproduktiv sein. Angenommen, man würde für behördliche Ermittlungen irgendwann bei bestimmten Datensätzen Detailinformationen benötigen, dann wären diese Informationen ja nicht mehr vorhanden.
Gesucht ist daher eine Lösung, die einerseits alle Verbindungen zwischen Daten und der betroffenen Person trennt, die es aber andererseits erlaubt, in gewissen Situationen dennoch auf die Person zurückzuschließen. Dies gelingt, wenn man statt Anonymisierung auf Pseudonymisierung setzt.
Pseudonymisierung als erster Schritt
Pseudonymisierung bedeutet, dass man zwar personenbezogene Daten verarbeitet, diese jedoch nicht mehr ohne weiteres einer spezifischen Person zuordnen kann. Hierfür ersetzt die Pseudonymisierung Identifikationsmerkmale wie Namen durch andere Kennzeichen wie Schlüssel oder Pseudonyme (meist Token genannt). Die grundlegende Zuordnungsvorschrift bleibt nach der Pseudonymisierung in den pseudonymen Daten erhalten, allerdings ist sie ausgelagert. Die jeweiligen Schlüssel oder Pseudonyme und die zugehörigen Information wie beispielsweise der Name werden dazu in einer externen Datei gespeichert. Auf diese Datei kann nur unter bestimmten Voraussetzungen und nur von einem kleinen autorisierten Personenkreis zugegriffen werden.
Allerdings ist in Zeiten von KI, Big Data und Machine Learning auch die Pseudonymisierung nicht mehr ausreichend. Wie kann das sein, wenn der Datensatz keine persönlichen Informationen mehr enthält und Merkmale wie der Name “Michael Maier” durch so etwas anonymes wie ABCDE ersetzt werden und die echten Daten in einer sicheren externen Datei ausgelagert sind?
Das kann verschiedene Gründe haben. Liegen ausreichend viele Datensätze aus unterschiedlichen Quellen vor, dann lassen sich mit Software und Rechenpower relativ leicht Querverbindungen herstellen. So ist es nach wie vor möglich, Datensätze einzelner Personen herauszugreifen, da die Person weiterhin anhand eines einzigartigen Merkmals identifiziert wird, das im Zuge der Pseudonymisierungsfunktion erzeugt wurde. Das statische Token ABCDE taucht ja in allen anonymisierten Datensätzen auf und selbst wenn es viele Menschen mit dem Namen “Michael Maier” innerhalb der Datenmenge geben sollte, so lässt sich doch relativ leicht auf eine einzige Person zurückschließen.
Solche Inferenzangriffe auf die reale Identität einer betroffenen Person sind innerhalb des Datensatzes oder über verschiedene Datenbanken hinweg möglich, die dasselbe pseudonymisierte Attribut für eine Person verwenden, oder wenn Pseudonyme selbsterklärend sind und die ursprüngliche Identität der betroffenen Person nicht richtig maskieren. Darüber hinaus werden oft sehr viele Daten erfasst, die nicht alle pseudonymisiert werden. Verbleiben nur genügend Quasi-Identifikatoren im Datensatz, dann kann es gelingen, am Ende auf die reale Person zurückzuschließen.
Erst dynamische Pseudonymisierung bringt wirklich Anonymität
Eine echte Pseudonymisierung muss daher auf zwei Arten vorangetrieben werden, um DSGVO-konform zu sein. Auf der einen Seite müssen statische Token durch dynamische Token ersetzt werden. “Michael Maier” muss also an unterschiedlichen Stellen auch unterschiedlich kodiert werden, also bei jedem Auftreten des Namens ein anderes dynamisches Token anstelle des statischen Tokens ABCDE erhalten. Darüber hinaus müssen neben direkten Identifikatoren wie Name oder Adresse auch indirekte Identifikatoren explizit angesprochen und maskiert werden. Diese beiden Schritte sind notwendig, um das Risiko einer unbefugten Reidentifizierung durch Verknüpfungs- und Inferenzangriffe (allgemein bekannt als „Mosaik-Effekt“) zu verringern.
Der Vorgang der dynamischen Pseudonymisierung ist allerdings nicht trivial, vor allem nicht, wenn große Datenmengen nahezu in Echtzeit zusammengeführt, analysiert und pseudonymisiert werden sollen.
it-novum hat daher die Geointelligenzlösung ArcGIS Tracker mit der Datenintegrations- und Analyseplattform Pentaho integriert. Mit Pentaho, dass streamingfähig ist, lassen sich auch größte Datenmengen aus beliebigen Quellen aufrufen, aufbereiten und analysieren. Pentaho liest dazu die Daten von den unterschiedlichsten Datenbanken ein und führt dann eine dynamische Pseudonymisierung mittels Anonos BigPrivacy durch. Im Anschluss daran werden die Metadaten angepasst und die pseudonymisierten Daten wieder auf ArcGIS zurückgeschrieben, wo sie mit den entsprechenden Karteninformation verknüpft werden. Innerhalb der jeweiligen Anwendung auf ArcGIS sind dann alle personenbezogenen Daten verschwunden und man kann nicht mehr auf eine Person oder ein Objekt wie ein bestimmtes Fahrzeug zurückschließen.
Anwendungsbeispiel – Video Analytics & Smart Spaces
Sehr gut lässt sich der Nutzen von GIS und zusätzlich gewonnenen Daten wie zum Beispiel Videodaten am Beispiel Stauvermeidung auf Autobahnen verdeutlichen. Fragen rund um Staubildung und -vermeidung Fragen lassen sich beantworten, wenn man an neuralgischen Punkten Kameras installiert, die das Verkehrsgeschehen kontinuierlich aufnehmen. Für optimale Ergebnisse müssen die aufgenommenen Videos live an einer zentralen Stelle zusammenführt, diese Big Data aggregiert und dann mit vergangenen Daten verglichen und analysiert werden. Natürlich alles in Echtzeit, denn nur dann kann man rechtzeitig eingreifen.
Mit Lösungen wie Video Analytics von Hitachi Vantara lässt sich eine intelligente und automatisierte Videoüberwachung realisieren. Man hat dazu eine Software entwickelt, mit der wichtige Daten aus einer Vielzahl von Quellen kontinuierlich aufgenommen und an einen zentralen Speicherort in der Cloud übertragen werden können. Und mittels Pentaho Data Integration lassen sich die angefallenen Big Data dann aggregieren und für umfassende Analysen und interaktive ArcGIS-Karten nutzen. Damit die DSGVO eingehalten wird, werden die Daten wie oben beschrieben dynamisch pseudonymisiert. Visuelle Details wie Gesichter lassen sich dabei ebenso automatisch verpixeln wie Autokennzeichen oder Beschriftungen auf LKWs.
Anwendungsbeispiel – Pandemien bekämpfen
Sogar Leben lassen sich mit einer solchen Lösung retten. Im Falle einer Pandemie können die Bewegungsdaten, die ja allen Mobilfunkanbietern vorliegen, genutzt werden, um zu sehen, wer sich wann wo aufgehalten hat und vor allem, wen er getroffen hat. Dazu könnten Mobilfunkdaten in die Cloud transferiert und dort aggregiert und analysiert werden. Im Anschluss lassen sich die gewonnen Daten dynamisch pseudonymisieren und in interaktive ArcGIS-Karten einspeisen. Erkrankt nun jemand an etwas wie Corona, dann lassen sich die Bewegungsdaten dieser Person, deren Einwilligung vorausgesetzt, zurück übersetzen und man kann genau sehen, wann sich dieser Nutzer wo aufgehalten hat und vor allem, wem er begegnet ist. So lassen sich andere warnen und Infektionsketten frühzeitig erkennen.
Bewegungsdaten stellen die optimale Grundlage für verbessernde Maßnahmen dar. “Lebende” Karten bringen das Business voran, optimieren die Arbeit von Behörden und können helfen, Leben zu retten, wie das Beispiel Corona-Karte verdeutlicht. Mit einer GIS-Plattform wie ArcGIS und einer Datenintegrationsplattform wie Pentaho ist das sicher und vor allem DSGVO-konform möglich.
Das könnte Sie auch interessieren:
Hitachi Vantara
NPGEO Corona Hub von Esri