Mit Vision-Language-Modellen zur Objekterkennung können visuelle und textuelle Daten kombiniert werden, um präzisere Klassifikationsergebnisse zu erzielen. In diesem Beitrag erfahren Sie, wie das Vision Language Context-Based Classification Modell funktioniert und wie es bei der Identifizierung von Gebäudeschäden im Rahmen eines realen Anwendungsbeispiels eingesetzt wurde.
Esri erweitert seine Bibliothek vortrainierter Deep-Learning-Modelle im ArcGIS Living Atlas of the World. Neu dabei ist das Vision-Language Context-Based Classification-Modell. Es geht über herkömmliche Deep-Learning-Modelle hinaus, da es nicht nur Bilder analysiert, sondern auch menschenähnliche Texte interpretieren und generieren kann.
Auf der Plenarveranstaltung des Developer and Technology Summit testete Rohit Singh das Vision-Language Context-Based Classification-Modell. Er setzte es ein, um Gebäude zu identifizieren, die im Palisades-Feuer beschädigt wurden. Das Feuer wütete kürzlich im westlichen Teil des Los Angeles County.
In seinem ArcGIS Pro-Projekt wurde eine Bildschicht, die den Umkreis des Feuers zeigt, sowie eine Schicht, die die Grundrisse von 13.000 Gebäuden innerhalb dieses Bereichs darstellt.

Zur Klassifizierung der Gebäude wurde das Tool „Objekte mithilfe von Deep Learning klassifizieren“ eingesetzt. Dieses Tool führt ein Deep-Learning-Modell auf einem Eingaberaster und einer Merkmalsklasse aus, um jedem Eingabemerkmal eine Klassen- oder Kategoriebeschriftung zuzuweisen.
Für das Klassifizierungsmodell wird das Vision Language Context-Based Classification-Modell ausgewählt. Dieses Modell nutzt das GPT-4o-Modell von OpenAI und kann Eingabeaufforderungen in natürlicher Sprache entgegennehmen, um zusätzlichen Kontext zu den eingegebenen Bildern und der gewünschten Art der Klassifizierung von Objekten zu erhalten. Entsprechend wird der erforderliche Kontext bereitgestellt und die benutzerdefinierten Klassenbezeichnungen „beschädigt“ und „unbeschädigt“ angegeben, die das Modell zur Beschreibung jedes identifizierten Gebäudes verwenden soll.

Da die Klassifizierung einige Stunden dauert, werden die Ergebnisse präsentiert, die vor der Plenarsitzung mit dem Tool erzielt wurden. Das Ergebnis zeigt, dass das Modell etwa 7.000 beschädigte Gebäude identifiziert hat.

Darüber hinaus erläutert das Modell, auf welcher Grundlage es feststellt, ob ein Gebäude beschädigt ist.

Als nächstes wird eine 3D-Szene geöffnet, die das Ausmaß des Schadens deutlicher zeigt.

Schließlich wird erläutert, wie die Klassifizierung mithilfe von ArcPy und ArcGIS Notebooks automatisiert werden kann, hauptsächlich unter Verwendung natürlicher Sprache und sehr wenig Code.

In einem Szenario, in dem das Verständnis sowohl von Bild- als auch von Textinformationen entscheidend war, wurde das Vision Language Context-Based Classification Modell eingesetzt, um Erkenntnisse zu gewinnen, die manuell nur schwer oder gar nicht zu entdecken gewesen wären.
Weitere Informationen zu diesem Modell finden Sie in der ArcGIS-Dokumentation zu vorab trainierten Modellen.
Hier gehts zum Deep Learning Package.
Dieser Beitrag ist eine Übersetzung des amerikanischen Original-Beitrags.
Hier geht es zum Original-Beitrag!