Text Mining

Sortieren, Kategorisieren und Interpretieren im Handumdrehen

Lange Zeit war das Sortieren, Kategorisieren und Interpretieren von Volltexten nur mit manuellem Aufwand möglich. Mittlerweile hat sich dies geändert. Heutzutage gibt es die Möglichkeit des Text-Mining. Hierbei werden verschiedene Algorithmus basierte Analyseverfahren verwendet, um die Texte zu strukturieren und Inhalte zu erkennen.

In diesem Zusammenhang werden bei der infas 360 unter anderem folgende Komponenten angewandt:

⦁ Tokenisierung
Bei der Tokenisierung wird der Text in einzelne, zusammenhängende Teile segmentiert. Hierbei kann es sich je nach Text um einzelne Wörter, Sätze oder Absätze handeln.

⦁ Lemmatisierung
Die Lemmatisierung eines Wortes soll es in seine Grundform überführen. Unter Lemmatisierung versteht man des Weiteren, die Anordnungen der entstandenen Grundformen (Lemmata)

⦁ Reguläre Ausdrücke
Reguläre Ausdrücke werden verwendet um spezielle Begriffe aber auch bestimmte Passagen in Texten zu findet. Sie sind sehr flexibel, sodass der Benutzer eine Reihe von Möglichkeiten besitzt, um ein erfolgreiches Pattern-Matching zu erreichen.

⦁ Levenshtein-Distanz
Die Levenshtein-Distanz gibt die Ähnlichkeit zweier Zeichenketten an. Sie berechnet sich aus der minimalen Anzahl an Operationen, die es braucht, um aus der einen Zeichenkette die andere zu erhalten. Dabei kann auch zwischen den jeweiligen Optionen (Einfügen, Löschen, Ersetzen) differenziert werden.

⦁ Analyseverfahren
Das letztendliche Analyseverfahren kann projektbasiert gewählt werden. In den meisten Verfahren werden überproportional häufig vorkommende Beziehungen und Abhängigkeiten gesucht. Dies geschieht im Allgemeinen mittels maschinellem Lernen.

Die Handelsregister-Daten: Ein Beispiel für Text-Mining

Die infas 360 liest jeden Tag alle neuen Handelsregistermeldungen mit Hilfe von Text-Mining aus. Der Nebenstehende Auszug zeigt die Neueintragung der infas 360 aus dem Jahr 2014. Wie zu erkennen ist, wird im ersten Schritt die Tokenisierung durchgeführt. Alle Handelsregistermeldungen werden in einzelne Sätze getrennt, die im Folgenden genauer betrachtet werden.

Im nächsten Schritt werden die jeweiligen Sätze Kategorien zugeordnet. Im Schaubild an den verschiedenen Farben zu erkennen. So wird beispielsweise der rot markierte Text der Kategorie „Geschäftsanschrift“ zugeordnet. Dies geschieht mit Hilfe von regulären Ausdrücken.

Einmal in die verschiedenen Kategorien unterteilt, werden in jeder Kategorie verschiedene Attribute bestimmt. Dies ist im zweiten Schaubild zu erkennen. Zum Beispiel in der Kategorie „Anschrift“ wird die Straße und Hausnummer („Ollenhauerstraße 1“), die PLZ („53113“), sowie der Ort („Bonn“) ermittelt.

Durch Einsatz dieser dreistufigen Methodik erhalten wir alle Informationen einer Handelsregistermeldung ganz ohne manuellen Aufwand.

 

Grafische Darstellung einer Tokenisierung

Tokenisierung am Beispiel der Neueintragung der infas 360: Alle Handelsregistermeldungen werden in einzelne Sätze getrennt, die im Folgenden genauer betrachtet werden können.

Tabellarische Darstellung einer Kategorisierung im Zuge von Text Mining

Text Mining Stufe zwei: In jeder Kategorie werden verschiedene Attribute bestimmt.

Immer mehr Neugründungen in der Solarbranche

Seit 2015 erholt sich die Solarbranche Jahr für Jahr. Immer mehr Neugründungen drängen wieder auf den Markt. Mit Wegfall der…

Viel Lärm, schlechte Lage?

Feinräumige Lärmdaten zeigen Umweltprobleme auf. So belastet Lärm das Herz-Kreis-Lauf System des Menschen. Auch das ist ein Grund, warum Wohnungen…

Benachbarte Hausnummern für die kommunale Wärmeplanung

Das seit 1. Januar 2024 geltende Wärmeplanungsgesetz gibt datenschutzrechtlich klare Regelungen vor. Dazu zählt auch, dass eine Datenerhebung insbesondere durch…

Send this to a friend