Text Mining

Sortieren, Kategorisieren und Interpretieren im Handumdrehen

Lange Zeit war das Sortieren, Kategorisieren und Interpretieren von Volltexten nur mit manuellem Aufwand möglich. Mittlerweile hat sich dies geändert. Heutzutage gibt es die Möglichkeit des Text-Mining. Hierbei werden verschiedene Algorithmus basierte Analyseverfahren verwendet, um die Texte zu strukturieren und Inhalte zu erkennen.

In diesem Zusammenhang werden bei der infas 360 unter anderem folgende Komponenten angewandt:

⦁ Tokenisierung
Bei der Tokenisierung wird der Text in einzelne, zusammenhängende Teile segmentiert. Hierbei kann es sich je nach Text um einzelne Wörter, Sätze oder Absätze handeln.

⦁ Lemmatisierung
Die Lemmatisierung eines Wortes soll es in seine Grundform überführen. Unter Lemmatisierung versteht man des Weiteren, die Anordnungen der entstandenen Grundformen (Lemmata)

⦁ Reguläre Ausdrücke
Reguläre Ausdrücke werden verwendet um spezielle Begriffe aber auch bestimmte Passagen in Texten zu findet. Sie sind sehr flexibel, sodass der Benutzer eine Reihe von Möglichkeiten besitzt, um ein erfolgreiches Pattern-Matching zu erreichen.

⦁ Levenshtein-Distanz
Die Levenshtein-Distanz gibt die Ähnlichkeit zweier Zeichenketten an. Sie berechnet sich aus der minimalen Anzahl an Operationen, die es braucht, um aus der einen Zeichenkette die andere zu erhalten. Dabei kann auch zwischen den jeweiligen Optionen (Einfügen, Löschen, Ersetzen) differenziert werden.

⦁ Analyseverfahren
Das letztendliche Analyseverfahren kann projektbasiert gewählt werden. In den meisten Verfahren werden überproportional häufig vorkommende Beziehungen und Abhängigkeiten gesucht. Dies geschieht im Allgemeinen mittels maschinellem Lernen.

Die Handelsregister-Daten: Ein Beispiel für Text-Mining

Die infas 360 liest jeden Tag alle neuen Handelsregistermeldungen mit Hilfe von Text-Mining aus. Der Nebenstehende Auszug zeigt die Neueintragung der infas 360 aus dem Jahr 2014. Wie zu erkennen ist, wird im ersten Schritt die Tokenisierung durchgeführt. Alle Handelsregistermeldungen werden in einzelne Sätze getrennt, die im Folgenden genauer betrachtet werden.

Im nächsten Schritt werden die jeweiligen Sätze Kategorien zugeordnet. Im Schaubild an den verschiedenen Farben zu erkennen. So wird beispielsweise der rot markierte Text der Kategorie „Geschäftsanschrift“ zugeordnet. Dies geschieht mit Hilfe von regulären Ausdrücken.

Einmal in die verschiedenen Kategorien unterteilt, werden in jeder Kategorie verschiedene Attribute bestimmt. Dies ist im zweiten Schaubild zu erkennen. Zum Beispiel in der Kategorie „Anschrift“ wird die Straße und Hausnummer („Ollenhauerstraße 1“), die PLZ („53113“), sowie der Ort („Bonn“) ermittelt.

Durch Einsatz dieser dreistufigen Methodik erhalten wir alle Informationen einer Handelsregistermeldung ganz ohne manuellen Aufwand.

 

Grafische Darstellung einer Tokenisierung

Tokenisierung am Beispiel der Neueintragung der infas 360: Alle Handelsregistermeldungen werden in einzelne Sätze getrennt, die im Folgenden genauer betrachtet werden können.

Tabellarische Darstellung einer Kategorisierung im Zuge von Text Mining

Text Mining Stufe zwei: In jeder Kategorie werden verschiedene Attribute bestimmt.

CASA LOCEL: Wo wohnt welcher Wählertyp?

Mit CASA LOCEL entwickelt infas 360 die Wahldaten aus dem ifo Local Election Lab nun deutlich weiter. Auf Basis von…

Zulassungen E-Autos brechen weiter ein. Ladesäulenplanung neu denken?

Die Ampel-Koalition will, dass im Jahr 2030 mindestens 15 Millionen vollelektrisch betriebene Fahrzeuge auf Deutschlands Straßen unterwegs sein sollen. Hinzu…

Neue Partnerschaft für die kommunale Wärmeplanung

Das Rostocker Unternehmen ENEKA und das Bonner Unternehmen infas 360 haben eine strategische Partnerschaft beschlossen, um ihre Expertise in den…

Send this to a friend