Text Mining

Sortieren, Kategorisieren und Interpretieren im Handumdrehen

Lange Zeit war das Sortieren, Kategorisieren und Interpretieren von Volltexten nur mit manuellem Aufwand möglich. Mittlerweile hat sich dies geändert. Heutzutage gibt es die Möglichkeit des Text-Mining. Hierbei werden verschiedene Algorithmus basierte Analyseverfahren verwendet, um die Texte zu strukturieren und Inhalte zu erkennen.

In diesem Zusammenhang werden bei der infas 360 unter anderem folgende Komponenten angewandt:

⦁ Tokenisierung
Bei der Tokenisierung wird der Text in einzelne, zusammenhängende Teile segmentiert. Hierbei kann es sich je nach Text um einzelne Wörter, Sätze oder Absätze handeln.

⦁ Lemmatisierung
Die Lemmatisierung eines Wortes soll es in seine Grundform überführen. Unter Lemmatisierung versteht man des Weiteren, die Anordnungen der entstandenen Grundformen (Lemmata)

⦁ Reguläre Ausdrücke
Reguläre Ausdrücke werden verwendet um spezielle Begriffe aber auch bestimmte Passagen in Texten zu findet. Sie sind sehr flexibel, sodass der Benutzer eine Reihe von Möglichkeiten besitzt, um ein erfolgreiches Pattern-Matching zu erreichen.

⦁ Levenshtein-Distanz
Die Levenshtein-Distanz gibt die Ähnlichkeit zweier Zeichenketten an. Sie berechnet sich aus der minimalen Anzahl an Operationen, die es braucht, um aus der einen Zeichenkette die andere zu erhalten. Dabei kann auch zwischen den jeweiligen Optionen (Einfügen, Löschen, Ersetzen) differenziert werden.

⦁ Analyseverfahren
Das letztendliche Analyseverfahren kann projektbasiert gewählt werden. In den meisten Verfahren werden überproportional häufig vorkommende Beziehungen und Abhängigkeiten gesucht. Dies geschieht im Allgemeinen mittels maschinellem Lernen.

Die Handelsregister-Daten: Ein Beispiel für Text-Mining

Die infas 360 liest jeden Tag alle neuen Handelsregistermeldungen mit Hilfe von Text-Mining aus. Der Nebenstehende Auszug zeigt die Neueintragung der infas 360 aus dem Jahr 2014. Wie zu erkennen ist, wird im ersten Schritt die Tokenisierung durchgeführt. Alle Handelsregistermeldungen werden in einzelne Sätze getrennt, die im Folgenden genauer betrachtet werden.

Im nächsten Schritt werden die jeweiligen Sätze Kategorien zugeordnet. Im Schaubild an den verschiedenen Farben zu erkennen. So wird beispielsweise der rot markierte Text der Kategorie „Geschäftsanschrift“ zugeordnet. Dies geschieht mit Hilfe von regulären Ausdrücken.

Einmal in die verschiedenen Kategorien unterteilt, werden in jeder Kategorie verschiedene Attribute bestimmt. Dies ist im zweiten Schaubild zu erkennen. Zum Beispiel in der Kategorie „Anschrift“ wird die Straße und Hausnummer („Ollenhauerstraße 1“), die PLZ („53113“), sowie der Ort („Bonn“) ermittelt.

Durch Einsatz dieser dreistufigen Methodik erhalten wir alle Informationen einer Handelsregistermeldung ganz ohne manuellen Aufwand.

 

Autor: Sebastian Hugo

Grafische Darstellung einer Tokenisierung

Tokenisierung am Beispiel der Neueintragung der infas 360: Alle Handelsregistermeldungen werden in einzelne Sätze getrennt, die im Folgenden genauer betrachtet werden können.

Tabellarische Darstellung einer Kategorisierung im Zuge von Text Mining

Text Mining Stufe zwei: In jeder Kategorie werden verschiedene Attribute bestimmt.

Corona clustert sich

Auf den Spuren von John Snow begab sich infas 360 als sie vom Oberbergischen Kreis den Auftrag erhielt, den Corona-Infektionen…

Kompetenztag Geomarketing: Praxis statt Theorie

Spannende Vorträge aus der Praxis sind der Fokus des diesjährigen Kompetenztags Geomarketing.  Das digitale Forum widmet sich im Schwerpunkt am…

Blended Calibration: repräsentative Befragungsdaten regionalisieren

Mit „Blended Calibration“ hat die infas-Gruppe ein Verfahren entwickelt, mit dem valide repräsentative Befragungsergebnisse gewonnen werden können, die bis in…

Send this to a friend