Text Mining: Sortieren, Kategorisieren und Interpretieren im Handumdrehen

Lange Zeit war das Sortieren, Kategorisieren und Interpretieren von Volltexten nur mit manuellem Aufwand möglich. Mittlerweile hat sich dies geändert. Heutzutage gibt es die Möglichkeit des Text-Mining. Hierbei werden verschiedene Algorithmus basierte Analyseverfahren verwendet, um die Texte zu strukturieren und Inhalte zu erkennen.

In diesem Zusammenhang werden bei der infas 360 unter anderem folgende Komponenten angewandt:

⦁ Tokenisierung
Bei der Tokenisierung wird der Text in einzelne, zusammenhängende Teile segmentiert. Hierbei kann es sich je nach Text um einzelne Wörter, Sätze oder Absätze handeln.

⦁ Lemmatisierung
Die Lemmatisierung eines Wortes soll es in seine Grundform überführen. Unter Lemmatisierung versteht man des Weiteren, die Anordnungen der entstandenen Grundformen (Lemmata)

⦁ Reguläre Ausdrücke
Reguläre Ausdrücke werden verwendet um spezielle Begriffe aber auch bestimmte Passagen in Texten zu findet. Sie sind sehr flexibel, sodass der Benutzer eine Reihe von Möglichkeiten besitzt, um ein erfolgreiches Pattern-Matching zu erreichen.

⦁ Levenshtein-Distanz
Die Levenshtein-Distanz gibt die Ähnlichkeit zweier Zeichenketten an. Sie berechnet sich aus der minimalen Anzahl an Operationen, die es braucht, um aus der einen Zeichenkette die andere zu erhalten. Dabei kann auch zwischen den jeweiligen Optionen (Einfügen, Löschen, Ersetzen) differenziert werden.

⦁ Analyseverfahren
Das letztendliche Analyseverfahren kann projektbasiert gewählt werden. In den meisten Verfahren werden überproportional häufig vorkommende Beziehungen und Abhängigkeiten gesucht. Dies geschieht im Allgemeinen mittels maschinellem Lernen.

Die Handelsregister-Daten: Ein Beispiel für Text-Mining

Die infas 360 liest jeden Tag alle neuen Handelsregistermeldungen mit Hilfe von Text-Mining aus. Der Nebenstehende Auszug zeigt die Neueintragung der infas 360 aus dem Jahr 2014. Wie zu erkennen ist, wird im ersten Schritt die Tokenisierung durchgeführt. Alle Handelsregistermeldungen werden in einzelne Sätze getrennt, die im Folgenden genauer betrachtet werden.

Im nächsten Schritt werden die jeweiligen Sätze Kategorien zugeordnet. Im Schaubild an den verschiedenen Farben zu erkennen. So wird beispielsweise der rot markierte Text der Kategorie „Geschäftsanschrift“ zugeordnet. Dies geschieht mit Hilfe von regulären Ausdrücken.

Einmal in die verschiedenen Kategorien unterteilt, werden in jeder Kategorie verschiedene Attribute bestimmt. Dies ist im zweiten Schaubild zu erkennen. Zum Beispiel in der Kategorie „Anschrift“ wird die Straße und Hausnummer („Ollenhauerstraße 1“), die PLZ („53113“), sowie der Ort („Bonn“) ermittelt.

Durch Einsatz dieser dreistufigen Methodik erhalten wir alle Informationen einer Handelsregistermeldung ganz ohne manuellen Aufwand.

JETZT ANFRAGEN

Ihr Kontakt zu infas 360:

consulting@infas360.de +49 228 9591491

Unsere Partner

Text Mining

Sortieren, Kategorisieren und Interpretieren im Handumdrehen

Die Handelsregister-Daten: Ein Beispiel für Text-Mining

Optimierung der Ladeinfrastruktur für E-Autos in Mehrfamilienhäusern

Erstmalig: Gebäudescharfer Datensatz zu Solaranlagen in Deutschland

UNSERE EVENTS IM MÄRZ UND APRIL 2026

Unsere Partner