Wer lesen kann, ist klar im Vorteil: Wie macht man Texte für Data Analytics auswertbar? — Empolis Blog

Wer lesen kann, ist klar im Vorteil: Wie macht man Texte für Data Analytics auswertbar?

0

Data Analytics Textanalyse: Aus allen Daten Wissen schaffen.

Big Data, Data Analytics, Data Lake, Data Scientist, Data Hunter, mittlerweile alles gewürzt mit einer Prise KI und unter der fetten Überschrift Digitalisierung. Wir transformieren in eine bessere Welt und schöpfen neue Geschäftspotenziale aus Daten. Alle sind dabei, zumindest ein bisschen.

Alles nur heiße Luft? Eine Welle? Alter Wein in neuen Schläuchen?

Nein, die Zeit ist reif. Es gibt die Daten digital, die Rechenpower ist bezahlbar und die Analytics Tools sind verfügbar … zumindest weitestgehend.

Los geht’s! Der Data Scientist fischt die richtigen Daten aus dem Data Lake und startet die passenden Analysen. Heraus kommt das erhöhte Renditewachstum im nächsten Quartal auf zwei Stellen hinter dem Komma genau, zusammen mit den beiden Stellschrauben, die man drehen muss und fertig? Schön wäre es.

Es ist nicht ganz so einfach, aber aus gut strukturierten Daten kann man heute interessante Erkenntnisse gewinnen, die richtigen Schlüsse ziehen, Maßnahmen ableiten, Entscheidungen treffen.

Strukturierte Daten, z. B. aus Datenbanken oder in Excel-Tabellen machen aber nur ca. 20 Prozent aller Informationen aus. 80 Prozent aller Informationen sind unstrukturiert und liegen in Texten vor. Verträge, Angebote, Gutachten, Patente, wissenschaftliche Abhandlungen, Markt- und Wettbewerbsnachrichten sowie die gesamte Unternehmenskorrespondenz müssen bei wichtigen Entscheidungen berücksichtigt werden.

Und nun? Ist hier die Grenze von Data Analytics schon erreicht?

Die Lösung klingt erstmal simpel: Alles lesen und was wichtig sein könnte, markieren, klassifizieren, rausschreiben, irgendwie sauber aufbereiten und dann strukturiert ablegen: Einfach machen.

Leider ist dieser Weg viel zu kompliziert: So viel will keiner lesen, den Aufwand dafür will keiner bezahlen, und die Qualität der extrahierten Daten hängt vom einzelnen Leser und Bearbeiter ab.

Die bessere Lösung: Wir automatisieren das. Eine Maschine liest die Texte, findet alles Wichtige heraus, legt es sauber strukturiert in einer Datenbank ab und schon nutzen wir alle Potenziale unserer Data Scientists und deren Data Analytics Tools. So bauen wir eine Brücke von der Welt der unstrukturierten Texte zur Welt der strukturierten Daten. Wie geht das? Mit KI, oder?

Wir finden Software und Tools aus den Bereichen Text Mining, Information Extraction, Named Entity Extraction, Text Classification, Computer Linguistics, Pattern Matching, Machine Learning, Rule-based Systems. Überall ist ganz viel KI drin. Wir finden aber nicht die eine Wunderwaffe, die aus jedem Text genau die wertvollen, semantischen Informationen liefert, die für meine Entscheidungen wichtig sind.

Also kombinieren wir alle verfügbaren Text-Analytics-Werkzeuge, damit das funktioniert. Aber was genau soll denn funktionieren? Selbst mit dem nötigen KI-Know-how ist vorab nicht klar, welche Informationen denn aus welchem Grund zu welchem Zweck und für welche Entscheidungen wichtig sind. Dazu gehören zusätzlich Business- und Domänen-Know-how, das von Fall zu Fall verschieden ist.

Klingt doch alles zu kompliziert: Wir lassen das lieber, oder?

Nein, wir machen das. Wenn Domänenexperten mit KI-Spezialisten zusammenarbeiten und eine klare Zielstellung formulieren, lassen sich die nötigen Verfahren häufig schnell und zielführend umsetzen. Ob die nötigen Informationen aus den Texten automatisch erschlossen werden können, lässt sich in Machbarkeitsstudien (PoCs) überprüfen, bevor man grundsätzliche Entscheidungen für Investitionen und Umsetzungen fällt.

Warum gibt es das nicht schon fertig? Das brauchen doch alle, zumindest so ähnlich, oder?

Da ist was Wahres dran. Statt von Projekt zu Projekt die gesamte Informationsanalyse mit allen nötigen Extraktoren neu aufzusetzen, könnte man in vielen Fällen auf Werkzeuge und Analysemodelle früherer Projekte zurückgreifen und so Risiken, Kosten und Zeitaufwände senken. Es liegt aber in der Natur klassischer Projekte, dass das nicht geht. Die Projektergebnisse gehören dem Kunden und sind per se nicht wiederverwendbar.

Das muss doch auch anders gehen. Kann man das Wissen nicht teilen, voneinander lernen und profitieren, und damit nötige Entwicklungen preiswerter und schneller machen?

Ja, wir machen das. In jedem Projekt gibt es Entwicklungen und Ergebnisse, die man in anderen Projekten nutzen kann und die gleichzeitig nicht als intern/vertraulich eingestuft werden müssen. Wir motivieren unsere Kunden, solche Projektergebnisse zu teilen und bieten die Entwicklung dafür günstiger an. Wir bringen solche Ergebnisse dann bei anderen Kunden ein und entwickeln auch dort wieder neue, wiederverwendbare Module, Services und Analysemodelle von denen all unsere Kunden profitieren können.

Sie sagen jetzt: „Schön für die Kunden, aber was habt Ihr davon?“

In den frühen Phasen solcher Vorhaben, wo gleichzeitig der Business Value, die Datenverfügbarkeit und die technische Machbarkeit auf dem Prüfstand stehen, geht es noch nicht um das Geschäft an sich, sondern darum Geschäftspotenziale zu überprüfen und zu schaffen. Je schneller und preiswerter eine Entscheidungsgrundlage geschaffen wird, desto besser für alle Beteiligten.

Zusammengefasst heißt das:

  • Auf strukturierten Daten werden heute schon umfassend geschäftskritische Erkenntnisse gewonnen und genutzt.
  • In Texten stehen geschäftskritische Informationen, die man nutzen sollte.
  • Der Transfer dieser Informationen in strukturierte Daten ist manuell nicht leistbar.
  • Der Transfer dieser Informationen ist automatisierbar, aber nicht standardisiert.
  • Mit dem richtigen Know-how-Mix aus Business, Domäne und KI kann man die Brücke von den Texten zu den Daten schlagen. Dann kann man die Texte lesen und verstehen.
  • Mit dem Teilen von Wissen, Modellen und Werkzeugen spart man zusätzlich Kosten und Zeit.

Hier liegen große Geschäftspotenziale für jedes Unternehmen und jede Behörde. Und die Hürden mit Data Analytics zu starten sind in den letzten Jahren deutlich gesunken. Bringen wir also den Maschinen das Lesen bei. Denn: Wer lesen kann, ist klar im Vorteil.

 

Sie möchten alle Informationen rund um KI und Big Data druckfrisch erhalten? Das Blog-Abo ist für Sie da.

Teilen:

Über den Autor

Bidjan Tschaitschian

Bidjan Tschaitschian leitet als Senior Vice President den Bereich „Business Development“ bei Empolis. Er verfügt über mehr als 15 Jahre Berufserfahrung in der Umsetzung von Kundenlösungen mit Big-Data-Technologien und ist Experte für Internet- und Enterprise-Suchlösungen. In diesen Bereichen hat er die Entwicklung verschiedener Produkte verantwortet und Schlüsselprojekte mit verschiedenen Kunden durchgeführt. Nach seinem Informatikstudium an der Technischen Universität Kaiserslautern begann er seine berufliche Laufbahn am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) mit der Durchführung und Leitung von Forschungsprojekten im Kundenauftrag.

Sagen Sie Ihre Meinung!