Big Data Analytics in der Finanzindustrie – Wie man Daten automatisiert beschafft - Empolis Blog

Big Data Analytics in der Finanzindustrie – Wie man Daten automatisiert beschafft

0

Technologien der künstlichen Intelligenz erleichtern die automatisierte Beschaffung und Auswertung von Daten und Informationen für die Finanzindustrie.

In meinem letzten Beitrag habe ich beschrieben, welche frei verfügbaren Informationen und Daten Versicherungen und Banken zur Einschätzung von Kredit-, Versicherungs- oder Vertragsrisiken finden und nutzen können.

Im Folgenden möchte ich darstellen, wie diese überhaupt gesammelt und ausgewertet werden können, und das am besten automatisiert. Hierzu bediene ich mich eines fiktiven Beispiels: Wir möchten als Bank oder Versicherung Einblicke und „Insights“ in die Mount Polley Mining Corporation gewinnen. Sei es, weil das Unternehmen einen Kredit nachgefragt hat oder eine Versicherung abschließen will.

Dieser Beitrag ist auf den ersten Blick ein Tutorial für Entwickler – aber es soll hier nicht um eine Anleitung gehen. Je näher und je länger jemand an der Entwicklung von KI-Systemen oder – etwas breiter – an Digitalisierungslösungen arbeitet, desto mehr müssen ihn die groß angelegten politischen, kulturellen, soziologischen und philosophischen Debatten, die sich derzeit inflationär diesem Themenkreis widmen, verwundern.

Künstliche Intelligenz ist kein Hexenwerk, nicht einmal Raketenwissenschaft. Sie ist Handwerk und Werkzeug, und sie wird nur an der Stelle magisch, mysteriös und dadurch für manche vielleicht auch erschreckend, wo wir nicht mehr verstehen, was die „Handwerker“ da eigentlich mit welchen Werkzeugen gebaut haben.

Das ändert nichts daran, dass es ziemlich viele – und darunter einige herausragend gute – Handwerker und Werkzeugmacher brauchte, bis man solch öffentlichkeitswirksame Zaubertricks vorführen konnte wie „Go“-spielende Computer oder selbstfahrende Autos, aber es bleiben eben doch fleißig erarbeitete Zaubertricks.

Wenn wir digitalisieren, lassen wir etwas verschwinden – in der Regel keine Kaninchen, sondern menschliche Arbeit. Und wenn wir von künstlicher Intelligenz reden, dann geht es um das Wegzaubern geistiger Arbeit.

Real Life

Kommen wir zum Beispiel, das in diesem ersten Schritt noch kaum von KI und umso mehr Handwerk nutzt: Wir möchten Insights über die Mount Polley Mining Corporation gewinnen – was machen wir? Ganz klassisch: Wir recherchieren üblicherweise mit Google. Wenn es gut läuft, haben wir vorher darüber nachgedacht, was wir eigentlich genau wissen wollen: Wo hat das Unternehmen seinen Sitz und seine Produktionsstandorte? Wie entwickelt sich der Markt, in dem das Unternehmen tätig ist und wie entwickelt sich das Unternehmen innerhalb dieses Marktes? Wie sehen die Finanzdaten aus? Welche Gefahren könnten die Profitabilität des Unternehmens stören und wie wahrscheinlich ist es, dass diese eintreten? Und so fort.

Wenn Sie eine solche Bewertung in einem Finanzunternehmen durchführen wollen, haben Sie tatsächlich bereits einen Teil dieser Daten. Sie sind vermutlich Kunde bei Bloomberg oder einem vergleichbaren Unternehmen und können Finanz- sowie einige High-Level-Unternehmensinformationen abfragen und in einem Excel-Sheet sammeln.

Wo Bloomberg endet, beginnt Google: Ein Praktikant, ein Werkstudent, ein Referent oder ein Analyst beginnt mit der Recherche. Tatsächlich wird auf verschiedenen Management-Leveln dieselbe stumpfe Arbeit durchgeführt – nur jeweils mehr oder weniger gut bezahlt.

Wir suchen also nach der Mount Polley Mining Corporation und finden schnell heraus, dass die Mount-Polley-Mine zum Konzern Imperial Metals gehört. Auf deren Webseite findet man viele Informationen, aber natürlich nichts über Lieferbeziehungen, möglicherweise kritische Diskussionen über das Unternehmen, anhängige Verfahren oder ähnliches.

Wertvollste Information ist für den Rechercheur der „Annual Report“, der irgendwo hinter „For Our Shareholders“ verlinkt ist und als Download nebst zwanzig anderen PDF-Dateien auf der Festplatte landet.

Und dann? Je nach Motivation, Qualifikation und Erfahrung wird mehr oder weniger gründlich quergelesen, ein Excel-Sheet oder eine Powerpoint-Präsentation befüllt und die Downloads bleiben bis zum Ausscheiden des jeweiligen Mitarbeiters auf dessen Festplatte liegen.

Einen Plan machen

Lassen Sie uns möglichst viel von der Arbeit wegzaubern und trotzdem ein besser nutzbares Ergebnis erzeugen. Erste Überlegung: Natürlich interessiert uns der Annual Report. Uns interessieren alle Informationen, die Auswirkungen auf Umsatz und Gewinn des Unternehmens haben könnten. Bei notierten Unternehmen sind solche Informationen meldepflichtig, werden bei Aufsichtsbehörden erfasst und von denen auch wieder zur Verfügung gestellt.

Wollen wir also ein möglichst umfassendes Bild haben, ist es eine gute Idee, alle relevanten Informationen über Imperial Metals bei den Aufsichtsbehörden abzuholen. Weil Imperial Metals ihren Sitz in Kanada haben, sollten wir die Recherche im Sedar-System durchführen, dem Filing-System der kanadischen Wertpapieraufsicht „Canadian Securities Administrators“ (CSA).

Zusätzlich ist es bei global tätigen Unternehmen immer eine gute Idee, auch die amerikanischen Aufsichtsbehörden abzufragen, weil schon kleine Anzeichen auf rechtliche Probleme in den USA zu sehr kostspieligen Sammelklagen führen können. Fügen wir also das „EDGAR-System“ der US-Börsenaufsichtsbehörde SEC zu unseren Datenquellen hinzu, das Investoren kostenlosen Zugang zu unternehmensspezifischen Informationen anbietet.

Aber selbst, wenn wir uns auf diese zwei Datenquellen beschränken, bleibt ein rein manuelles Vorgehen ineffizient. In beiden Systemen müssen zunächst das Unternehmen gefunden, dann alle Filings für das Unternehmen angezeigt werden. Das sind tatsächlich sehr viele und erst die Auswertung einer Legende zum jeweiligen Informationssystem erklärt uns, welche Arten von Dokumenten erfasst und mit welchem Kürzel jeweils markiert sind.

Wir interessieren uns hier nicht für jede neu vergebene Prokura, sondern beschränken uns auf relevante Daten mit potenziell entscheidungskritischen Informationen: Das sind die Annual Reports der Unternehmen, die von der Aufsichtsbehörde jährlich und quartalsweise erfassten Informationen sowie möglicherweise enthaltene Ad-hoc-Informationen, die beispielsweise bei Gewinnwarnungen, Vorstandswechseln, Übernahmen und ähnlichen Vorgängen mitgeteilt werden müssen.

Damit nicht jeder, der solche Informationen sammelt, über diese Auswahl nachdenken und sich mit der Funktionsweise und Nomenklatur der beiden Informationssystem beschäftigen muss, wollen wir diese Arbeit in einem Stück Software verschwinden lassen. Künftig wollen wir nur noch den Namen eines Unternehmens als Suchanfrage an eine Spezialsoftware übergeben, die dann die relevanten Daten besorgt und diese für die weitere Analyse gleich an zentraler Stelle ablegt.

Noch einmal arbeiten

Und damit zum Handwerk: ein kleines Stück Digitalisierung für die Zusammenstellung der relevanten Informationen aus dem EDGAR-System.

Als erstes stellen wir unsere Werkzeuge zusammen: Ich entscheide mich für die Programmiersprache Python, als eine von vielen Möglichkeiten.

Listing 1

In Listing 1 werden zunächst einige Pakete importiert, die den Großteil der Arbeit erledigen werden. Das Paket „requests“ übernimmt die Kommunikation mit dem EDGAR-Webserver, „BeautifulSoup“ stellt uns eine einfache Möglichkeit bereit, die von uns gewünschten Informationen aus den HTML-Dateien zu extrahieren und „pprint“ gibt uns am Ende ein halbwegs lesbares Ergebnis aus.

Auch wenn Entwickler Dinge gerne selber lösen, ist das an vielen Stellen gar nicht notwendig. Gehen Sie einfach davon aus, dass Dinge, die millionenfach benötigt werden auch mindestens einmal als direkt verwendbare Funktionsbibliothek bereitstehen.

Danach digitalisieren wir die Recherche in EDGAR: Listing 2 beschreibt den Ablauf für die Suche nach einem Unternehmen. Werden durch die Suche mehrere Unternehmen gefunden, werden Name und ID des am höchsten gerankten Unternehmens zurückgegeben.

Listing 2

Mit der gefundenen ID des Unternehmens können wir jetzt in Listing 3 die nächste Seite in EDGAR aufrufen: Die Ergebnisseite, in der alle verfügbaren Dateien zu diesem Unternehmen nach Datum sortiert aufgelistet werden.

Listing 3

Diese Ergebnisseite wird in Listing 4 Zeile für Zeile ausgelesen und für alle interessanten Dateien merkt sich unser kleines Programm den Dateinamen und – mit Unterstützung aus Listing 5 – den Downloadlink.

Listing 4

Listing 5

Schließlich werden die Funktionen in Listing 6 noch in eine minimale Fachlogik verpackt, in der auch die für uns relevanten Dokumentsorten definiert sind.

Listing 6

Fertig! Als Anwender können wir Listing 1-6 jetzt direkt wieder vergessen – dort ist nur das beschrieben, was nie wieder jemand manuell machen muss. Wenn wir jetzt eine Liste aller relevanten Dokumente zu „Imperial Metals“ aus EDGAR abrufen wollen, tippen wir nur noch die eine Zeile aus Listing 7.

Listing 7

Und jetzt?

Natürlich sind wir nicht fertig. Der Anwender möchte noch eine kleine hübsche Nutzeroberfläche, die verlinkten Dateien müssen noch abgerufen werden und irgendjemand muss mit der IT-Abteilung vereinbaren, wo diese zentral abgelegt werden. Schließlich brauchen wir noch automatische Tests, einen Betriebsverantwortlichen und so fort – und tatsächlich macht all das viel mehr Arbeit als die eigentliche Automatisierung.

Was wir aber in jedem Fall noch nicht haben, sind unsere Insights, ohne die die gesammelten Dateien vollkommen wertlos sind. Dafür brauchen wir ein paar neue Werkzeuge und über die berichte ich in meinem nächsten Beitrag.

Abbildung 1: Das Endergebnis

 

Seien Sie gespannt auf den nächsten Teil!

 

Bildquelle: notwaew / iStock / Getty Images Plus

Teilen:

Über den Autor

Alexander Firyn

Alexander Firyn studierte Theater- und Kulturwissenschaft in Leipzig und Berlin mit Schwerpunkt auf Theorie und Geschichte digitaler Medien und arbeitet als Senior Consultant und Projektleiter bei der Empolis Information Management GmbH in Kaiserslautern. Nach Lehrtätigkeiten an der HU Berlin, der Universität Siegen und der Arbeit als freiberuflicher Entwickler von Datenbankanwendungen in der Wissenschaftslandschaft war er von 2006 bis 2012 am Fraunhofer ISST als wissenschaftlicher Mitarbeiter angestellt und arbeitete an dieser Stelle über fünf Jahre in der Begleitforschung zum BMWi-Forschungsprogramm THESEUS. Von 2012 bis 2014 war er als Consultant am Fraunhofer FOKUS angestellt und hat eine Vielzahl von Projekten zum Architekturmanagement und zu Fragen des E-Government für Bundes- und Landesministerien bearbeitet. Seit 2014 hat er seinen Schwerpunkt von der Konzeption und Beratung von Lösungen auf deren Umsetzung verlegt und verantwortet bei Empolis verschiedene Entwicklungsprojekte im Smart Information Management, insbesondere für Kunden aus der Finanzwirtschaft.

Sagen Sie Ihre Meinung!