Mit Generative AI komplexe Fragen einfach beantworten
Zurück zum BlogEs gibt Fragen, die sind so einfach, dass wir sie uns schon seit Jahren von digitalen Assistenten beantworten lassen: „Siri, wie spät ist es?“ und „Hey Google, wie komme ich am schnellsten nach Hause?“ sind einige davon, die jeder kennt. Früher nannten wir solche Assistenten KI-basiert, inzwischen sind uns die einfachen Taschenspielertricks dieser Assistenten zu profan, um das noch als Künstliche Intelligenz zu adeln. Richtige KI muss mehr können, sie muss kreativ sein, sonst holt uns das nicht ab.
Man kann bei richtiger KI immer mit profanen Fragen anfangen, um etwas über das Verhalten meines künstlichen Gegenübers zu lernen. Google Bard beantwortet die erste souverän, die Antwort auf die zweite Frage ist trotzdem spannender:
Warum ist das spannend? Nun, hinter Bard steckt ebenso wie hinter ChatGPT ein Large Language Model und Large Language Models sind von Natur aus nicht dafür gedacht, einfach Fakten zu liefern, sondern passende Texte zu einer Aufgabe zu generieren – deswegen ja „Generative KI“.
Die Antwort auf die Frage „Wie spät ist es“ steckt beispielsweise nicht im Large Language Model. Dass Google Bard sie trotzdem souverän beantworten kann, liegt daran, dass irgendjemand bei Google so freundlich war, um das Modell herum etwas zu implementieren, was diese Frage abfängt, meinen Standort ermittelt, die aktuelle Uhrzeit aus der Systemuhr ausliest und in die Zeitzone des erkannten Standorts transformiert, um schließlich das Ergebnis in einen Satz in der Sprache zu verpacken, in der ich die Anfrage erstellt habe. Streng genommen ist nur dieser letzte Schritt ein Beitrag des Large Language Modells – der Rest ist fleißige Integration von Informationsquellen zur Lösung des Problems.
Wer sehen möchte, wie ein nacktes Sprachmodell Fragen beantwortet, kann sich bei Huggingface beispielsweise mal mit dem IGEL-Modell unterhalten, ein – trotz des frühen Entwicklungsstadiums – hervorragendes Open Source LLM . IGEL beherrscht die typischen Aufgaben Generativer KI ebenso gut wie ChatGTP oder Google Bard, bei den „Jetzt-und-in-diesem-Kontext-Fragen“ fehlt dem Modell aber das freundliche Abfangen und Verknüpfen mit anderen Anwendungen und so antwortet es auf die Frage „Wie spät ist es?“ in kurzer Folge mit „Es ist 3:25 Uhr“, „10:09 Uhr“, „Es ist 16 Uhr.“ – Alles richtig, bis auf die Uhrzeit. Möchte ich von IGEL wissen, wie spät es ist, muss ich ihm die Fakten mitgeben: Auf „Formuliere einen Satz, indem du mitteilst, dass es in Ingelheim 6:51 Uhr ist.“ folgt dann auch „Es ist 6:51 Uhr in Ingelheim.“ – jetzt stimmt alles.
Zu der Frage nach dem Heimweg ist der freundliche Google-Kollege vermutlich noch nicht gekommen, deshalb das ernüchternde Ergebnis – ein bisschen, als würde die Matrix kurz flackern.
Was lernen wir daraus? Nun, Large Language Models sind ziemlich gut darin, natürlichsprachlichen Input zu verstehen und einen natürlichsprachlichen Output zu erzeugen – beeindruckend gut. Aber wenn die gestellte Aufgabe sich erst durch die Ermittlung verschiedener Eingabeparameter korrekt beantworten lässt, überfordert das diese Art von KI. Das ist schade, aber: Auch wir Menschen gucken auf die Uhr, wenn wir wissen wollen, wie spät es ist und ermitteln die Uhrzeit nicht schlicht aus unserer Fähigkeit, sprechen zu können.
Bei Empolis sind wir faktenverliebt, schon immer. Egal, ob Patentingenieure entscheiden, ob ein eingereichter Patentantrag etwas wirklich Neues beschreibt, Ermittlungsbeamte entscheiden, ob sie eine verdächtige Person ins Land einreisen lassen oder Servicetechniker entscheiden, welche Ersatzteile sie zur Schiffsreparatur auf dem Atlantik mitnehmen, es geht bei unseren Lösungen häufig um zu viel, als dass wir uns schön verpackte Halbwahrheiten leisten könnten.
Wir modellieren Zusammenhänge in Knowledge Graphen (das war übrigens DER KI-Hype 2022), um zu jedem relevanten Ereignis Zeit, Ort, beteiligte Personen und was man sonst noch wissen muss, zu erfassen und aus jeder denkbaren Richtung mit anderen Informationen in Beziehungen stellen zu können.
Wir entwickeln Verfahren, mit denen sich jede denkbare Repräsentation einer Information aufeinander abbilden lässt, damit wir Max Mustermann finden, egal ob auf dem Ausweis „Maximilian Mustermann“, auf der Rechnung „Kd-Nr. 08/15“ oder auf dem Brief „Максимилиан Мустерманн“ steht. Wir bauen Ähnlichkeitsverfahren, mit denen sich ermitteln lässt, ob eine vorhandenen Reparaturanleitung in einer bestimmten Situation auch auf eine andere Maschine anwendbar ist und so fort.
So wichtig diese Fakten sind, so herausfordernd ist aber auch die Realisierung einfach bedienbarer Schnittstellen zum Nutzer – der bei uns ja häufig unter Entscheidungsdruck steht. „Zeige mir alle Transaktionen zwischen 10 TEUR und 50 TEUR die über die ABC Bank ausgeführt wurden und in einer Beziehung zu Menschen stehen, die in den letzten 5 Jahren in Dänemark waren und sortiere das Ergebnis nach der Haarlänge der beteiligten Personen.“ enthält ziemlich viele Eingabeparameter. Bis man die Frage formal (in unserer unglaublich mächtigen Query-Sprache) ausgedrückt hat, vergeht einige Zeit – und ein visuelles Eingabeformular macht die Sache ab einer bestimmten Komplexität nicht viel besser. Aber bisher war das nun mal der Preis der Mächtigkeit.
Large Language Models und Generative KI lösen genau dieses Problem. Jetzt kann der Nutzer nämlich einfach sagen (oder tippen): „Zeige mir alle Transaktionen zwischen 10 TEUR und 50 TEUR die über die ABC Bank ausgeführt wurden und in einer Beziehung zu Menschen stehen, die in den letzten 5 Jahren in Dänemark waren und sortiere das Ergebnis nach der Haarlänge der beteiligten Personen.“ und dann kommt das Ergebnis, gerne auch noch im gewünschten Ausgabeformat und der gewünschten Ausgabesprache.
Das macht die Anwendung unserer – nicht immer ganz trivialen – Verfahren schlagartig viel einfacher und gibt auch ungeschulten Nutzern die Möglichkeit, sehr komplexe Fragen verlässlich über eine einfach bedienbare Schnittstelle zu lösen.
Die Diskussion darüber, ob Generative AI in kritischen Systemen verwendet werden darf, greift zu kurz. Die nackte Generative AI dient nur zum Small Talk und sollte allein nirgendwo eingesetzt werden, wo die Verlässlichkeit von Fakten relevant ist. In einer klug integrierten Kombination mit Systemen, die die Fakten aus verlässlichen Datenquellen ermitteln, bewerten und überprüfbar ausgeben, bringt Generative AI aber enorme Vorteile und eröffnet vielen Nutzern überhaupt erst die Möglichkeit, komplexe Entscheidungsunterstützungssysteme praktikabel in ihre Arbeit zu integrieren.
Es geht also nicht darum, ob wir Generative AI einsetzen oder nicht, sondern darum, wie wir sie einsetzen und wie wir sie mit anderen Systemen integrieren.