STRATEGIE26. März 2024

Unsichtbare Revolution: Die Transformer-Architektur als Triebkraft der Finanzbranche

Marvin Forstreuter, Soft­ware­ent­wick­ler in der Busi­ness Li­ne In­suran­ce bei Adesso, berichtet über die Transformer-Architektur als Triebkraft der Finanzbranche
Marvin Forstreuter, Soft­ware­ent­wick­ler in der Busi­ness Li­ne In­suran­ce bei AdessoAdesso

Während KI-Technologien den Alltag in der Softwareentwicklung bereits tiefgreifend verändert haben, bleibt die treibende Kraft hinter dieser Wandlung für viele ein Rätsel. Im Zentrum dieser technologischen Umwälzung steht die Transformer-Architektur, die den großen Sprachmodellen wie GPT ihre außerordentlichen Fähigkeiten verleiht. Dieser Beitrag beleuchtet die Grundzüge dieser Architektur, deren Flexibilität und Leistungsstärke traditionelle statistische Modelle weit hinter sich lässt.

von Marvin Forstreuter, Adesso

Die Transformer-Architektur, das Herzstück moderner Sprachverarbeitung, ermöglicht eine effizientere Datenverarbeitung und bietet somit eine Grundlage für präzisere und kontextbezogene Analysen. Ihre Fähigkeit, komplexe Zusammenhänge zu verstehen, macht sie zu einem unverzichtbaren Instrument in der Entwicklung von Softwarelösungen.

Untersucht wird, wie führende Sprachmodelle wie Googles BARD oder OpenAIs GPT-4 durch den Einsatz der Transformer-Architektur komplexe neuronale Netzwerke erschaffen, die wiederum die Basis für die nächste Generation von Entwicklungstools in der Finanzbranche bilden.”

Abschließend wird ein Ausblick darauf gegeben, wie Large Language Models (LLMs) insbesondere im Bereich der Softwareentwicklung für Banken und Versicherungen, die unter die Aufsicht der BaFin fallen, die Arbeitsweise revolutionieren können.

Ein Sprachmodell ist vereinfacht beschrieben das Verständnis, das ein Computer über die menschliche Sprache entwickelt hat. Es wird genutzt, um Wortfolgewahrscheinlichkeiten zu berechnen. Moderne Sprachmodelle, insbesondere LLMs, berechnen diese Wortfolgewahrscheinlichkeit mithilfe eines künstlichen neuronalen Netzes.

Der Erfolg von neuronalen Sprachmodellen wie ChatGPT oder Copilot hängt im Wesentlichen von der zugrundeliegenden Architektur ab. Die Architektur bestimmt, wie ein Sprachmodell die Eingabe verarbeitet, um Wortfolgevorhersagen zu treffen.”

Marvin Forstreuter, Adesso
Marvin Forstreuter, Soft­ware­ent­wick­ler in der Busi­ness Li­ne In­suran­ce bei Adesso
Adesso

Marvin Forstreuter ab­sol­vier­te sein Stu­di­um der An­ge­wand­ten In­for­ma­tik an der Uni­ver­si­tät Hil­des­heim und spe­zia­li­sier­te sich in sei­ner Mas­ter­ar­beit auf ma­schi­nel­le Sprach­ver­ar­bei­tung. Zu sei­nen fach­li­chen Schwer­punk­ten zäh­len die Test­au­to­ma­ti­on und Soft­ware­ent­wick­lung mit Ja­va. Er ar­bei­tet ak­tu­ell als Soft­ware­ent­wick­ler in der Busi­ness Li­ne In­suran­ce bei Adesso (Website), wo er sein Fach­wis­sen und sei­ne Lei­den­schaft für Tech­no­lo­gie einsetzt.

Herkömmliche neuronale Ansätze wie Recurrent Neuronal Networks (RNNs) oder CNNs (Convolutional Neural Networks) verarbeiten die Eingabe sequenziell, was die begrenzte Fähigkeit zur Folge hat, lange Abhängigkeiten zwischen verschiedenen Teilen der Eingabe zu erfassen. Diese Herausforderung führte zu einem Wendepunkt in der Technologieentwicklung von neuronalen Netzwerken.

Der entscheidende Fortschritt in der Entwicklung neuronaler Netzwerke war nicht die Optimierung von RNNs durch LSTMs (Long-Short-Term Memory) und GRUs (Gated Recurrent Unit), sondern die Einführung der Transformer-Architektur, die den Attention-Mechanismus nutzt, um langfristige Abhängigkeiten besser zu verarbeiten.”

Die Transformer-Architektur und der Attention-Mechanismus werden nachfolgend genauer erläutert.

Die Transformer Architektur – Ausgangspunkt der Revolution

Ein neuronales Netz kann als ein System verschiedener abstrakter neuronaler Module aufgefasst werden. Diese Module können in einer bestimmten Art und Weise zusammengebaut werden und ihrerseits wiederum aus mehreren Teilmodulen bestehen – ähnlich, wie es bei Atomen in Materie der Fall ist. Die Kunst bei der Entwicklung solcher Netze ist es, eine besonders geschickte Art zu finden, wie die einzelnen Bausteine miteinander verbunden werden, um ein gegebenes Problem möglichst effizient zu lösen oder es überhaupt lösbar zu gestalten. In der maschinellen Sprachverarbeitung hat sich die Transformer-Architektur als effektive Kombination modularer Gruppen für optimiertes Natural Language Processing (NLP) und Natural Language Generation (NLG) etabliert.

Vereinfacht gesagt ist die Transformer Architektur ein Bauplan für in Serie geschaltete Kodierer und Dekodierer, die jeweils ein „Transformer-Modul“ bilden.”

Ein Kodierer-Baustein transformiert die Eingabedaten in eine interne Repräsentation, während ein Dekodier-Baustein die interne Repräsentation in eine menschenlesbare Ausgabesequenz transformiert. Kodierer und Dekodierer bestehen ihrerseits wiederum aus einem mehrschichtigen neuronalen Feedforward-Netz (rückkopplungslose Netze) und einer verbesserten Variante des Attention-Mechanimus, der „Self Attention“ genannt wird.

Der Attention-Mechanismus verleiht dem Modell eine Art selektives Gedächtnis, das wichtige Kontextinformationen hervorhebt und beibehält, während unwichtige Informationen in den Hintergrund treten.”

Durch Self Attention wird die Beziehung zwischen Wörtern besser identifiziert und das Satzverständnis gefördert. In der Transformer-Architektur werden mehrere Feed-Forward-Netze mit Self-Attention parallel eingesetzt und ihre Ausgabe wird zusammengefügt. Dieses Verfahren wird „Multi-Head Attention“ genannt. Alle führenden Sprachmodelle wie Googles GEMINI oder OpenAIs GPT-4 basieren auf der Transformer-Architektur.

Die Transformer-Architektur: gewaltiges Potenzial, aber nicht ohne Risiken

Für Softwareentwickler von BaFin-regulierten Unternehmen, die mit der Verarbeitung komplexer Finanzdaten und der Einhaltung strenger Compliance-Anforderungen konfrontiert sind, ermöglicht die parallele Verarbeitungsfähigkeit der Transformer-Architektur eine erhebliche Verbesserung der Datenanalyse.

Die Fähigkeit, große Volumina an Textdaten zu interpretieren und dabei feine, kontextuelle Nuancen zu berücksichtigen, ist nicht nur in der Softwareentwicklung von Vorteil, sondern auch besonders wertvoll für die Analyse von Vertragsdokumenten, regulatorischen Einreichungen und Kundenkommunikation.”

GitHubs Copilot, angetrieben durch GPT-4, illustriert das Potenzial dieser Technologie eindrucksvoll: Es bietet nicht nur Code-Fragmente basierend auf dem Kontext eines Projekts an, sondern kann auch vollständige Programmierprototypen generieren. Ein Laie könnte sich jetzt folgende Frage stellen: Werden in Zukunft keine Softwareentwickler mehr benötigt? Die Antwort ist einfach: Wohl kaum! Auch der Programmiercode einer KI ist nicht unfehlbar. Es muss sichergestellt werden, dass die KI die Anforderung des Entwicklers (den sog. „Prompt“) richtig verstanden und umgesetzt hat.

So ist es also möglich, dass die generative KI dazu neigt, Funktionsaufrufe zu verwenden, die in der gewählten Programmiersprache nicht existieren oder Programmcode erzeugt, der im schlimmsten Fall mehr beschädigt, als er nutzt.”

Wenn dieser generierte Code dann unachtsam implementiert wird, kann er zu kritischen Fehlern in der Software führen. Zum Beispiel, wenn bestimmte Programmparameter oder Konfigurationswerte überschrieben werden, weil der von der KI erzeugte Programmcode (z. B. ein regulärer Ausdruck) vom Anwender nicht vollends verstanden und ohne weitere Überprüfung implementiert wurde. Die darauffolgende Fehlersuche kann langwierig und teuer werden.

Ausblick

Die Anwendung von LLMs wie Copilot und ChatGPT in der Entwicklungsumgebung verspricht eine Beschleunigung des Entwicklungsprozesses, insbesondere in Verbindung mit CI/CD-Pipelines, und unterstützt so die schnelle Bereitstellung von Prototypen und die Implementierung von Feedback in Echtzeit. Vorausgesetzt, die Entwickler setzen diese KI-Tools bewusst ein. Insbesondere in der Versicherungsbranche zeigen sich vielfältige Anwendungsmöglichkeiten. Sie können komplexe Anforderungen, die sich aus komplexen Vertragsbedingungen oder Policen ergeben, analysieren und in verständliche Sprache für die Entwickler übersetzen oder gleich in entsprechende Aufgaben umwandeln.

Letztlich bieten LLMs in der Softwareentwicklung für die Versicherungsbranche damit die Möglichkeit, die Kommunikation zwischen Fachbereich (als Nutzer) und Entwicklung deutlich zu optimieren und somit letztendlich die Benutzerfreundlichkeit zu erhöhen.”

Durch die herausragende Datenverarbeitungsfähigkeit der LLMs kann Feedback, beispielsweise aus der Nutzung eines ersten Prototyps, schneller verarbeitet werden. So können innovative digitale Produkte schneller auf den Markt gebracht werden. Es ist klar, dass diese Sprachmodelle nicht nur eine vorübergehende Erscheinung sind, sondern die Art und Weise, wie wir Software entwickeln und einsetzen, nachhaltig prägen werden. Marvin Forstreuter, Adesso

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert