Wie funktioniert ein Transformer?

Ausführlicher Technikbericht zu Self-Attention, QKV, Multi-Head, LayerNorm und Kausalmaske

Titelgrafik zum Transformer mit Self-Attention, QKV, Transformer-Block und Signalfluss — Überblick über den Aufbau eines Transformer-Netzwerks mit Attention, Signalfluss und zentralen Verarbeitungsblöcken.

Kurzfassung: Ein Transformer ist ein tiefes neuronales Netzwerk, das Sequenzen nicht nur Schritt für Schritt verarbeitet, sondern über Self-Attention globale Kontextbeziehungen zwischen allen Tokens modelliert.

Weiterführende Berichte: Für die neuronalen Grundlagen siehe Neuronale Netzwerke hinter LLMs. Für die Eingangsrepräsentation der Tokens siehe Embeddings und Vektorräume in neuronalen Netzen.

1. Warum Transformer?

Vor dem Transformer dominierten für Sprachverarbeitung vor allem rekurrente Netze wie LSTM oder GRU. Diese Modelle verarbeiten Text streng sequenziell. Das ist intuitiv, aber bei langen Abhängigkeiten ungünstig: Informationen aus weit entfernten Positionen müssen über viele Zeitschritte transportiert werden.

Der Transformer löst genau dieses Problem, indem jedes Token direkt auf andere Tokens zugreifen kann. Dadurch wird die Modellierung globaler Zusammenhänge deutlich einfacher. Gleichzeitig eignet sich die Architektur hervorragend für parallele Berechnung auf GPUs.

\[ y = f_{\theta}(x_1, x_2, \ldots, x_n) \]

Entscheidend ist hier: Die Funktion wird nicht mehr nur lokal über Nachbarschaft oder Zeit rekonstruiert, sondern global über ein lernbares Gewichtungssystem zwischen allen Positionen.

2. Unterschied zu einem klassischen neuronalen Netzwerk

Ein „klassisches“ neuronales Netzwerk verarbeitet eine Eingabe meist über feste Gewichtsmatrizen Schicht für Schicht. Die Struktur der Verknüpfungen ist dabei vorgegeben: Jede Schicht sieht nur die Ausgabe der vorherigen Schicht, aber nicht dynamisch den gesamten Kontext einer Sequenz.

Ein Transformer ist ebenfalls ein neuronales Netzwerk, erweitert dieses Prinzip aber um Self-Attention. Dadurch werden die Verbindungsgewichte zwischen Tokenpositionen nicht statisch festgelegt, sondern aus den Daten selbst berechnet. Genau das ist der zentrale Unterschied.

Klassisches Beispiel: Feed-Forward-Netz

Ein einfaches neuronales Netz mit einer linearen Schicht und Aktivierung berechnet etwa:

\[ y = \sigma(Wx+b) \]

Nehmen wir als Beispiel \(x=\begin{bmatrix}1\\2\end{bmatrix}\), \(W=\begin{bmatrix}0.5 & 1.0\\-1.0 & 2.0\end{bmatrix}\) und \(b=\begin{bmatrix}0\\1\end{bmatrix}\). Dann ergibt sich zunächst

\[ Wx+b= \begin{bmatrix} 0.5\cdot1 + 1.0\cdot2\\ -1.0\cdot1 + 2.0\cdot2 \end{bmatrix} + \begin{bmatrix} 0\\1 \end{bmatrix} = \begin{bmatrix} 2.5\\4 \end{bmatrix} \]

Danach wird eine Aktivierung angewendet. Wichtig ist: Die Gewichte in \(W\) sind fest für alle Eingaben. Das Netz reagiert also auf Eingaben immer mit derselben Verbindungsstruktur.

Transformer-Beispiel: adaptive Gewichtung

Ein Transformer arbeitet anders. Für eine Position \(i\) wird nicht nur eine feste Matrix angewendet, sondern die Bedeutung anderer Positionen wird dynamisch gewichtet:

\[ y_i=\sum_j w_{ij}x_j \]

Angenommen, drei Token hätten die Gewichte \(w_{i1}=0.1\), \(w_{i2}=0.7\), \(w_{i3}=0.2\). Dann fliesst Token 2 viel stärker in das Ergebnis ein als Token 1 oder 3. Bei einem anderen Satz könnten diese Gewichte völlig anders aussehen.

Genau das macht den Transformer so leistungsfähig: Er benutzt nicht nur gelernte statische Parameter, sondern zusätzlich kontextabhängige adaptive Kopplungen zwischen Positionen.

Praktischer Unterschied auf einen Blick

Aspekt	Klassisches neuronales Netz	Transformer
Verknüpfung	fest durch Gewichte \(W\)	dynamisch durch Attention-Gewichte
Kontextbezug	indirekt und lokal	direkt global über alle Positionen
Sprachmodellierung	begrenzter	deutlich stärker bei langen Abhängigkeiten

Deshalb ist ein Transformer nicht das Gegenstück zu einem neuronalen Netz, sondern eine besonders leistungsfähige Spezialform eines neuronalen Netzes für Sequenzen und Sprache.

3. Gesamte Signalpipeline

Ein Transformer für Sprache kann vereinfacht als folgende Pipeline beschrieben werden:

Text → Tokenisierung → Embeddings → Positionsinformation → Transformer-Blöcke → Logits → Wahrscheinlichkeiten

Jeder Block transformiert die aktuelle Repräsentation in eine reichere Darstellung. Am Ende steht eine Verteilung über das nächste Token. In einem LLM wird diese Berechnung autoregressiv wiederholt.

Aus Sicht der Systemtechnik ist das eine gestapelte Kette von Zustandsabbildungen. Jede Stufe nimmt einen Vektorraumzustand entgegen und erzeugt einen neuen Zustand mit höherer semantischer Dichte. Der Transformer ist deshalb nicht nur ein „Sprachtrick“, sondern eine strukturierte Signalverarbeitung auf hochdimensionalen Repräsentationen.

Stufe	Technische Aufgabe
Tokenisierung	Zerlegung des Texts in diskrete Symbole
Embeddings	Abbildung von Tokens in kontinuierliche Vektoren
Attention	Dynamische Gewichtung anderer Tokenpositionen
FFN	Nichtlineare Merkmalsverarbeitung pro Position
Output Head	Projektion auf das Vokabular

4. Self-Attention im Kern

Self-Attention beantwortet für jedes Token die Frage: Welche anderen Positionen sind für meine aktuelle Interpretation wichtig? Der Mechanismus ist dynamisch und datengesteuert. Dieselbe Architektur kann je nach Satz völlig andere Abhängigkeiten gewichten.

Beispiel: Im Satz „Der Sensor meldet einen Fehler, weil er übersteuert“ muss das Modell klären, worauf sich „er“ bezieht. Genau hier spielt Attention ihre Stärke aus.

5. Q, K, V mathematisch

Aus der Eingabematrix \(X\) werden drei Projektionen gebildet:

\[ Q = XW_Q,\qquad K = XW_K,\qquad V = XW_V \]

Dabei ist \(Q\) die Suchanfrage einer Position, \(K\) beschreibt, welche Merkmale andere Positionen anbieten, und \(V\) ist die eigentliche zu transportierende Information.

Die Attention-Berechnung lautet:

\[ \mathrm{Attention}(Q,K,V)=\mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V \]

Das Produkt \(QK^T\) misst Ähnlichkeiten. Die Division durch \(\sqrt{d_k}\) stabilisiert die Wertebereiche, sodass Softmax nicht zu schnell sättigt. Das Ergebnis ist eine gewichtete Mittelung der Value-Vektoren.

6. Multi-Head Attention

Ein einzelner Attention-Kopf kann nur eine bestimmte Projektion des Kontexts betrachten. Deshalb wird der Mechanismus mehrfach parallel ausgeführt:

\[ \mathrm{MultiHead}(X)=\mathrm{Concat}(\mathrm{head}_1,\ldots,\mathrm{head}_h)W_O \]

Jeder Kopf kann andere Muster lernen: Syntax, Koreferenz, lokale Nachbarschaften, globale Themen, Positionsbeziehungen oder numerische Struktur. Dadurch entsteht eine reichere Repräsentation.

Wichtig ist dabei: Die Köpfe werden nicht manuell spezialisiert, sondern über Training emergent geformt. Manche Köpfe verhalten sich fast wie Nachbarschaftsdetektoren, andere wie globale Sammelkanäle für Thema, Satzreferenzen oder Positionsbeziehungen. In grossen Modellen entsteht dadurch eine funktionale Arbeitsteilung.

7. Maskierung bei Sprachmodellen

In generativen Sprachmodellen darf ein Token nicht in die Zukunft schauen. Deshalb wird eine kausale Maske verwendet. Sie setzt unzulässige Verbindungen im Attention-Score vor dem Softmax auf \(-\infty\), sodass diese Positionen nach der Softmax-Berechnung exakt das Gewicht 0 erhalten.

So wird erzwungen, dass Position \(t\) nur auf Positionen \(\le t\) zugreifen darf. Ohne diese Einschränkung würde das Modell während des Trainings Informationen aus der Zukunft „abschreiben“.

8. Feed-Forward, Residuals, LayerNorm

Nach der Attention folgt ein positionsweises Feed-Forward-Netzwerk:

\[ \mathrm{FFN}(x)=W_2\,\sigma(W_1x+b_1)+b_2 \]

Dieses Teilnetz wirkt wie eine nichtlineare Merkmalsextraktion pro Token. In modernen Modellen kommen oft GELU oder SwiGLU zum Einsatz.

Residual-Verbindungen helfen beim Gradientfluss:

\[ y=x+f(x) \]

LayerNorm stabilisiert die Aktivierungen durch Normierung und lernbare Skalierung:

\[ \mathrm{LayerNorm}(x)=\gamma\cdot\frac{x-\mu}{\sqrt{\sigma^2+\varepsilon}}+\beta \]

Dabei sind \(\gamma\) und \(\beta\) lernbare Parameter, \(\varepsilon\) ein kleiner Stabilitätsterm. Zusammengenommen sorgen diese Bausteine dafür, dass sehr tiefe Netze überhaupt trainierbar bleiben.

Aus Ingenieurssicht kann man den Attention-Teil als adaptive Kopplung zwischen Positionen verstehen, während das FFN eher die lokale nichtlineare Verarbeitung innerhalb einer Position übernimmt. Erst das Zusammenspiel beider Blöcke liefert ein Modell, das sowohl globale Abhängigkeiten als auch positionsinterne Merkmalsverdichtung beherrscht.

9. Positionsinformation

Attention allein ist permutationsinvariant: Ohne Zusatzinformation wüsste das Modell nicht, was vorne oder hinten steht. Daher wird zur Tokenrepräsentation ein Positionssignal addiert oder rotiert.

\[ z_i=e_i+p_i \]

Gängige Verfahren sind sinusförmige Encodings, RoPE oder ALiBi. Aus Systemsicht entspricht das einer expliziten Einprägung von Ordnungsinformation in den Zustandsraum.

10. Komplexität und Skalierung

Die Standard-Attention kostet bei Sequenzlänge \(n\) ungefähr \(\mathcal{O}(n^2)\), weil alle Positionen mit allen anderen verglichen werden. Das ist bei langen Kontexten ein echter Flaschenhals.

Deshalb wurden zahlreiche Optimierungen entwickelt: FlashAttention, KV-Cache für Inferenz, Sparse Attention, Segmentierung oder hybride Architekturen. Der Transformer ist also nicht nur ein Modell, sondern auch ein hochoptimiertes Rechensystem.

Für reale Anwendungen ist dieser Punkt zentral: Die theoretisch elegante Architektur trifft sehr schnell auf harte Grenzen von Speicherbandbreite, Interconnects und Energieaufnahme. Transformer-Design ist deshalb immer auch Co-Design von Algorithmus und Hardware.

11. Sicht aus der Elektrotechnik

Ingenieurssicht: Ein Transformer lässt sich sehr gut als adaptives mehrstufiges Signalverarbeitungssystem interpretieren.

Attention ähnelt einem datenabhängigen Filter:

\[ y_i=\sum_j w_{ij}x_j \]

Der Unterschied zu klassischen FIR-Filtern liegt in den Koeffizienten \(w_{ij}\): Sie sind nicht fest, sondern werden aus dem Signal selbst berechnet. Dadurch wird das System adaptiv und kontextabhängig.

Auch Begriffe wie Zustandsraum, lineare Projektion, Stabilisierung durch Normierung, Parallelisierung und Speicherbandbreite sind Ingenieuren aus Signalverarbeitung, Regelung und Hardwarebeschleunigung vertraut.

12. Fazit

Ein Transformer ist ein tiefes neuronales Netzwerk, das Sprache über globale, adaptive Kontextgewichtung modelliert. Seine Stärke entsteht aus dem Zusammenspiel von Self-Attention, Multi-Head-Parallelität, Feed-Forward-Verarbeitung, Residuals, LayerNorm und effizienter GPU-Berechnung.

Genau diese Architektur ist das technische Herz moderner LLMs. Wer verstehen will, wie ChatGPT oder ähnliche Systeme funktionieren, muss den Transformer verstehen.

Wenn du den mathematischen Unterbau des Netzes vertiefen willst, lies als Nächstes Neuronale Netzwerke hinter LLMs. Wenn dich vor allem die Eingangsrepräsentation der Tokens interessiert, ist Embeddings und Vektorräume in neuronalen Netzen die passende Vertiefung.

Autor: Ruedi von Kryentech

Erstellt am: 14.04.2026 · Zuletzt aktualisiert: 14.04.2026

Fachlicher Stand zum Zeitpunkt der letzten Aktualisierung.