Wie funktioniert ein Transformer?
Ausführlicher Technikbericht zu Self-Attention, QKV, Multi-Head, LayerNorm und Kausalmaske
Kurzfassung: Ein Transformer ist ein tiefes neuronales Netzwerk, das Sequenzen nicht nur Schritt für Schritt verarbeitet, sondern über Self-Attention globale Kontextbeziehungen zwischen allen Tokens modelliert.
Weiterführende Berichte: Für die neuronalen Grundlagen siehe Neuronale Netzwerke hinter LLMs. Für die Eingangsrepräsentation der Tokens siehe Embeddings und Vektorräume in neuronalen Netzen.
1. Warum Transformer?
Vor dem Transformer dominierten für Sprachverarbeitung vor allem rekurrente Netze wie LSTM oder GRU. Diese Modelle verarbeiten Text streng sequenziell. Das ist intuitiv, aber bei langen Abhängigkeiten ungünstig: Informationen aus weit entfernten Positionen müssen über viele Zeitschritte transportiert werden.
Der Transformer löst genau dieses Problem, indem jedes Token direkt auf andere Tokens zugreifen kann. Dadurch wird die Modellierung globaler Zusammenhänge deutlich einfacher. Gleichzeitig eignet sich die Architektur hervorragend für parallele Berechnung auf GPUs.
\[ y = f_{\theta}(x_1, x_2, \ldots, x_n) \]
Entscheidend ist hier: Die Funktion wird nicht mehr nur lokal über Nachbarschaft oder Zeit rekonstruiert, sondern global über ein lernbares Gewichtungssystem zwischen allen Positionen.
2. Unterschied zu einem klassischen neuronalen Netzwerk
Ein „klassisches“ neuronales Netzwerk verarbeitet eine Eingabe meist über feste Gewichtsmatrizen Schicht für Schicht. Die Struktur der Verknüpfungen ist dabei vorgegeben: Jede Schicht sieht nur die Ausgabe der vorherigen Schicht, aber nicht dynamisch den gesamten Kontext einer Sequenz.
Ein Transformer ist ebenfalls ein neuronales Netzwerk, erweitert dieses Prinzip aber um Self-Attention. Dadurch werden die Verbindungsgewichte zwischen Tokenpositionen nicht statisch festgelegt, sondern aus den Daten selbst berechnet. Genau das ist der zentrale Unterschied.
Klassisches Beispiel: Feed-Forward-Netz
Ein einfaches neuronales Netz mit einer linearen Schicht und Aktivierung berechnet etwa:
\[ y = \sigma(Wx+b) \]
Nehmen wir als Beispiel \(x=\begin{bmatrix}1\\2\end{bmatrix}\), \(W=\begin{bmatrix}0.5 & 1.0\\-1.0 & 2.0\end{bmatrix}\) und \(b=\begin{bmatrix}0\\1\end{bmatrix}\). Dann ergibt sich zunächst
\[ Wx+b= \begin{bmatrix} 0.5\cdot1 + 1.0\cdot2\\ -1.0\cdot1 + 2.0\cdot2 \end{bmatrix} + \begin{bmatrix} 0\\1 \end{bmatrix} = \begin{bmatrix} 2.5\\4 \end{bmatrix} \]
Danach wird eine Aktivierung angewendet. Wichtig ist: Die Gewichte in \(W\) sind fest für alle Eingaben. Das Netz reagiert also auf Eingaben immer mit derselben Verbindungsstruktur.
Transformer-Beispiel: adaptive Gewichtung
Ein Transformer arbeitet anders. Für eine Position \(i\) wird nicht nur eine feste Matrix angewendet, sondern die Bedeutung anderer Positionen wird dynamisch gewichtet:
\[ y_i=\sum_j w_{ij}x_j \]
Angenommen, drei Token hätten die Gewichte \(w_{i1}=0.1\), \(w_{i2}=0.7\), \(w_{i3}=0.2\). Dann fliesst Token 2 viel stärker in das Ergebnis ein als Token 1 oder 3. Bei einem anderen Satz könnten diese Gewichte völlig anders aussehen.
Genau das macht den Transformer so leistungsfähig: Er benutzt nicht nur gelernte statische Parameter, sondern zusätzlich kontextabhängige adaptive Kopplungen zwischen Positionen.
Praktischer Unterschied auf einen Blick
| Aspekt | Klassisches neuronales Netz | Transformer |
|---|---|---|
| Verknüpfung | fest durch Gewichte \(W\) | dynamisch durch Attention-Gewichte |
| Kontextbezug | indirekt und lokal | direkt global über alle Positionen |
| Sprachmodellierung | begrenzter | deutlich stärker bei langen Abhängigkeiten |
Deshalb ist ein Transformer nicht das Gegenstück zu einem neuronalen Netz, sondern eine besonders leistungsfähige Spezialform eines neuronalen Netzes für Sequenzen und Sprache.
3. Gesamte Signalpipeline
Ein Transformer für Sprache kann vereinfacht als folgende Pipeline beschrieben werden:
Text → Tokenisierung → Embeddings → Positionsinformation → Transformer-Blöcke → Logits → Wahrscheinlichkeiten
Jeder Block transformiert die aktuelle Repräsentation in eine reichere Darstellung. Am Ende steht eine Verteilung über das nächste Token. In einem LLM wird diese Berechnung autoregressiv wiederholt.
Aus Sicht der Systemtechnik ist das eine gestapelte Kette von Zustandsabbildungen. Jede Stufe nimmt einen Vektorraumzustand entgegen und erzeugt einen neuen Zustand mit höherer semantischer Dichte. Der Transformer ist deshalb nicht nur ein „Sprachtrick“, sondern eine strukturierte Signalverarbeitung auf hochdimensionalen Repräsentationen.
| Stufe | Technische Aufgabe |
|---|---|
| Tokenisierung | Zerlegung des Texts in diskrete Symbole |
| Embeddings | Abbildung von Tokens in kontinuierliche Vektoren |
| Attention | Dynamische Gewichtung anderer Tokenpositionen |
| FFN | Nichtlineare Merkmalsverarbeitung pro Position |
| Output Head | Projektion auf das Vokabular |
4. Self-Attention im Kern
Self-Attention beantwortet für jedes Token die Frage: Welche anderen Positionen sind für meine aktuelle Interpretation wichtig? Der Mechanismus ist dynamisch und datengesteuert. Dieselbe Architektur kann je nach Satz völlig andere Abhängigkeiten gewichten.
Beispiel: Im Satz „Der Sensor meldet einen Fehler, weil er übersteuert“ muss das Modell klären, worauf sich „er“ bezieht. Genau hier spielt Attention ihre Stärke aus.
5. Q, K, V mathematisch
Aus der Eingabematrix \(X\) werden drei Projektionen gebildet:
\[ Q = XW_Q,\qquad K = XW_K,\qquad V = XW_V \]
Dabei ist \(Q\) die Suchanfrage einer Position, \(K\) beschreibt, welche Merkmale andere Positionen anbieten, und \(V\) ist die eigentliche zu transportierende Information.
Die Attention-Berechnung lautet:
\[ \mathrm{Attention}(Q,K,V)=\mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V \]
Das Produkt \(QK^T\) misst Ähnlichkeiten. Die Division durch \(\sqrt{d_k}\) stabilisiert die Wertebereiche, sodass Softmax nicht zu schnell sättigt. Das Ergebnis ist eine gewichtete Mittelung der Value-Vektoren.
6. Multi-Head Attention
Ein einzelner Attention-Kopf kann nur eine bestimmte Projektion des Kontexts betrachten. Deshalb wird der Mechanismus mehrfach parallel ausgeführt:
\[ \mathrm{MultiHead}(X)=\mathrm{Concat}(\mathrm{head}_1,\ldots,\mathrm{head}_h)W_O \]
Jeder Kopf kann andere Muster lernen: Syntax, Koreferenz, lokale Nachbarschaften, globale Themen, Positionsbeziehungen oder numerische Struktur. Dadurch entsteht eine reichere Repräsentation.
Wichtig ist dabei: Die Köpfe werden nicht manuell spezialisiert, sondern über Training emergent geformt. Manche Köpfe verhalten sich fast wie Nachbarschaftsdetektoren, andere wie globale Sammelkanäle für Thema, Satzreferenzen oder Positionsbeziehungen. In grossen Modellen entsteht dadurch eine funktionale Arbeitsteilung.
7. Maskierung bei Sprachmodellen
In generativen Sprachmodellen darf ein Token nicht in die Zukunft schauen. Deshalb wird eine kausale Maske verwendet. Sie setzt unzulässige Verbindungen im Attention-Score vor dem Softmax auf \(-\infty\), sodass diese Positionen nach der Softmax-Berechnung exakt das Gewicht 0 erhalten.
So wird erzwungen, dass Position \(t\) nur auf Positionen \(\le t\) zugreifen darf. Ohne diese Einschränkung würde das Modell während des Trainings Informationen aus der Zukunft „abschreiben“.
8. Feed-Forward, Residuals, LayerNorm
Nach der Attention folgt ein positionsweises Feed-Forward-Netzwerk:
\[ \mathrm{FFN}(x)=W_2\,\sigma(W_1x+b_1)+b_2 \]
Dieses Teilnetz wirkt wie eine nichtlineare Merkmalsextraktion pro Token. In modernen Modellen kommen oft GELU oder SwiGLU zum Einsatz.
Residual-Verbindungen helfen beim Gradientfluss:
\[ y=x+f(x) \]
LayerNorm stabilisiert die Aktivierungen durch Normierung und lernbare Skalierung:
\[ \mathrm{LayerNorm}(x)=\gamma\cdot\frac{x-\mu}{\sqrt{\sigma^2+\varepsilon}}+\beta \]
Dabei sind \(\gamma\) und \(\beta\) lernbare Parameter, \(\varepsilon\) ein kleiner Stabilitätsterm. Zusammengenommen sorgen diese Bausteine dafür, dass sehr tiefe Netze überhaupt trainierbar bleiben.
Aus Ingenieurssicht kann man den Attention-Teil als adaptive Kopplung zwischen Positionen verstehen, während das FFN eher die lokale nichtlineare Verarbeitung innerhalb einer Position übernimmt. Erst das Zusammenspiel beider Blöcke liefert ein Modell, das sowohl globale Abhängigkeiten als auch positionsinterne Merkmalsverdichtung beherrscht.
9. Positionsinformation
Attention allein ist permutationsinvariant: Ohne Zusatzinformation wüsste das Modell nicht, was vorne oder hinten steht. Daher wird zur Tokenrepräsentation ein Positionssignal addiert oder rotiert.
\[ z_i=e_i+p_i \]
Gängige Verfahren sind sinusförmige Encodings, RoPE oder ALiBi. Aus Systemsicht entspricht das einer expliziten Einprägung von Ordnungsinformation in den Zustandsraum.
10. Komplexität und Skalierung
Die Standard-Attention kostet bei Sequenzlänge \(n\) ungefähr \(\mathcal{O}(n^2)\), weil alle Positionen mit allen anderen verglichen werden. Das ist bei langen Kontexten ein echter Flaschenhals.
Deshalb wurden zahlreiche Optimierungen entwickelt: FlashAttention, KV-Cache für Inferenz, Sparse Attention, Segmentierung oder hybride Architekturen. Der Transformer ist also nicht nur ein Modell, sondern auch ein hochoptimiertes Rechensystem.
Für reale Anwendungen ist dieser Punkt zentral: Die theoretisch elegante Architektur trifft sehr schnell auf harte Grenzen von Speicherbandbreite, Interconnects und Energieaufnahme. Transformer-Design ist deshalb immer auch Co-Design von Algorithmus und Hardware.
11. Sicht aus der Elektrotechnik
Ingenieurssicht: Ein Transformer lässt sich sehr gut als adaptives mehrstufiges Signalverarbeitungssystem interpretieren.
Attention ähnelt einem datenabhängigen Filter:
\[ y_i=\sum_j w_{ij}x_j \]
Der Unterschied zu klassischen FIR-Filtern liegt in den Koeffizienten \(w_{ij}\): Sie sind nicht fest, sondern werden aus dem Signal selbst berechnet. Dadurch wird das System adaptiv und kontextabhängig.
Auch Begriffe wie Zustandsraum, lineare Projektion, Stabilisierung durch Normierung, Parallelisierung und Speicherbandbreite sind Ingenieuren aus Signalverarbeitung, Regelung und Hardwarebeschleunigung vertraut.
12. Fazit
Ein Transformer ist ein tiefes neuronales Netzwerk, das Sprache über globale, adaptive Kontextgewichtung modelliert. Seine Stärke entsteht aus dem Zusammenspiel von Self-Attention, Multi-Head-Parallelität, Feed-Forward-Verarbeitung, Residuals, LayerNorm und effizienter GPU-Berechnung.
Genau diese Architektur ist das technische Herz moderner LLMs. Wer verstehen will, wie ChatGPT oder ähnliche Systeme funktionieren, muss den Transformer verstehen.
Wenn du den mathematischen Unterbau des Netzes vertiefen willst, lies als Nächstes Neuronale Netzwerke hinter LLMs. Wenn dich vor allem die Eingangsrepräsentation der Tokens interessiert, ist Embeddings und Vektorräume in neuronalen Netzen die passende Vertiefung.
Autor: Ruedi von Kryentech
Erstellt am: 14.04.2026 · Zuletzt aktualisiert: 14.04.2026
Fachlicher Stand zum Zeitpunkt der letzten Aktualisierung.