Neuronale Netzwerke verstehen: Grundlagen, Berechnung von Hand und LLM-Bezug

Neuronale Netzwerke verstehen
Grundlagen, Berechnung von Hand und Bezug zu LLMs

Von Gewichten, Bias und Aktivierungsfunktionen bis Backpropagation, Deep Learning und Transformer-Netzen

Titelgrafik zu neuronalen Netzwerken hinter LLMs mit Layern, Gewichten, Aktivierungen und Trainingsfluss — Schichtenaufbau eines tiefen neuronalen Netzwerks als Grundlage moderner Sprachmodelle mit Gewichten, Aktivierungen und Optimierung.

Kurzfassung: Dieser Bericht erklärt neuronale Netzwerke von der Basis her: erst mit konkreten Handrechnungen und Aktivierungsfunktionen, danach mit dem Übergang zu Deep Learning, Transformern und LLMs.

Weiterführende Berichte: Für die konkrete Architektur siehe Wie funktioniert ein Transformer?. Für die Vektorrepräsentation der Eingangssymbole siehe Embeddings und Vektorräume in neuronalen Netzen.

1. Was ist ein neuronales Netzwerk?

Ein neuronales Netzwerk ist eine parametrisierte Funktion \(f_{\theta}\), die eine Eingabe in eine Ausgabe überführt. Die Parameter \(\theta\) werden nicht manuell festgelegt, sondern aus Daten gelernt.

\[ y = f_{\theta}(x) \]

Historisch war die Idee von biologischen Neuronen inspiriert, technisch handelt es sich jedoch um ein Rechensystem aus gewichteten Summen, nichtlinearen Funktionen und vielen hintereinandergeschalteten Schichten.

2. Lineare Schichten, Gewichte und Handrechnung

Die elementare Recheneinheit vieler Netze ist die affine Transformation:

\[ z = Wx + b \]

\(W\) ist eine Gewichtsmatrix, \(b\) ein Bias-Vektor. Ohne Nichtlinearitäten wäre das gesamte Netz am Ende nur wieder eine lineare Abbildung. Die wirkliche Ausdrucksstärke entsteht erst durch das Zusammenspiel mit Aktivierungsfunktionen.

In LLMs tauchen solche Matrizen überall auf: bei Embeddings, in Attention-Projektionen, in Feed-Forward-Netzen und in der Ausgabeprojektion auf das Vokabular.

Ein einzelnes Neuron von Hand berechnen

Ein künstliches Neuron berechnet zunächst eine gewichtete Summe seiner Eingänge und addiert einen Bias. Dadurch entsteht ein klar definierter Zwischenwert, den man vollständig von Hand ausrechnen kann.

\[ z = w_1x_1 + w_2x_2 + b \]

Wählen wir \(x_1 = 2\), \(x_2 = 3\), \(w_1 = 0.5\), \(w_2 = -1.0\) und \(b = 0.2\), dann ergibt sich:

\[ z = 0.5 \cdot 2 + (-1.0) \cdot 3 + 0.2 = 1 - 3 + 0.2 = -1.8 \]

Dieser Wert \(z\) wird oft Präaktivierung oder Nettoeingang genannt. Erst im Anschluss entscheidet die Aktivierungsfunktion, wie dieser Zwischenwert an die nächste Schicht weitergegeben wird.

Eine kleine Schicht mit zwei Neuronen berechnen

Eine ganze Schicht besteht aus mehreren solchen Neuronen, die dieselbe Eingabe sehen, aber unterschiedliche Gewichte und Bias-Werte haben. Dadurch entstehen aus einem Eingabevektor mehrere parallele Ausgangswerte.

Für \(x=\begin{bmatrix}1\\2\end{bmatrix}\), \(W=\begin{bmatrix}1.0 & 0.5\\-0.5 & 2.0\end{bmatrix}\) und \(b=\begin{bmatrix}0.1\\-0.2\end{bmatrix}\) folgt:

\[ z = Wx+b = \begin{bmatrix} 1.0\cdot1 + 0.5\cdot2\\ -0.5\cdot1 + 2.0\cdot2 \end{bmatrix} + \begin{bmatrix} 0.1\\ -0.2 \end{bmatrix} = \begin{bmatrix} 2.1\\ 3.3 \end{bmatrix} \]

Dieses Beispiel zeigt die übliche Matrixschreibweise eines Netzwerks in kompakter Form. Inhaltlich steckt dahinter aber immer noch dieselbe elementare Rechnung aus Multiplikation, Addition und Bias-Verschiebung.

3. Aktivierungsfunktionen mit Zahlenbeispielen

Aktivierungsfunktionen erzeugen die Nichtlinearität, die für komplexe Merkmalsräume notwendig ist. Klassische Beispiele sind Sigmoid, tanh oder ReLU. In modernen Transformern dominieren meist GELU und SwiGLU.

\[ y = \sigma(Wx+b) \]

Für Ingenieure ist der Vergleich hilfreich: Eine lineare Kette kann nur lineare Systeme modellieren. Erst Nichtlinearität erlaubt Sättigung, Schwellenverhalten, komplexe Kopplung und hochdimensionale Approximation.

ReLU als einfachste technische Kennlinie

Die ReLU-Funktion lautet \(\mathrm{ReLU}(z)=\max(0,z)\) und kappt alle negativen Werte bei Null. Für unseren zuvor berechneten Zwischenwert \(z=-1.8\) folgt direkt \(\mathrm{ReLU}(-1.8)=0\).

Für einen positiven Wert wie \(z=2.1\) bleibt das Signal dagegen erhalten, also \(\mathrm{ReLU}(2.1)=2.1\). Ingenieurmässig entspricht das einer einfachen nichtlinearen Kennlinie mit unterdrücktem negativen Bereich.

Sigmoid als glatte Wahrscheinlichkeitsabbildung

Die Sigmoid-Funktion bildet beliebige Eingaben auf den Bereich zwischen 0 und 1 ab und eignet sich damit gut für Ausgaben, die als Wahrscheinlichkeit gelesen werden sollen. Formal gilt:

\[ \sigma(z)=\frac{1}{1+e^{-z}} \]

Setzen wir \(z=-1.8\) ein, erhalten wir \(\sigma(-1.8)=\frac{1}{1+e^{1.8}}\approx \frac{1}{1+6.05}\approx 0.142\). Für \(z=2.1\) ergibt sich entsprechend \(\sigma(2.1)=\frac{1}{1+e^{-2.1}}\approx \frac{1}{1+0.122}\approx 0.891\).

tanh als um Null zentrierte Aktivierung

Die Funktion \(\tanh(z)\) ist ähnlich wie Sigmoid, liefert aber Werte zwischen -1 und 1 und ist um Null zentriert. Dadurch lassen sich positive und negative Aktivierungen symmetrischer darstellen.

\[ \tanh(z)=\frac{e^z-e^{-z}}{e^z+e^{-z}} \]

Für \(z=2.1\) erhält man näherungsweise \(\tanh(2.1)\approx 0.97\), für \(z=-1.8\) entsprechend \(\tanh(-1.8)\approx -0.95\). Man sieht daran gut, wie tanh grosse Beträge in einen begrenzten Bereich komprimiert, ohne das Vorzeichen zu verlieren.

4. Warum viele Schichten?

Tiefe Netze lernen hierarchische Repräsentationen. Untere Schichten erfassen einfache Muster, höhere Schichten zusammengesetzte Strukturen. In der Sprachverarbeitung kann man sich das so vorstellen:

untere Schichten: lokale Tokenmuster und Syntax,
mittlere Schichten: Beziehungen und Struktur,
obere Schichten: abstraktere semantische oder aufgabenbezogene Merkmale.

Genau deshalb spricht man bei LLMs von Deep Learning: Die Leistung entsteht nicht aus einer einzelnen Rechenschicht, sondern aus vielen gestapelten Transformationen.

5. Backpropagation und Lernen

Das Netz wird trainiert, indem ein Fehler zwischen Vorhersage und Ziel berechnet und dann über die Kettenregel rückwärts durch das Netz propagiert wird.

\[ \frac{\partial L}{\partial \theta} \]

Diese Gradienten sagen, wie die Parameter geändert werden müssen, damit der Fehler kleiner wird. Ohne Backpropagation wären heutige Netze dieser Grösse praktisch nicht trainierbar.

Technisch bedeutet das: Jede Schicht liefert nicht nur eine Vorwärtsabbildung, sondern auch einen Anteil zur Fehlerweitergabe. Die Kettenregel verbindet alle Teilterme. Genau deshalb sind saubere Gradientenflüsse, Residual-Verbindungen und Normierung in tiefen Netzen so wichtig.

6. Optimierung in der Praxis

Ein einfacher Gradientenabstieg würde lauten:

\[ \theta_{t+1} = \theta_t - \eta \nabla_{\theta}L \]

In der Praxis werden bei LLMs meist Adam oder AdamW eingesetzt. Dazu kommen Warmup, Learning-Rate-Schedules, Mixed Precision, Gradient Clipping und verteiltes Training. Das Netz ist also nicht nur ein mathematisches Objekt, sondern ein komplexes Optimierungsproblem.

Aus Ingenieurssicht ist das vergleichbar mit der Identifikation eines stark nichtlinearen Systems unter Ressourcenbeschränkungen. Nicht nur das Modell selbst, sondern auch Numerik, Stabilität und Hardware spielen eine zentrale Rolle für das Endergebnis.

7. Repräsentationslernen statt Hand-Engineering

Ein zentraler Unterschied zu vielen klassischen ML-Pipelines ist, dass neuronale Netze ihre Merkmale selbst lernen. Statt von Hand definierter Feature-Vektoren entstehen die nützlichen Repräsentationen direkt aus der Optimierung auf die Zielfunktion.

Bei LLMs bedeutet das: Nicht nur die Ausgabegewichte, sondern auch Embeddings, innere Zustände, Attention-Projektionen und semantische Strukturen werden gemeinsam gelernt. Das ist einer der Hauptgründe, warum moderne Sprachmodelle deutlich flexibler als klassische NLP-Pipelines sind.

8. Wie daraus ein LLM wird

Bei einem LLM ist die Eingabe eine Tokenfolge. Diese Tokens werden in Vektoren umgewandelt, durch viele Transformer-Schichten verarbeitet und am Ende auf das Vokabular projiziert. Das Ziel ist typischerweise:

\[ P(x_t \mid x_1, \ldots, x_{t-1}) \]

Ein LLM ist also ein tiefes neuronales Netzwerk mit einer sehr spezifischen Aufgabe: Sprachstruktur so zu modellieren, dass das nächste Token möglichst präzise vorhergesagt wird.

9. Transformer als spezielle Netzarchitektur

Der Transformer ist die konkrete Netzarchitektur, die moderne LLMs antreibt. Er kombiniert:

Embeddings als Eingangsrepräsentation,
Self-Attention für kontextabhängige Kopplung,
Feed-Forward-Netze für nichtlineare Merkmalsextraktion,
Residual-Verbindungen und LayerNorm zur Stabilisierung.

Wichtig: Ein LLM ist also nicht nur „Statistik über Text“, sondern auch ganz konkret ein grosses Transformer-Netz mit Milliarden Parametern.

Genau an dieser Stelle verzweigt sich das Thema sinnvoll in Spezialberichte: Die Architektur selbst wird in Wie funktioniert ein Transformer? detailliert behandelt, während die Eingangsrepräsentation und semantische Geometrie im Bericht Embeddings und Vektorräume in neuronalen Netzen vertieft wird.

10. Bezug zur Elektrotechnik

Ingenieurssicht: Neuronale Netze lassen sich sehr gut als parametrisierte mehrstufige Signalverarbeitungssysteme lesen.

Jede Schicht transformiert einen Eingangsvektor in einen Ausgangsvektor. Damit ähnelt ein Netz einer Signalkette mit linearen Blöcken, nichtlinearen Elementen, Verstärkung, Normierung und Rückkopplung über den Optimierungsprozess.

Auch Themen wie Zustandsraum, Approximation, Systemidentifikation, Stabilität und Hardwarebeschleunigung sind für Elektrotechniker bestens vertraut. Der Unterschied liegt primär in Datenmenge, Skalierung und hochdimensionalen Merkmalsräumen.

11. Fazit

Wer LLMs verstehen will, muss neuronale Netze verstehen. Ein Sprachmodell ist kein losgelöstes KI-Konzept, sondern ein tiefes Netz, dessen Gewichte über riesige Textmengen optimiert wurden.

Transformer, Attention, Embeddings und Output-Logits sind nur unterschiedliche Bausteine desselben zugrunde liegenden Prinzips: ein trainiertes neuronales Netzwerk approximiert eine komplexe Funktion über Sprache.

Wer die Handrechnung eines einzelnen Neurons, die Matrixrechnung einer kleinen Schicht und die Wirkung von ReLU, Sigmoid oder tanh verstanden hat, hat bereits das Fundament für alle späteren Spezialthemen gelegt.

Für die praktische Vertiefung empfehlen sich als nächste Schritte Wie funktioniert ein Transformer? und Embeddings und Vektorräume in neuronalen Netzen.

Autor: Ruedi von Kryentech

Erstellt am: 14.04.2026 · Zuletzt aktualisiert: 14.04.2026

Fachlicher Stand zum Zeitpunkt der letzten Aktualisierung.

Neuronale Netzwerke verstehenGrundlagen, Berechnung von Hand und Bezug zu LLMs

1. Was ist ein neuronales Netzwerk?

2. Lineare Schichten, Gewichte und Handrechnung

Ein einzelnes Neuron von Hand berechnen

Eine kleine Schicht mit zwei Neuronen berechnen

3. Aktivierungsfunktionen mit Zahlenbeispielen

ReLU als einfachste technische Kennlinie

Sigmoid als glatte Wahrscheinlichkeitsabbildung

tanh als um Null zentrierte Aktivierung

4. Warum viele Schichten?

5. Backpropagation und Lernen

6. Optimierung in der Praxis

7. Repräsentationslernen statt Hand-Engineering

8. Wie daraus ein LLM wird

9. Transformer als spezielle Netzarchitektur

10. Bezug zur Elektrotechnik

11. Fazit

Neuronale Netzwerke verstehen
Grundlagen, Berechnung von Hand und Bezug zu LLMs