GGUF-Quantisierung erklärt (Q4 vs Q8 vs FP16): Was läuft auf einem Laptop
Wenn du schon einmal ein lokales LLM heruntergeladen und Dateien mit Namen wie Q4_K_M, Q5_K_S, Q8_0 oder FP16 gesehen hast, bist du der Quantisierung begegnet — dem wichtigsten Konzept, um KI-Modelle auf einem gebrauchten Laptop laufen zu lassen. Die Quantisierung sorgt dafür, dass ein Modell, das in voller Präzision 13 GB braucht, in 4 GB VRAM läuft, mit kaum spürbarem Qualitätsverlust. Wenn du sie verstehst, weißt du genau, welche Modelle dein Laptop ausführen kann, bevor du eine 10-GB-Datei herunterlädst, die nicht laden wird.
Dieser Leitfaden erklärt die GGUF-Quantisierung in einfachen Worten, zeigt den Kompromiss zwischen Qualität und Speicher und gibt dir eine Tabelle, welcher Quant in 4, 6, 8 und 16 GB VRAM passt.
Was Quantisierung tatsächlich macht
Ein neuronales Netz besteht aus Milliarden von Zahlen (Gewichten). Beim Training eines Modells wird jedes Gewicht als 16-Bit-Zahl gespeichert — FP16 oder BF16, für unsere Zwecke „volle Präzision”. Ein Modell mit 7 Milliarden Parametern in FP16 ist etwa 13 GB groß, denn 7 Milliarden Gewichte × 2 Byte ≈ 14 GB.
Die Quantisierung speichert jedes Gewicht mit weniger Bits — 8, 5, 4, sogar 2 — indem sie den Wertebereich auf ein kleineres Raster abbildet. Der Tauschhandel ist einfach:
- Weniger Bits → kleinere Datei, weniger VRAM/RAM, schnelleres Laden.
- Weniger Bits → etwas ungenauere Gewichte → geringfügig schlechtere Ausgabequalität.
Die bemerkenswerte Erkenntnis der letzten Jahre ist, dass große Sprachmodelle dies außerordentlich gut vertragen. Der Sprung von 16 Bit auf 4 Bit verkleinert ein Modell um ~70 %, während der allergrößte Teil seiner Qualität für Chat, Coding und Zusammenfassungen erhalten bleibt. Genau das ist der Grund, warum lokale KI auf bescheidener Hardware überhaupt möglich ist — und warum VRAM die wichtigste Spezifikation ist, wenn man einen Laptop kauft.
GGUF und die K-Quants
GGUF ist das Dateiformat von llama.cpp und Ollama — den beiden Werkzeugen, mit denen die meisten lokale Modelle ausführen. Eine GGUF-Datei bündelt die quantisierten Gewichte plus Metadaten, sodass jede kompatible Laufzeitumgebung sie laden kann. Die Benennung wirkt kryptisch, lässt sich aber sauber entschlüsseln:
- Die Zahl steht für die Bits pro Gewicht:
Q4≈ 4-Bit,Q5≈ 5-Bit,Q8≈ 8-Bit. _Kbedeutet ein K-Quant — ein cleveres Schema, das die Präzision über das Modell hinweg variiert und die empfindlichsten Gewichte schützt._S,_M,_Lsind die Varianten klein / mittel / groß des K-Quants:Q4_K_Mbehält etwas mehr Präzision alsQ4_K_S.Q8_0undQ4_0sind ältere „Legacy”-Quants ohne K-Schema — bei gleicher Größe in der Regel von den K-Quants abgelöst.
Für fast jeden ist Q4_K_M die Standardwahl: die beste Balance aus Größe, Tempo und Qualität. Steige auf Q5_K_M oder Q6_K um, wenn du Speicher übrig hast; greife nur dann zu Q8_0, wenn du nahezu verlustfreie Ausgabe willst und das VRAM dafür hast.
Der Kompromiss zwischen Qualität und Speicher
| Quant | Bits/Gewicht | Größe vs FP16 | Qualität | Wann verwenden |
|---|---|---|---|---|
| FP16/BF16 | 16 | 100% | Referenz (voll) | Nur Fine-Tuning und Training |
| Q8_0 | ~8 | ~53% | Nahezu verlustfrei | Freier Speicher; maximale Treue |
| Q6_K | ~6.5 | ~41% | Exzellent | Hohe Qualität bei moderater Einsparung |
| Q5_K_M | ~5.5 | ~35% | Sehr gut | Ein sicherer Schritt über Q4 bei genug VRAM |
| Q4_K_M | ~4.5 | ~28% | Gut (Standard) | Der Alltags-Sweetspot für Laptops |
| Q3_K_M | ~3.5 | ~22% | Merklich schlechter | Größeres Modell in knappes VRAM quetschen |
| Q2_K | ~2.6 | ~16% | Schwach / Notlösung | Nur damit ein Modell überhaupt lädt |
Das praktische Fazit: Q4_K_M bis Q5_K_M ist die Zone, die du willst. Unterhalb von Q3 macht das Modell mehr Fehler, wiederholt sich und folgt Anweisungen schlechter. Oberhalb von Q6 zahlst du viel Speicher für Gewinne, die die meisten Laptop-Aufgaben nicht bemerken.
Welcher Quant passt in dein VRAM?
Die grobe Regel: GGUF-Dateigröße + 1–2 GB Overhead (Kontext, KV-Cache, Laufzeit) ist das, was du im VRAM brauchst, um ein Modell vollständig auf der GPU auszuführen. Ist das Modell größer als dein VRAM, lagern Ollama und llama.cpp einige Schichten in den System-RAM aus — es läuft weiterhin, nur langsamer, daher ist auch reichlich RAM wichtig.
| Dein VRAM | Komfortables Modell + Quant | Beispiel-Laptop |
|---|---|---|
| 4 GB | 7B at Q4_K_M (teils ausgelagert), 3B voll auf GPU | ThinkPad X1 Extreme Gen 4 |
| 6 GB | 7B at Q4_K_M voll auf GPU; 13B teils ausgelagert | Lenovo Legion 5 Gen 6 |
| 8 GB | 7B at Q5/Q6; 13B at Q4_K_M voll auf GPU | ASUS ROG Zephyrus G14 |
| 16 GB | 13B at Q6/Q8; 34B at Q4 (knapp); Fine-Tuning | ThinkPad P15 Gen 2 |
Beachte, wie ein 13B-Modell, das nicht auf eine 6-GB-Karte passt, sehr wohl auf 8 GB bei Q4_K_M passt — dieser eine Schritt ist der Grund, warum 8 GB eine so bedeutsame VRAM-Stufe ist. Für das Tempo-Bild Modell für Modell siehe unseren Leitfaden zu den Ollama-Laptop-Anforderungen.
Was ist mit Stable Diffusion und FLUX?
Bildmodelle funktionieren anders — sie werden nicht als GGUF-Chat-Quants verteilt — aber dieselbe Speicherlogik gilt. SDXL möchte 6–8 GB VRAM, um komfortabel zu sein; FLUX.1 ist der große Brocken. FLUX in voller Präzision braucht rund 16 GB, aber quantisiertes FLUX (Community-GGUF/Q8- und Q4-Builds) drückt es so weit herunter, dass es auf 8-GB-Karten läuft — genau wie die Quantisierung es bei LLMs tut. Ein 8-GB-Laptop führt also quantisiertes FLUX aus; nur 16 GB führen es in voller Präzision aus. Siehe beste gebrauchte Laptops für Stable Diffusion für die Hardware-Stufen.
Praktische Empfehlungen
- Beginne mit Q4_K_M. Es ist nicht ohne Grund der Standard. Ändere es nur, wenn du einen konkreten Bedarf hast.
- Passe das Modell an dein VRAM an, nicht an deinen Ehrgeiz. Ein 7B at Q4_K_M, das vollständig auf der GPU läuft, schlägt ein 13B, das halb in den RAM ausgelagert wird und kriecht.
- Rüste RAM auf, wenn du auslagern wirst. 32 GB System-RAM lassen eine 4–8-GB-GPU größere Modelle ausführen, indem Schichten zur CPU überlaufen.
- Behalte FP16 nur für Fine-Tuning. Die Inferenz braucht es fast nie; das Training schon — und das ist eine Aufgabe für 16 GB VRAM.
FAQ
Was bedeutet Q4 in einer GGUF-Modelldatei?
Q4 bedeutet, dass die Modellgewichte auf etwa 4 Bit statt 16 quantisiert sind. Eine Q4_K_M-Datei ist rund ein Viertel so groß wie das FP16-Original, sodass ein 7B-Modell von ~13 GB auf ~4 GB schrumpft. Der Qualitätsverlust ist bei den meisten Chat- und Coding-Aufgaben gering, weshalb Q4_K_M der beliebteste Laptop-Quant ist.
Ist Q8 merklich besser als Q4?
Q8 liegt näher am Modell in voller Präzision und ist etwas genauer, aber für die meisten Laptop-Anwendungen ist der Unterschied zu Q4_K_M im Alltag bei Chat, Zusammenfassungen und Coding kaum spürbar. Q8 verdoppelt etwa die Dateigröße und den VRAM-/RAM-Bedarf gegenüber Q4, daher wählt man es nur bei freiem Speicher oder wenn maximale Treue nötig ist.
Brauche ich FP16, um ein Modell lokal auszuführen?
Nein. FP16 (oder BF16) ist das Format mit voller Präzision für Training und Fine-Tuning, nicht für die alltägliche Inferenz auf einem Laptop. Zum lokalen Ausführen liefert ein quantisiertes GGUF (Q4 oder Q5) fast die gleichen Antworten bei einem Bruchteil des Speichers. FP16 bleibt dem Fine-Tuning vorbehalten, das eine 16-GB-GPU wie das ThinkPad P15 Gen 2 braucht.
Woher weiß ich, ob ein Quant in mein VRAM passt?
Als grobe Regel gilt: die GGUF-Dateigröße plus 1–2 GB Overhead ist das, was du im VRAM brauchst, um vollständig auf der GPU zu laufen. Ein 4,4 GB großes Q4_K_M-7B-Modell braucht etwa 6 GB VRAM, um komfortabel zu sein. Ist das Modell größer als dein VRAM, können llama.cpp und Ollama einige Schichten in den System-RAM auslagern — langsamer, aber es funktioniert.