Was ist VRAM und warum ist es für die KI-Entwicklung von Bedeutung?
VRAM – Video Random Access Memory – ist der dedizierte Speicher Ihrer Grafikkarte. Wenn Sie vorhaben, KI-Modelle lokal auf Ihrem Laptop auszuführen, ist VRAM die wichtigste Spezifikation, die Sie kennen müssen. Er bestimmt, welche Modelle Sie ausführen können, wie schnell sie laufen und ob bestimmte Aufgaben überhaupt möglich sind.
Dieser Leitfaden erklärt, was VRAM eigentlich ist, wie es sich von normalem RAM unterscheidet, wie viel Sie genau für verschiedene KI-Workloads benötigen und welche häufigen Fallstricke Sie beim Kauf eines gebrauchten Laptops vermeiden sollten.
VRAM vs. RAM – Was ist der Unterschied?
Stellen Sie sich Ihren Laptop als eine Küche vor. System-RAM ist Ihre Arbeitsfläche – hier erledigt die CPU ihre allgemeinen Aufgaben und hält Ihre Browser-Tabs, den Code-Editor, das Betriebssystem und alles andere, was gerade läuft, bereit. VRAM ist eine separate, kleinere Arbeitsfläche in einem speziellen Gerät (der GPU), das ausschließlich für Grafik und parallele Berechnungen ausgelegt ist.
Wenn Sie ein KI-Modell auf Ihrer GPU ausführen, muss das gesamte Modell auf diese GPU-Arbeitsfläche – den VRAM – passen. Wenn es nicht passt, passiert eines von zwei Dingen: Entweder weigert sich das Modell zu laden, oder es läuft teilweise auf die Arbeitsfläche der CPU (System-RAM) über, die deutlich langsamer ist.
Hier ist der entscheidende Unterschied:
| System-RAM | VRAM | |
|---|---|---|
| Befindet sich auf | Hauptplatine (SO-DIMM-Steckplätze oder gelötet) | Grafikkarte (gelötet, nicht aufrüstbar) |
| Typische Laptop-Größen | 8–64 GB | 0–16 GB |
| Bandbreite | ~50 GB/s (DDR5) | ~200–600 GB/s (GDDR6) |
| Verwendet von | CPU, Betriebssystem, Anwendungen | GPU, Gewichte von KI-Modellen, Bildgenerierung |
| Aufrüstbar? | Oft ja (SO-DIMM-Steckplätze) | Niemals |
Der Unterschied in der Bandbreite ist entscheidend. VRAM kann Daten 4–10-mal schneller transportieren als System-RAM. Wenn ein KI-Modell Token generiert oder ein Bild rendert, muss es Milliarden von Zahlen pro Sekunde lesen und schreiben. Schneller VRAM macht dies möglich; langsamer System-RAM macht es mühsam.
> Ein Laptop mit 32 GB System-RAM und 0 GB VRAM kann Stable Diffusion nicht ausführen. Ein Laptop mit 16 GB System-RAM und 6 GB VRAM kann es. Die wichtigsten Zahlen im Datenblatt sind die neben „VRAM“ oder „GPU-Speicher“.
Warum VRAM für KI entscheidend ist
Jede wichtige lokale KI-Aufgabe wird grundlegend durch VRAM begrenzt.
Laden von LLMs in den GPU-Speicher
Wenn Sie ein Sprachmodell über Ollama oder LM Studio ausführen, müssen die Modellgewichte im Speicher liegen. Die Quantisierung (Komprimierung des Modells von 16-Bit- auf 4-Bit-Präzision) reduziert den Speicherbedarf drastisch, aber selbst quantisierte Modelle sind groß:
- Modell mit 7 Milliarden Parametern (Llama 3, Mistral 7B) in Q4-Quantisierung: ~4–6 GB
- Modell mit 13 Milliarden Parametern (Llama 2 13B, DeepSeek-Coder) in Q4: ~8–10 GB
- Modell mit 70 Milliarden Parametern (Llama 3 70B) in Q4: ~35–40 GB — auf Laptops nur mit CPU-Offloading möglich
Wenn das Modell vollständig in den VRAM passt, erhalten Sie eine schnelle GPU-beschleunigte Inferenz – typischerweise 20–40 Token pro Sekunde. Wenn es nicht passt, lagert Ollama Schichten in den System-RAM aus, und die Geschwindigkeit sinkt auf 3–5 Token pro Sekunde. Das ist der Unterschied zwischen einem nutzbaren Chat-Erlebnis und dem Zusehen, wie Farbe trocknet.
Bildgenerierung
Stable Diffusion und seine Nachfolger benötigen VRAM für die Modellgewichte, das zu generierende Bild und Zwischenberechnungen:
- Stable Diffusion 1.5: ~4 GB VRAM mindestens, 6 GB komfortabel
- Stable Diffusion XL (SDXL): ~6 GB mindestens, 8 GB komfortabel
- FLUX.1: mindestens ~8 GB, komfortabel 10–12 GB
Wenn während der Bilderzeugung der VRAM knapp wird, bedeutet das in der Regel einen Absturz wegen Speichermangels – keine sanfte Verlangsamung. Entweder man hat genug oder man hat nicht genug.
Feinabstimmung
Die Feinabstimmung eines Modells anhand eigener Daten ist die Aufgabe, die am meisten VRAM beansprucht. Selbst effiziente Techniken wie LoRA (Low-Rank Adaptation) müssen das Modell, den Trainingsdaten-Batch, die Gradienten und den Optimierungsstatus gleichzeitig im Speicher halten:
- LoRA-Feinabstimmung eines 7B-Modells: mindestens ~6–8 GB VRAM
- QLoRA (quantisiertes LoRA): ~4–6 GB – die speichereffizienteste Option
- Vollständige Feinabstimmung: auf Laptops nicht praktikabel – Cloud-Computing nutzen
Wie viel VRAM benötigen Sie tatsächlich?
Diese Tabelle umfasst die gängigsten KI-Aufgaben und deren tatsächlichen VRAM-Anforderungen:
| Aufgabe | Min. VRAM | Komfortabel | Anmerkungen |
|---|---|---|---|
| Ollama 7B (Q4_K_M) | 4 GB | 6 GB | Lässt Spielraum für System-Overhead |
| Ollama 13B (Q4_K_M) | 8 GB | 10 GB | Knapp bei 8 GB – nahe der Grenze |
| Stable Diffusion 1.5 | 4 GB | 6 GB | 512x512-Bilder, 20–30 Schritte |
| SDXL | 6 GB | 8 GB | 1024x1024-Bilder |
| FLUX.1 | 8 GB | 12 GB | Neueste Generation, speicherintensiv |
| LoRA-Feintuning (7B) | 6 GB | 8 GB | Bei Verwendung von QLoRA sinkt der Bedarf auf ~4 GB |
| ComfyUI-Workflows | 6 GB | 8–12 GB | Hängt von der Komplexität des Workflows ab |
| Whisper-Transkription | 2 GB | 4 GB | Läuft problemlos auf bescheidenen GPUs |
VRAM in Laptops – Häufige Fallstricke
Der Kauf eines gebrauchten Laptops mit „gutem VRAM“ birgt viele potenzielle Fehlerquellen. Hier erfahren Sie, worauf Sie achten sollten.
VRAM von mobilen GPUs ist nicht dasselbe wie VRAM von Desktop-GPUs
Die RTX 4090 Desktop-Karte verfügt über 24 GB VRAM. Die RTX 4090 Laptop-GPU verfügt über 16 GB. Gleicher Name, anderer Chip, anderer Speicher. Überprüfen Sie immer die spezifische mobile Variante – gehen Sie nicht davon aus, dass die Spezifikationen von Laptops mit denen von Desktops übereinstimmen.
Ähnlich verhält es sich mit der RTX 3060, die es sowohl in einer 6-GB- als auch in einer 12-GB-Desktop-Version gibt, während die mobile RTX 3060 immer 6 GB hat. Die Namensgebung ist bewusst verwirrend.
Gemeinsamer Speicher vs. dedizierter VRAM
Laptops mit integrierten GPUs (Intel Iris Xe, AMD Radeon 680M/780M) haben keinen dedizierten VRAM. Sie teilen sich den System-RAM mit der GPU, was bedeutet:
- Die GPU „leiht“ sich 2–4 GB aus Ihrem System-RAM
- Dieser gemeinsam genutzte Speicher läuft mit der Geschwindigkeit des System-RAM (~50 GB/s), nicht mit der Geschwindigkeit des VRAM (~200+ GB/s)
- Er ist für KI-Workloads 4–10-mal langsamer als dedizierter VRAM
- Angaben wie „bis zu 16 GB GPU-Speicher“ bei einer integrierten GPU sind irreführend – es handelt sich lediglich um Ihren gemeinsam genutzten System-RAM
Sowohl das ThinkPad T14 Gen 3 als auch das Dell Latitude 5540 verfügen über integrierte GPUs mit 0 GB dediziertem VRAM. Sie können LLMs auf der CPU ausführen, aber die Bildgenerierung und GPU-beschleunigte Inferenz sind nicht möglich.
„16 GB GPU“ bedeutet nicht immer das, was Sie denken
In einigen Laptop-Angeboten wird bei Geräten mit integrierter Grafik mit „16 GB GPU-Speicher“ geworben. Technisch gesehen ist dies die maximale Menge an System-RAM, auf die die integrierte GPU zugreifen kann – nicht dedizierter VRAM. Die tatsächliche KI-Leistung von 16 GB gemeinsam genutztem Speicher reicht bei weitem nicht an 16 GB dedizierten GDDR6-VRAM heran.
Wenn in einem Angebot nicht „dediziert“ angegeben ist oder ein diskretes NVIDIA/AMD-GPU-Modell erwähnt wird, gehen Sie davon aus, dass es sich um gemeinsam genutzten Speicher handelt, und behandeln Sie den effektiven VRAM als 0.
So wählen Sie aus: VRAM-Stufen für 2026
Stufe 1: Kein dedizierter VRAM (nur integrierte GPU)
Was Sie tun können: LLM-Inferenz nur mit CPU (langsam – 3–5 Token/s), API-basierte KI-Tools (Copilot, ChatGPT, Claude), Whisper-Transkription auf der CPU.
Was Sie nicht tun können: Stable Diffusion, SDXL, FLUX, GPU-beschleunigte Inferenz, Feinabstimmung.
Beispiel-Laptops: ThinkPad T14 Gen 3 (KI-Score: 42, 320–480 £), Dell Latitude 5540 (KI-Score: 38, 280–420 £).
Am besten geeignet für: Studenten mit knappem Budget, die die Grundlagen der KI erlernen und kleine Modelle ausführen möchten, ohne dabei mehr als 500 £ auszugeben.
Stufe 2: 4–6 GB VRAM – Der Einstieg
Was du damit machen kannst: Ollama 7B bei voller GPU-Geschwindigkeit (20–30 Token/s), Stable Diffusion 1.5, SDXL (knapp bei 6 GB), grundlegendes LoRA mit QLoRA.
Was du damit nicht machen kannst: FLUX, 13B-Modelle auf der GPU, anspruchsvolles Fine-Tuning.
Beispiel-Laptops: Dell Precision 5560 (4 GB VRAM, AI-Score: 62, 480–680 £), Legion 5 Gen 6 (6 GB VRAM, KI-Score: 71, 550–750 £).
Am besten geeignet für: Alle, die GPU-beschleunigte KI nutzen möchten, ohne mehr als 800 £ auszugeben.
Stufe 3: 8–16 GB VRAM – Anspruchsvolle KI-Arbeit
Was Sie tun können: 13-Milliarden-Modelle problemlos, SDXL und FLUX, LoRA-Feintuning, ComfyUI-Workflows, mehrere Modelle gleichzeitig.
Was Sie nicht tun können: 70-Milliarden-Modelle vollständig auf der GPU (erfordert weiterhin CPU-Entlastung), vollständiges Feintuning.
Beispiel-Laptops: Gebrauchte RTX 3070/3080-Gaming-Laptops (8–16 GB), ThinkPad P-Serie mit RTX A4000/A5000.
Am besten geeignet für: Profis und ambitionierte Hobbyanwender, die zuverlässige, schnelle KI-Inferenz und Bildgenerierung benötigen.
VRAM und unsere getesteten Laptops
So schneiden die von uns getesteten Laptops beim VRAM ab:
| Laptop | GPU | Dedizierter VRAM | KI-Bewertung | Preis (UK) | Bester KI-Anwendungsfall |
|---|---|---|---|---|---|
| Dell Latitude 5540 | Intel Iris Xe | 0 GB (gemeinsam genutzt) | 38 | 280–420 £ | Nur CPU-Inferenz |
| ThinkPad T14 Gen 3 | AMD Radeon 660M | 0 GB (gemeinsam genutzt) | 42 | 320–480 £ | CPU-Inferenz, API-Tools |
| ThinkPad T14s Gen 4 | AMD Radeon 780M | 0 GB (gemeinsam genutzt) | 48 | 420–580 £ | Schnellere CPU-/iGPU-Inferenz |
| Dell Precision 5560 | NVIDIA RTX A2000 | 4 GB GDDR6 | 62 | 480–680 £ | SD 1.5, GPU-beschleunigte LLMs |
| Legion 5 Gen 6 | NVIDIA RTX 3060 | 6 GB GDDR6 | 71 | 550–750 £ | SDXL, 13B-Modelle, ComfyUI |
Der Sprung von 0 GB auf 4 GB VRAM hebt den AI-Score von 38–48 auf 62. Der Sprung von 4 GB auf 6 GB treibt ihn auf 71. Das liegt daran, dass schon eine geringe Menge dedizierten VRAM eine völlig andere Kategorie von KI-Workloads erschließt.
Zusammenfassung
- VRAM ist der dedizierte Speicher der GPU – getrennt vom System-RAM, viel schneller und bei Laptops nicht aufrüstbar
- Er ist der größte Engpass für lokale KI – Ihr Modell muss in den VRAM passen, um eine schnelle GPU-Inferenz zu ermöglichen
- 4 GB sind das absolute Minimum für sinnvolle GPU-beschleunigte KI; 6–8 GB sind der Sweet Spot für 2026
- Integrierte GPUs haben 0 GB dedizierten VRAM – sie können nur CPU-Inferenz durchführen, was 5–10-mal langsamer ist
- Achten Sie beim Kauf immer auf dedizierten VRAM – ignorieren Sie Marketingversprechen wie „gemeinsamer GPU-Speicher“
- Weitere Informationen zur Auswahl des richtigen gebrauchten Laptops für KI finden Sie in unserem vollständigen Einkaufsführer