Can I use system RAM instead of VRAM for AI?

Technically yes — tools like Ollama can offload model layers to system RAM. But system RAM is 10–20x slower than VRAM for GPU workloads, so inference speed drops dramatically. A 7B model that runs at 30+ tokens per second on GPU might manage 4–5 tok/s on CPU with system RAM.

Is 4 GB VRAM enough for AI in 2026?

Barely. 4 GB lets you run Ollama 7B models in Q4 quantisation and Stable Diffusion 1.5, but you'll hit the ceiling quickly. SDXL, FLUX, and 13B models all need more. If you're buying now, 6 GB is the realistic minimum.

Does AMD VRAM work for AI the same as NVIDIA?

Not in practice. Almost all AI software is built on NVIDIA's CUDA platform. AMD's ROCm alternative exists but has patchy support and frequent compatibility issues. For AI work, stick to NVIDIA GPUs.

Can I add more VRAM to my laptop later?

No. VRAM is soldered onto the graphics card and cannot be upgraded. Unlike system RAM, which uses replaceable SO-DIMM slots in many laptops, VRAM is fixed at purchase. This makes it the single most important spec to get right when buying.

Was ist VRAM und warum ist es für die KI-Entwicklung von Bedeutung?

VRAM – Video Random Access Memory – ist der dedizierte Speicher Ihrer Grafikkarte. Wenn Sie vorhaben, KI-Modelle lokal auf Ihrem Laptop auszuführen, ist VRAM die wichtigste Spezifikation, die Sie kennen müssen. Er bestimmt, welche Modelle Sie ausführen können, wie schnell sie laufen und ob bestimmte Aufgaben überhaupt möglich sind.

Dieser Leitfaden erklärt, was VRAM eigentlich ist, wie es sich von normalem RAM unterscheidet, wie viel Sie genau für verschiedene KI-Workloads benötigen und welche häufigen Fallstricke Sie beim Kauf eines gebrauchten Laptops vermeiden sollten.

VRAM vs. RAM – Was ist der Unterschied?

Stellen Sie sich Ihren Laptop als eine Küche vor. System-RAM ist Ihre Arbeitsfläche – hier erledigt die CPU ihre allgemeinen Aufgaben und hält Ihre Browser-Tabs, den Code-Editor, das Betriebssystem und alles andere, was gerade läuft, bereit. VRAM ist eine separate, kleinere Arbeitsfläche in einem speziellen Gerät (der GPU), das ausschließlich für Grafik und parallele Berechnungen ausgelegt ist.

Wenn Sie ein KI-Modell auf Ihrer GPU ausführen, muss das gesamte Modell auf diese GPU-Arbeitsfläche – den VRAM – passen. Wenn es nicht passt, passiert eines von zwei Dingen: Entweder weigert sich das Modell zu laden, oder es läuft teilweise auf die Arbeitsfläche der CPU (System-RAM) über, die deutlich langsamer ist.

Hier ist der entscheidende Unterschied:

	System-RAM	VRAM
Befindet sich auf	Hauptplatine (SO-DIMM-Steckplätze oder gelötet)	Grafikkarte (gelötet, nicht aufrüstbar)
Typische Laptop-Größen	8–64 GB	0–16 GB
Bandbreite	~50 GB/s (DDR5)	~200–600 GB/s (GDDR6)
Verwendet von	CPU, Betriebssystem, Anwendungen	GPU, Gewichte von KI-Modellen, Bildgenerierung
Aufrüstbar?	Oft ja (SO-DIMM-Steckplätze)	Niemals

Der Unterschied in der Bandbreite ist entscheidend. VRAM kann Daten 4–10-mal schneller transportieren als System-RAM. Wenn ein KI-Modell Token generiert oder ein Bild rendert, muss es Milliarden von Zahlen pro Sekunde lesen und schreiben. Schneller VRAM macht dies möglich; langsamer System-RAM macht es mühsam.

> Ein Laptop mit 32 GB System-RAM und 0 GB VRAM kann Stable Diffusion nicht ausführen. Ein Laptop mit 16 GB System-RAM und 6 GB VRAM kann es. Die wichtigsten Zahlen im Datenblatt sind die neben „VRAM“ oder „GPU-Speicher“.

Warum VRAM für KI entscheidend ist

Jede wichtige lokale KI-Aufgabe wird grundlegend durch VRAM begrenzt.

Laden von LLMs in den GPU-Speicher

Wenn Sie ein Sprachmodell über Ollama oder LM Studio ausführen, müssen die Modellgewichte im Speicher liegen. Die Quantisierung (Komprimierung des Modells von 16-Bit- auf 4-Bit-Präzision) reduziert den Speicherbedarf drastisch, aber selbst quantisierte Modelle sind groß:

Modell mit 7 Milliarden Parametern (Llama 3, Mistral 7B) in Q4-Quantisierung: ~4–6 GB
Modell mit 13 Milliarden Parametern (Llama 2 13B, DeepSeek-Coder) in Q4: ~8–10 GB
Modell mit 70 Milliarden Parametern (Llama 3 70B) in Q4: ~35–40 GB — auf Laptops nur mit CPU-Offloading möglich

Wenn das Modell vollständig in den VRAM passt, erhalten Sie eine schnelle GPU-beschleunigte Inferenz – typischerweise 20–40 Token pro Sekunde. Wenn es nicht passt, lagert Ollama Schichten in den System-RAM aus, und die Geschwindigkeit sinkt auf 3–5 Token pro Sekunde. Das ist der Unterschied zwischen einem nutzbaren Chat-Erlebnis und dem Zusehen, wie Farbe trocknet.

Bildgenerierung

Stable Diffusion und seine Nachfolger benötigen VRAM für die Modellgewichte, das zu generierende Bild und Zwischenberechnungen:

Stable Diffusion 1.5: ~4 GB VRAM mindestens, 6 GB komfortabel
Stable Diffusion XL (SDXL): ~6 GB mindestens, 8 GB komfortabel
FLUX.1: mindestens ~8 GB, komfortabel 10–12 GB

Wenn während der Bilderzeugung der VRAM knapp wird, bedeutet das in der Regel einen Absturz wegen Speichermangels – keine sanfte Verlangsamung. Entweder man hat genug oder man hat nicht genug.

Feinabstimmung

Die Feinabstimmung eines Modells anhand eigener Daten ist die Aufgabe, die am meisten VRAM beansprucht. Selbst effiziente Techniken wie LoRA (Low-Rank Adaptation) müssen das Modell, den Trainingsdaten-Batch, die Gradienten und den Optimierungsstatus gleichzeitig im Speicher halten:

LoRA-Feinabstimmung eines 7B-Modells: mindestens ~6–8 GB VRAM
QLoRA (quantisiertes LoRA): ~4–6 GB – die speichereffizienteste Option
Vollständige Feinabstimmung: auf Laptops nicht praktikabel – Cloud-Computing nutzen

Wie viel VRAM benötigen Sie tatsächlich?

Diese Tabelle umfasst die gängigsten KI-Aufgaben und deren tatsächlichen VRAM-Anforderungen:

Aufgabe	Min. VRAM	Komfortabel	Anmerkungen
Ollama 7B (Q4_K_M)	4 GB	6 GB	Lässt Spielraum für System-Overhead
Ollama 13B (Q4_K_M)	8 GB	10 GB	Knapp bei 8 GB – nahe der Grenze
Stable Diffusion 1.5	4 GB	6 GB	512x512-Bilder, 20–30 Schritte
SDXL	6 GB	8 GB	1024x1024-Bilder
FLUX.1	8 GB	12 GB	Neueste Generation, speicherintensiv
LoRA-Feintuning (7B)	6 GB	8 GB	Bei Verwendung von QLoRA sinkt der Bedarf auf ~4 GB
ComfyUI-Workflows	6 GB	8–12 GB	Hängt von der Komplexität des Workflows ab
Whisper-Transkription	2 GB	4 GB	Läuft problemlos auf bescheidenen GPUs

VRAM in Laptops – Häufige Fallstricke

Der Kauf eines gebrauchten Laptops mit „gutem VRAM“ birgt viele potenzielle Fehlerquellen. Hier erfahren Sie, worauf Sie achten sollten.

VRAM von mobilen GPUs ist nicht dasselbe wie VRAM von Desktop-GPUs

Die RTX 4090 Desktop-Karte verfügt über 24 GB VRAM. Die RTX 4090 Laptop-GPU verfügt über 16 GB. Gleicher Name, anderer Chip, anderer Speicher. Überprüfen Sie immer die spezifische mobile Variante – gehen Sie nicht davon aus, dass die Spezifikationen von Laptops mit denen von Desktops übereinstimmen.

Ähnlich verhält es sich mit der RTX 3060, die es sowohl in einer 6-GB- als auch in einer 12-GB-Desktop-Version gibt, während die mobile RTX 3060 immer 6 GB hat. Die Namensgebung ist bewusst verwirrend.

Gemeinsamer Speicher vs. dedizierter VRAM

Laptops mit integrierten GPUs (Intel Iris Xe, AMD Radeon 680M/780M) haben keinen dedizierten VRAM. Sie teilen sich den System-RAM mit der GPU, was bedeutet:

Die GPU „leiht“ sich 2–4 GB aus Ihrem System-RAM
Dieser gemeinsam genutzte Speicher läuft mit der Geschwindigkeit des System-RAM (~50 GB/s), nicht mit der Geschwindigkeit des VRAM (~200+ GB/s)
Er ist für KI-Workloads 4–10-mal langsamer als dedizierter VRAM
Angaben wie „bis zu 16 GB GPU-Speicher“ bei einer integrierten GPU sind irreführend – es handelt sich lediglich um Ihren gemeinsam genutzten System-RAM

Sowohl das ThinkPad T14 Gen 3 als auch das Dell Latitude 5540 verfügen über integrierte GPUs mit 0 GB dediziertem VRAM. Sie können LLMs auf der CPU ausführen, aber die Bildgenerierung und GPU-beschleunigte Inferenz sind nicht möglich.

„16 GB GPU“ bedeutet nicht immer das, was Sie denken

In einigen Laptop-Angeboten wird bei Geräten mit integrierter Grafik mit „16 GB GPU-Speicher“ geworben. Technisch gesehen ist dies die maximale Menge an System-RAM, auf die die integrierte GPU zugreifen kann – nicht dedizierter VRAM. Die tatsächliche KI-Leistung von 16 GB gemeinsam genutztem Speicher reicht bei weitem nicht an 16 GB dedizierten GDDR6-VRAM heran.

Wenn in einem Angebot nicht „dediziert“ angegeben ist oder ein diskretes NVIDIA/AMD-GPU-Modell erwähnt wird, gehen Sie davon aus, dass es sich um gemeinsam genutzten Speicher handelt, und behandeln Sie den effektiven VRAM als 0.

So wählen Sie aus: VRAM-Stufen für 2026

Stufe 1: Kein dedizierter VRAM (nur integrierte GPU)

Was Sie tun können: LLM-Inferenz nur mit CPU (langsam – 3–5 Token/s), API-basierte KI-Tools (Copilot, ChatGPT, Claude), Whisper-Transkription auf der CPU.

Was Sie nicht tun können: Stable Diffusion, SDXL, FLUX, GPU-beschleunigte Inferenz, Feinabstimmung.

Beispiel-Laptops: ThinkPad T14 Gen 3 (KI-Score: 42, 320–480 £), Dell Latitude 5540 (KI-Score: 38, 280–420 £).

Am besten geeignet für: Studenten mit knappem Budget, die die Grundlagen der KI erlernen und kleine Modelle ausführen möchten, ohne dabei mehr als 500 £ auszugeben.

Stufe 2: 4–6 GB VRAM – Der Einstieg

Was du damit machen kannst: Ollama 7B bei voller GPU-Geschwindigkeit (20–30 Token/s), Stable Diffusion 1.5, SDXL (knapp bei 6 GB), grundlegendes LoRA mit QLoRA.

Was du damit nicht machen kannst: FLUX, 13B-Modelle auf der GPU, anspruchsvolles Fine-Tuning.

Beispiel-Laptops: Dell Precision 5560 (4 GB VRAM, AI-Score: 62, 480–680 £), Legion 5 Gen 6 (6 GB VRAM, KI-Score: 71, 550–750 £).

Am besten geeignet für: Alle, die GPU-beschleunigte KI nutzen möchten, ohne mehr als 800 £ auszugeben.

Stufe 3: 8–16 GB VRAM – Anspruchsvolle KI-Arbeit

Was Sie tun können: 13-Milliarden-Modelle problemlos, SDXL und FLUX, LoRA-Feintuning, ComfyUI-Workflows, mehrere Modelle gleichzeitig.

Was Sie nicht tun können: 70-Milliarden-Modelle vollständig auf der GPU (erfordert weiterhin CPU-Entlastung), vollständiges Feintuning.

Beispiel-Laptops: Gebrauchte RTX 3070/3080-Gaming-Laptops (8–16 GB), ThinkPad P-Serie mit RTX A4000/A5000.

Am besten geeignet für: Profis und ambitionierte Hobbyanwender, die zuverlässige, schnelle KI-Inferenz und Bildgenerierung benötigen.

VRAM und unsere getesteten Laptops

So schneiden die von uns getesteten Laptops beim VRAM ab:

Laptop	GPU	Dedizierter VRAM	KI-Bewertung	Preis (UK)	Bester KI-Anwendungsfall
Dell Latitude 5540	Intel Iris Xe	0 GB (gemeinsam genutzt)	38	280–420 £	Nur CPU-Inferenz
ThinkPad T14 Gen 3	AMD Radeon 660M	0 GB (gemeinsam genutzt)	42	320–480 £	CPU-Inferenz, API-Tools
ThinkPad T14s Gen 4	AMD Radeon 780M	0 GB (gemeinsam genutzt)	48	420–580 £	Schnellere CPU-/iGPU-Inferenz
Dell Precision 5560	NVIDIA RTX A2000	4 GB GDDR6	62	480–680 £	SD 1.5, GPU-beschleunigte LLMs
Legion 5 Gen 6	NVIDIA RTX 3060	6 GB GDDR6	71	550–750 £	SDXL, 13B-Modelle, ComfyUI

Der Sprung von 0 GB auf 4 GB VRAM hebt den AI-Score von 38–48 auf 62. Der Sprung von 4 GB auf 6 GB treibt ihn auf 71. Das liegt daran, dass schon eine geringe Menge dedizierten VRAM eine völlig andere Kategorie von KI-Workloads erschließt.

Zusammenfassung

VRAM ist der dedizierte Speicher der GPU – getrennt vom System-RAM, viel schneller und bei Laptops nicht aufrüstbar
Er ist der größte Engpass für lokale KI – Ihr Modell muss in den VRAM passen, um eine schnelle GPU-Inferenz zu ermöglichen
4 GB sind das absolute Minimum für sinnvolle GPU-beschleunigte KI; 6–8 GB sind der Sweet Spot für 2026
Integrierte GPUs haben 0 GB dedizierten VRAM – sie können nur CPU-Inferenz durchführen, was 5–10-mal langsamer ist
Achten Sie beim Kauf immer auf dedizierten VRAM – ignorieren Sie Marketingversprechen wie „gemeinsamer GPU-Speicher“
Weitere Informationen zur Auswahl des richtigen gebrauchten Laptops für KI finden Sie in unserem vollständigen Einkaufsführer