Ollama Laptop-Anforderungen: VRAM & RAM für lokale LLMs (2026)
Ollama ist der einfachste Weg, große Sprachmodelle lokal auszuführen, aber „läuft das auf meinem Laptop?” hat eine präzise Antwort: Es kommt auf VRAM zuerst, dann RAM, dann CPU an. Dieser Ratgeber liefert die echten Zahlen je Modellgröße, damit du einen Gebraucht-Laptop zu den Modellen passend wählst, die du wirklich ausführen willst.
Wenn du noch entscheidest, ob sich eine dedizierte GPU lohnt, beginne mit unserer Erklärung zu was VRAM ist und warum es für KI wichtig ist — sie ist die Grundlage für alles Folgende.
Die eine Regel: Das Modell muss in den Speicher passen
Ein LLM muss seine Gewichte in den Speicher laden, bevor es auch nur ein Token erzeugen kann. Wo diese Gewichte liegen, entscheidet über deine Geschwindigkeit:
- Im VRAM (dedizierter GPU-Speicher): mit Abstand am schnellsten. Ein 7B-Modell im VRAM läuft mit 25–38 Tokens/Sekunde.
- Im Systemspeicher (CPU-Inferenz): funktioniert, aber langsam — 3–6 Tokens/Sekunde bei einem 7B-Modell.
- Aufgeteilt über VRAM + RAM: Ist ein Modell etwas zu groß für den VRAM, lagert Ollama einige Schichten auf die GPU aus und führt den Rest auf der CPU aus. Die Geschwindigkeit liegt dazwischen.
Die Frage lautet also immer: Passt das quantisierte Modell in meinen VRAM? Wenn ja, bekommst du schnelle Inferenz. Wenn nein, fällst du auf RAM zurück und akzeptierst geringere Geschwindigkeit.
Anforderungen nach Modellgröße und Quantisierung
Die Tabelle unten zeigt den Speicher, den jedes Modell bei üblichen Quantisierungsstufen braucht, plus realistischen Durchsatz auf drei Hardware-Stufen. Tokens/Sekunde sind Schätzungen für interaktive Einzelnutzung.
| Model | Quant | Memory needed | CPU only (RAM) | iGPU (780M) | dGPU 6–8 GB |
|---|---|---|---|---|---|
| Llama 3 7B | Q4_K_M | ~5 GB | 3–6 tok/s | 6–10 tok/s | 25–38 tok/s |
| Llama 3 7B | Q8 | ~8 GB | 2–4 tok/s | 4–7 tok/s | 18–26 tok/s |
| 13B | Q4_K_M | ~8 GB | 1.5–3 tok/s | 3–5 tok/s | 12–20 tok/s |
| 13B | Q8 | ~14 GB | 1–2 tok/s | n/a | 16 GB VRAM |
| 34B | Q4_K_M | ~19 GB | 0.5–1 tok/s | n/a | split only |
| 70B | Q4_K_M | ~40 GB | needs 64 GB RAM | n/a | n/a (laptop) |
Wichtigste Erkenntnisse:
- 7B bei Q4 ist die universelle Basis — läuft auf fast allem mit 8 GB RAM.
- 13B bei Q4 braucht ~8 GB: komfortabel auf einer 6-GB-dGPU (teilweise) oder einer 8-GB-dGPU (vollständig).
- 13B bei Q8 oder 34B braucht realistisch 16 GB VRAM — das Revier des ThinkPad P15 Gen 2.
- 70B ist keine Laptop-GPU-Aufgabe; es läuft nur langsam auf 64 GB Systemspeicher.
Hardware an deinen Bedarf anpassen
Laptops nur mit CPU (keine dedizierte GPU). Maschinen wie das ThinkPad T14 Gen 3 führen 7B-Modelle auf der CPU mit 3–6 Tok/s aus — gut für gelegentliche Fragen, Entwürfe und Lernen. Mindestens 16 GB RAM, 32 GB für 13B. Eine moderne iGPU (Radeon 780M) gibt einen moderaten Schub gegenüber älterer integrierter Grafik.
Laptops mit 6–8 GB dGPU. Der Sweet Spot für die meisten. Eine 6-GB-Karte führt 7B vollständig auf der GPU und 13B teilweise aus; eine 8-GB-Karte wie das Lenovo Legion 5 Gen 7 führt 13B komfortabel aus und lässt Platz für längeren Kontext. Erwarte 25–38 Tok/s bei 7B — schneller als du lesen kannst.
Laptops mit 16 GB dGPU. Nur nötig, wenn du 13B in hoher Qualität (Q8), 34B-Modelle oder Arbeit mit langem Kontext willst. Das ThinkPad P15 Gen 2 ist hier die Gebraucht-Option.
RAM zählt auch mit GPU
Der VRAM führt das Modell aus, aber der Systemspeicher hält alles andere: das OS, deinen Editor, den Browser und alle Modellschichten, die aus dem VRAM überlaufen. Für GPU-Inferenz sind 16 GB RAM die Untergrenze und 32 GB komfortabel. Für CPU-Inferenz größerer Modelle ist RAM der Modellspeicher — 64 GB schalten 30B-Modelle frei, die keine Laptop-GPU halten kann.
Praktische Tipps für Gebraucht-Laptops
- Kaufe nach VRAM, nicht nach GPU-Name. Eine „Laptop”-GPU hat oft weniger VRAM als ihr Desktop-Namensvetter. Verifiziere den echten VRAM in GPU-Z vor dem Kauf.
- Beginne mit Q4_K_M. Es ist der beste Größe/Qualität-Kompromiss für lokale Nutzung; wechsle nur zu Q8, wenn du VRAM übrig hast.
- Achte auf die Kontextlänge. Lange Prompts und große Kontextfenster verbrauchen zusätzlichen Speicher über die Modellgewichte hinaus — lass Reserve.
- NVMe zählt für Ladezeit, nicht Geschwindigkeit. Eine schnelle SSD lädt das Modell schneller in den Speicher, ändert aber nichts an den Tokens/Sekunde im laufenden Betrieb.
Häufige Fragen
Wie viel VRAM brauche ich, um Ollama auszuführen? Für ein flüssiges Erlebnis erlauben 6–8 GB VRAM, 7B- und 13B-Modelle vollständig auf der GPU auszuführen. Du kannst Ollama ganz ohne dedizierten VRAM betreiben — es fällt dann auf CPU und Systemspeicher zurück — aber erwarte 3–5 Tokens pro Sekunde bei einem 7B-Modell statt 25–35 auf einer dGPU.
Kann ich Ollama ohne dedizierte GPU ausführen? Ja. Ollama läuft auf der CPU mit Systemspeicher, und eine moderne integrierte GPU gibt einen kleinen Schub. Ein 7B-Modell bei Q4 braucht etwa 8 GB RAM und läuft mit 3–6 Tokens pro Sekunde. Für leichte Nutzung reicht das; es ist nur langsamer.
Wie viel RAM brauche ich für lokale LLMs? Mindestens 16 GB für 7B-Modelle und 32 GB, um 13B komfortabel auszuführen. Für CPU-Inferenz größerer Modelle (30B+) sind 64 GB die praktische Untergrenze.
Was bedeutet Quantisierung (Q4, Q8) für die Anforderungen? Quantisierung speichert Modellgewichte mit geringerer Präzision, um sie zu verkleinern. Q4 halbiert grob den Speicher von Q8, ein 13B-Modell braucht also etwa 8 GB bei Q4 statt 14 GB bei Q8, mit kleinem Qualitätsverlust. Q4_K_M ist meist der Sweet Spot.
Für eine handverlesene Liste von Maschinen, die diese Ziele erreichen, siehe unsere Übersicht beste gebrauchte Laptops für lokale LLMs.