Wymagania Ollamy na laptopie: VRAM i RAM dla lokalnych LLM (2026)

Q: Co kwantyzacja (Q4, Q8) oznacza dla wymagań?

Kwantyzacja zmniejsza model, przechowując wagi z niższą precyzją. Q4 z grubsza połowi pamięć Q8, więc model 13B potrzebuje około 8 GB przy Q4 zamiast 14 GB przy Q8, z niewielkim spadkiem jakości. Na używanym laptopie Q4_K_M to zwykle złoty środek między rozmiarem a jakością.

Ollama to najprostszy sposób na lokalne uruchamianie dużych modeli językowych, ale „czy zadziała na moim laptopie?” ma precyzyjną odpowiedź: zależy od VRAM najpierw, potem RAM, potem CPU. Ten poradnik podaje realne liczby dla każdego rozmiaru modelu, byś dopasował używanego laptopa do modeli, które naprawdę chcesz uruchamiać.

Jeśli wciąż zastanawiasz się, czy dedykowane GPU jest warte zachodu, zacznij od naszego wyjaśnienia czym jest VRAM i dlaczego ma znaczenie dla AI — to podstawa wszystkiego poniżej.

Jedna zasada: model musi się zmieścić w pamięci

LLM musi załadować swoje wagi do pamięci, zanim wygeneruje choć jeden token. To, gdzie te wagi się znajdują, decyduje o szybkości:

W VRAM (dedykowana pamięć GPU): zdecydowanie najszybciej. Model 7B w VRAM działa z prędkością 25–38 tokenów/sekundę.
W pamięci systemowej (wnioskowanie na CPU): działa, ale wolno — 3–6 tokenów/sekundę dla modelu 7B.
Podzielony między VRAM + RAM: gdy model jest nieco za duży na VRAM, Ollama przenosi część warstw na GPU, a resztę uruchamia na CPU. Szybkość jest pośrednia.

Pytanie brzmi więc zawsze: czy skwantyzowany model zmieści się w moim VRAM? Jeśli tak, masz szybkie wnioskowanie. Jeśli nie, przechodzisz na RAM i akceptujesz niższą szybkość.

Wymagania według rozmiaru modelu i kwantyzacji

Tabela poniżej pokazuje pamięć potrzebną każdemu modelowi przy typowych poziomach kwantyzacji oraz realny przepływ na trzech klasach sprzętu. Tokeny/sekundę to szacunki dla interaktywnego użytku jednego użytkownika.

Model	Quant	Memory needed	CPU only (RAM)	iGPU (780M)	dGPU 6–8 GB
Llama 3 7B	Q4_K_M	~5 GB	3–6 tok/s	6–10 tok/s	25–38 tok/s
Llama 3 7B	Q8	~8 GB	2–4 tok/s	4–7 tok/s	18–26 tok/s
13B	Q4_K_M	~8 GB	1.5–3 tok/s	3–5 tok/s	12–20 tok/s
13B	Q8	~14 GB	1–2 tok/s	n/a	16 GB VRAM
34B	Q4_K_M	~19 GB	0.5–1 tok/s	n/a	split only
70B	Q4_K_M	~40 GB	needs 64 GB RAM	n/a	n/a (laptop)

Najważniejsze wnioski:

7B przy Q4 to uniwersalna baza — działa na niemal wszystkim z 8 GB RAM.
13B przy Q4 potrzebuje ~8 GB: komfortowo na dGPU 6 GB (częściowo) lub dGPU 8 GB (w całości).
13B przy Q8 lub 34B realnie potrzebuje 16 GB VRAM — terytorium ThinkPad P15 Gen 2.
70B to nie zadanie dla laptopowego GPU; działa tylko wolno na 64 GB pamięci systemowej.

Dopasowanie sprzętu do potrzeb

Laptopy tylko z CPU (bez dedykowanego GPU). Maszyny jak ThinkPad T14 Gen 3 uruchamiają modele 7B na CPU z prędkością 3–6 tok/s — dobre do sporadycznych pytań, szkiców i nauki. Minimum 16 GB RAM, 32 GB na 13B. Nowoczesna iGPU (Radeon 780M) daje umiarkowany zysk względem starszej grafiki zintegrowanej.

Laptopy z dGPU 6–8 GB. Złoty środek dla większości. Karta 6 GB uruchamia 7B w całości na GPU i 13B częściowo; karta 8 GB jak Lenovo Legion 5 Gen 7 uruchamia 13B komfortowo i zostawia miejsce na dłuższy kontekst. Spodziewaj się 25–38 tok/s przy 7B — szybciej, niż czytasz.

Laptopy z dGPU 16 GB. Potrzebne tylko, gdy chcesz 13B w wysokiej jakości (Q8), modeli 34B lub pracy z długim kontekstem. ThinkPad P15 Gen 2 to tu opcja z drugiej ręki.

RAM wciąż ma znaczenie nawet z GPU

VRAM uruchamia model, ale pamięć systemowa trzyma wszystko inne: system, edytor, przeglądarkę i wszystkie warstwy modelu, które przelewają się z VRAM. Do wnioskowania na GPU 16 GB RAM to dolna granica, a 32 GB to komfort. Do wnioskowania na CPU większych modeli RAM jest magazynem modelu — 64 GB odblokowuje modele klasy 30B, których żadne laptopowe GPU nie pomieści.

Praktyczne wskazówki do używanych laptopów

Kupuj według VRAM, nie nazwy GPU. „Laptopowa” GPU często ma mniej VRAM niż jej desktopowy imiennik. Zweryfikuj realny VRAM w GPU-Z przed zakupem.
Zaczynaj od Q4_K_M. To najlepszy kompromis rozmiar/jakość do lokalnego użytku; przechodź na Q8 tylko, gdy masz zapas VRAM.
Uważaj na długość kontekstu. Długie prompty i duże okna kontekstu zużywają dodatkową pamięć ponad wagi modelu — zostaw zapas.
NVMe liczy się przy czasie ładowania, nie szybkości. Szybki SSD szybciej ładuje model do pamięci, ale nie zmienia tokenów/sekundę po uruchomieniu.

Najczęstsze pytania

Ile VRAM potrzebuję, by uruchomić Ollamę? Dla płynnego działania 6–8 GB VRAM pozwala uruchamiać modele 7B i 13B w całości na GPU. Ollamę można uruchomić zupełnie bez dedykowanego VRAM — przechodzi wtedy na CPU i pamięć systemową — ale spodziewaj się 3–5 tokenów na sekundę przy modelu 7B zamiast 25–35 na dGPU.

Czy mogę uruchomić Ollamę bez dedykowanego GPU? Tak. Ollama działa na CPU z pamięcią systemową, a nowoczesny zintegrowany układ graficzny daje niewielki zysk. Model 7B przy Q4 potrzebuje około 8 GB RAM i działa z prędkością 3–6 tokenów na sekundę. Do lekkiego użytku to wystarcza; jest po prostu wolniej.

Ile RAM potrzebuję do lokalnych LLM? Co najmniej 16 GB dla modeli 7B i 32 GB, by komfortowo uruchamiać 13B. Do wnioskowania na CPU większych modeli (30B+) praktyczną dolną granicą jest 64 GB.

Co kwantyzacja (Q4, Q8) oznacza dla wymagań? Kwantyzacja przechowuje wagi modelu z niższą precyzją, by go zmniejszyć. Q4 z grubsza połowi pamięć Q8, więc model 13B potrzebuje około 8 GB przy Q4 zamiast 14 GB przy Q8, z niewielkim spadkiem jakości. Q4_K_M to zwykle złoty środek.

Po listę starannie wybranych maszyn spełniających te cele zobacz nasze zestawienie najlepsze używane laptopy do lokalnych LLM.