Requisiti di Ollama su portatile: VRAM e RAM per LLM locali (2026)

Q: Cosa significa la quantizzazione (Q4, Q8) per i requisiti?

La quantizzazione riduce un modello memorizzando i pesi a precisione inferiore. Q4 dimezza grossomodo la memoria di Q8, quindi un modello 13B richiede circa 8 GB a Q4 contro 14 GB a Q8, con un piccolo calo di qualità. Su un portatile usato, Q4_K_M è di solito il giusto equilibrio tra dimensione e qualità.

Ollama è il modo più semplice per eseguire grandi modelli linguistici in locale, ma «girerà sul mio portatile?» ha una risposta precisa: dipende dalla VRAM per prima, poi dalla RAM, poi dalla CPU. Questa guida fornisce i numeri reali per ogni dimensione di modello, così puoi abbinare un portatile usato ai modelli che vuoi davvero eseguire.

Se stai ancora decidendo se una GPU dedicata valga la pena, parti dalla nostra spiegazione di cos’è la VRAM e perché conta per l’IA — è la base di tutto ciò che segue.

L’unica regola: il modello deve entrare in memoria

Un LLM deve caricare i suoi pesi in memoria prima di generare anche un solo token. Dove risiedono questi pesi decide la tua velocità:

In VRAM (memoria GPU dedicata): di gran lunga la più veloce. Un modello 7B in VRAM gira a 25–38 token/secondo.
In RAM di sistema (inferenza su CPU): funziona, ma lento — 3–6 token/secondo per un modello 7B.
Diviso tra VRAM + RAM: quando un modello è leggermente troppo grande per la VRAM, Ollama scarica alcuni strati sulla GPU ed esegue il resto sulla CPU. La velocità è intermedia.

La domanda è quindi sempre: il modello quantizzato entra nella mia VRAM? Se sì, hai un’inferenza veloce. Se no, ricadi sulla RAM e accetti una velocità inferiore.

Requisiti per dimensione di modello e quantizzazione

La tabella seguente mostra la memoria richiesta da ogni modello ai livelli di quantizzazione comuni, più il throughput realistico su tre fasce hardware. I token/secondo sono stime per uso interattivo singolo utente.

Model	Quant	Memory needed	CPU only (RAM)	iGPU (780M)	dGPU 6–8 GB
Llama 3 7B	Q4_K_M	~5 GB	3–6 tok/s	6–10 tok/s	25–38 tok/s
Llama 3 7B	Q8	~8 GB	2–4 tok/s	4–7 tok/s	18–26 tok/s
13B	Q4_K_M	~8 GB	1.5–3 tok/s	3–5 tok/s	12–20 tok/s
13B	Q8	~14 GB	1–2 tok/s	n/a	16 GB VRAM
34B	Q4_K_M	~19 GB	0.5–1 tok/s	n/a	split only
70B	Q4_K_M	~40 GB	needs 64 GB RAM	n/a	n/a (laptop)

Punti chiave:

7B a Q4 è la base universale — gira su quasi tutto con 8 GB di RAM.
13B a Q4 richiede ~8 GB: comodo su una dGPU da 6 GB (parziale) o da 8 GB (completo).
13B a Q8 o 34B richiede realisticamente 16 GB di VRAM — il territorio del ThinkPad P15 Gen 2.
70B non è un carico per GPU portatile; gira solo lentamente su 64 GB di RAM di sistema.

Abbinare l’hardware alle tue esigenze

Portatili solo CPU (senza GPU dedicata). Macchine come il ThinkPad T14 Gen 3 eseguono modelli 7B su CPU a 3–6 tok/s — bene per domande occasionali, bozze e apprendimento. 16 GB di RAM minimo, 32 GB per il 13B. Una iGPU moderna (Radeon 780M) aggiunge una spinta moderata rispetto alla grafica integrata più vecchia.

Portatili con dGPU 6–8 GB. Il punto ideale per la maggior parte. Una scheda da 6 GB esegue 7B interamente su GPU e 13B parzialmente; una scheda da 8 GB come il Lenovo Legion 5 Gen 7 esegue 13B comodamente e lascia spazio per contesti più lunghi. Aspettati 25–38 tok/s su 7B — più veloce di quanto leggi.

Portatili con dGPU 16 GB. Servono solo se vuoi 13B in alta qualità (Q8), modelli 34B o lavoro a contesto lungo. Il ThinkPad P15 Gen 2 è l’opzione usata qui.

La RAM conta anche con una GPU

La VRAM esegue il modello, ma la RAM di sistema contiene tutto il resto: l’OS, il tuo editor, il browser e tutti gli strati del modello che tracimano dalla VRAM. Per l’inferenza su GPU, 16 GB di RAM è il pavimento e 32 GB il comfort. Per l’inferenza su CPU di modelli più grandi, la RAM è l’archivio del modello — 64 GB sbloccano modelli di classe 30B che nessuna GPU portatile può contenere.

Consigli pratici per portatili usati

Compra in base alla VRAM, non al nome della GPU. Una GPU «Laptop» ha spesso meno VRAM del suo omonimo desktop. Verifica la VRAM reale in GPU-Z prima di comprare.
Inizia con Q4_K_M. È il miglior compromesso dimensione/qualità per l’uso locale; passa a Q8 solo se hai VRAM in eccesso.
Attento alla lunghezza del contesto. Prompt lunghi e grandi finestre di contesto consumano memoria oltre ai pesi del modello — lascia margine.
L’NVMe conta per il tempo di caricamento, non per la velocità. Un SSD veloce carica il modello in memoria più in fretta ma non cambia i token/secondo una volta avviato.

Domande frequenti

Di quanta VRAM ho bisogno per eseguire Ollama? Per un’esperienza fluida, 6–8 GB di VRAM consentono di eseguire modelli 7B e 13B interamente sulla GPU. Puoi eseguire Ollama senza alcuna VRAM dedicata — ricade su CPU e RAM di sistema — ma aspettati 3–5 token al secondo su un modello 7B invece di 25–35 su una dGPU.

Posso eseguire Ollama senza una GPU dedicata? Sì. Ollama gira sulla CPU usando la RAM di sistema, e una GPU integrata moderna dà una piccola spinta. Un modello 7B a Q4 richiede circa 8 GB di RAM e gira a 3–6 token al secondo. Per un uso leggero va bene; è solo più lento.

Di quanta RAM ho bisogno per i LLM locali? Almeno 16 GB per i modelli 7B e 32 GB per eseguire comodamente il 13B. Per l’inferenza su CPU di modelli più grandi (30B+), 64 GB è il pavimento pratico.

Cosa significa la quantizzazione (Q4, Q8) per i requisiti? La quantizzazione memorizza i pesi a precisione inferiore per ridurre il modello. Q4 dimezza grossomodo la memoria di Q8, quindi un 13B richiede circa 8 GB a Q4 contro 14 GB a Q8, con un piccolo calo di qualità. Q4_K_M è di solito il giusto equilibrio.

Per un elenco di macchine selezionate che raggiungono questi obiettivi, vedi la nostra selezione migliori portatili usati per LLM locali.