Can I use system RAM instead of VRAM for AI?

Technically yes — tools like Ollama can offload model layers to system RAM. But system RAM is 10–20x slower than VRAM for GPU workloads, so inference speed drops dramatically. A 7B model that runs at 30+ tokens per second on GPU might manage 4–5 tok/s on CPU with system RAM.

Is 4 GB VRAM enough for AI in 2026?

Barely. 4 GB lets you run Ollama 7B models in Q4 quantisation and Stable Diffusion 1.5, but you'll hit the ceiling quickly. SDXL, FLUX, and 13B models all need more. If you're buying now, 6 GB is the realistic minimum.

Does AMD VRAM work for AI the same as NVIDIA?

Not in practice. Almost all AI software is built on NVIDIA's CUDA platform. AMD's ROCm alternative exists but has patchy support and frequent compatibility issues. For AI work, stick to NVIDIA GPUs.

Can I add more VRAM to my laptop later?

No. VRAM is soldered onto the graphics card and cannot be upgraded. Unlike system RAM, which uses replaceable SO-DIMM slots in many laptops, VRAM is fixed at purchase. This makes it the single most important spec to get right when buying.

Che cos'è la VRAM e perché è importante per lo sviluppo dell'IA?

La VRAM (Video Random Access Memory) è la memoria dedicata della scheda grafica. Se hai intenzione di eseguire modelli di IA in locale sul tuo portatile, la VRAM è la specifica più importante che devi conoscere. Determina quali modelli puoi eseguire, la loro velocità di esecuzione e se determinate attività sono effettivamente possibili.

Questa guida spiega cos’è effettivamente la VRAM, in che modo differisce dalla RAM standard, di quanta ne hai bisogno esattamente per diversi carichi di lavoro di IA e quali sono le insidie più comuni da evitare quando acquisti un laptop usato.

VRAM vs RAM — Qual è la differenza?

Immagina il tuo laptop come una cucina. La RAM di sistema è il tuo piano di lavoro: è dove la CPU svolge il suo lavoro generale, gestendo le schede del browser, l’editor di codice, il sistema operativo e qualsiasi altra cosa sia in esecuzione. La VRAM è un piano di lavoro separato e più piccolo all’interno di un dispositivo specializzato (la GPU) progettato esclusivamente per la grafica e il calcolo parallelo.

Quando esegui un modello di IA sulla tua GPU, l’intero modello deve stare su quel piano di lavoro della GPU: la VRAM. Se non ci sta, succede una delle due cose: o il modello si rifiuta di caricarsi, oppure si riversa parzialmente sul piano di lavoro della CPU (RAM di sistema), che è notevolmente più lento.

Ecco la distinzione fondamentale:

	RAM di sistema	VRAM
Ubicazione	Scheda madre (slot SO-DIMM o saldata)	Scheda grafica (saldata, non aggiornabile)
Dimensioni tipiche dei laptop	8–64 GB	0–16 GB
Larghezza di banda	~50 GB/s (DDR5)	~200–600 GB/s (GDDR6)
Utilizzata da	CPU, sistema operativo, applicazioni	GPU, pesi dei modelli di IA, generazione di immagini
Aggiornabile?	Spesso sì (slot SO-DIMM)	Mai

La differenza di larghezza di banda è fondamentale. La VRAM può trasferire i dati a una velocità da 4 a 10 volte superiore rispetto alla RAM di sistema. Quando un modello di IA genera token o rende un’immagine, deve leggere e scrivere miliardi di numeri al secondo. Una VRAM veloce rende questo possibile; una RAM di sistema lenta lo rende un’impresa ardua.

> Un laptop con 32 GB di RAM di sistema e 0 GB di VRAM non può eseguire Stable Diffusion. Un laptop con 16 GB di RAM di sistema e 6 GB di VRAM può farlo. I numeri sulla scheda tecnica che contano di più sono quelli accanto a “VRAM” o “Memoria GPU”.

Perché la VRAM è fondamentale per l’IA

Ogni attività locale di IA di rilievo è fondamentalmente limitata dalla VRAM.

Caricamento degli LLM nella memoria GPU

Quando si esegue un modello linguistico tramite Ollama o LM Studio, i pesi del modello devono risiedere in memoria. La quantizzazione (compressione del modello da una precisione a 16 bit a una a 4 bit) riduce drasticamente l’ingombro di memoria, ma anche i modelli quantizzati sono di grandi dimensioni:

Modello a 7 miliardi di parametri (Llama 3, Mistral 7B) con quantizzazione Q4: ~4–6 GB
Modello da 13 miliardi di parametri (Llama 2 13B, DeepSeek-Coder) in Q4: ~8–10 GB
Modello da 70 miliardi di parametri (Llama 3 70B) in Q4: ~35–40 GB — utilizzabile su laptop solo con offloading della CPU

Se il modello rientra interamente nella VRAM, si ottiene un’inferenza veloce accelerata dalla GPU — tipicamente 20–40 token al secondo. Se non ci sta, Ollama scarica i livelli nella RAM di sistema e la velocità scende a 3–5 token al secondo. Questa è la differenza tra un’esperienza di chat utilizzabile e guardare la vernice che si asciuga.

Generazione di immagini

Stable Diffusion e i suoi successori necessitano di VRAM per i pesi del modello, l’immagine in fase di generazione e i calcoli intermedi:

Stable Diffusion 1.5: ~4 GB di VRAM minimo, 6 GB per un funzionamento ottimale
Stable Diffusion XL (SDXL): ~6 GB minimo, 8 GB per un funzionamento ottimale
FLUX.1: ~8 GB minimo, 10–12 GB per un funzionamento ottimale

Esaurire la VRAM durante la generazione delle immagini di solito significa un crash per esaurimento di memoria — non un rallentamento graduale. O ne hai abbastanza o non ce l’hai.

Messa a punto

La messa a punto di un modello sui propri dati è l’attività che richiede più VRAM. Anche tecniche efficienti come LoRA (Low-Rank Adaptation) devono mantenere in memoria contemporaneamente il modello, il batch di dati di addestramento, i gradienti e lo stato dell’ottimizzatore:

Messa a punto LoRA di un modello da 7 miliardi: ~6–8 GB di VRAM minimo
QLoRA (LoRA quantizzato): ~4–6 GB — l’opzione più efficiente in termini di memoria
Ottimizzazione completa: impraticabile sui laptop — utilizzare il cloud computing

Quanta VRAM serve effettivamente?

Questa tabella illustra le attività di IA più comuni e i relativi requisiti di VRAM nel mondo reale:

Attività	VRAM min.	Ottimale	Note
Ollama 7B (Q4_K_M)	4 GB	6 GB	Lascia spazio per l’overhead di sistema
Ollama 13B (Q4_K_M)	8 GB	10 GB	Limitato a 8 GB — vicino al limite
Stable Diffusion 1.5	4 GB	6 GB	Immagini 512x512, 20–30 passaggi
SDXL	6 GB	8 GB	Immagini 1024x1024
FLUX.1	8 GB	12 GB	Ultima generazione, richiede molta memoria
Ottimizzazione LoRA (7B)	6 GB	8 GB	Con QLoRA scende a ~4 GB
Flussi di lavoro ComfyUI	6 GB	8–12 GB	Dipende dalla complessità del flusso di lavoro
Trascrizione Whisper	2 GB	4 GB	Funziona bene su GPU modeste

VRAM nei laptop — Insidie comuni

L’acquisto di un laptop usato con “buona VRAM” è pieno di potenziali errori. Ecco a cosa prestare attenzione.

La VRAM delle GPU mobili non è la VRAM dei desktop

La scheda desktop RTX 4090 ha 24 GB di VRAM. La GPU RTX 4090 per laptop ne ha 16 GB. Stesso nome, chip diverso, memoria diversa. Controlla sempre la variante mobile specifica: non dare per scontato che le specifiche del portatile corrispondano a quelle del desktop.

Allo stesso modo, la RTX 3060 esiste sia nella versione desktop da 6 GB che in quella da 12 GB, ma la RTX 3060 mobile è sempre da 6 GB. La denominazione è volutamente confusa.

Memoria condivisa vs VRAM dedicata

I laptop con GPU integrate (Intel Iris Xe, AMD Radeon 680M/780M) non hanno VRAM dedicata. Condividono la RAM di sistema con la GPU, il che significa:

La GPU “prende in prestito” 2–4 GB dalla RAM di sistema
Questa memoria condivisa funziona alla velocità della RAM di sistema (~50 GB/s), non a quella della VRAM (~200+ GB/s)
È da 4 a 10 volte più lenta per i carichi di lavoro di IA rispetto alla VRAM dedicata
Le descrizioni che indicano “fino a 16 GB di memoria GPU” su una GPU integrata sono fuorvianti: si tratta semplicemente della RAM di sistema condivisa

Sia il ThinkPad T14 Gen 3 che il Dell Latitude 5540 dispongono di GPU integrate con 0 GB di VRAM dedicata. Possono eseguire modelli di linguaggio (LLM) sulla CPU, ma la generazione di immagini e l’inferenza accelerata dalla GPU non sono possibili.

”16 GB di GPU” non significa sempre quello che pensi

Alcune schede tecniche dei laptop pubblicizzano “16 GB di memoria GPU” per macchine con grafica integrata. Tecnicamente, questa è la quantità massima di RAM di sistema che la GPU integrata può indirizzare — non VRAM dedicata. Le prestazioni effettive dell’IA con 16 GB di memoria condivisa non si avvicinano neanche lontanamente a quelle di 16 GB di VRAM GDDR6 dedicata.

Se un annuncio non specifica “dedicata” o non menziona un modello di GPU discreta NVIDIA/AMD, si deve presumere che si tratti di memoria condivisa e considerare la VRAM effettiva pari a 0.

Come scegliere: livelli di VRAM per il 2026

Livello 1: Nessuna VRAM dedicata (solo GPU integrata)

Cosa si può fare: Inferenza LLM solo su CPU (lenta — 3–5 tok/s), strumenti di IA basati su API (Copilot, ChatGPT, Claude), trascrizione Whisper su CPU.

Cosa non si può fare: Stable Diffusion, SDXL, FLUX, inferenza accelerata da GPU, fine-tuning.

Esempi di laptop: ThinkPad T14 Gen 3 (Punteggio AI: 42, £320–£480), Dell Latitude 5540 (Punteggio AI: 38, £280–£420).

Ideale per: Studenti con un budget limitato che vogliono imparare i fondamenti dell’IA ed eseguire modelli di piccole dimensioni spendendo meno di £500.

Livello 2: 4–6 GB di VRAM — Il punto di ingresso

Cosa puoi fare: Ollama 7B alla massima velocità della GPU (20–30 tok/s), Stable Diffusion 1.5, SDXL (al limite con 6 GB), LoRA di base con QLoRA.

Cosa non puoi fare: FLUX, modelli da 13 miliardi di parametri sulla GPU, ottimizzazione approfondita.

Esempi di laptop: Dell Precision 5560 (4 GB di VRAM, punteggio AI: 62, £480–£680), Legion 5 Gen 6 (6 GB di VRAM, punteggio AI: 71, £550–£750).

Ideale per: chiunque desideri un’IA accelerata da GPU senza spendere più di £800.

Livello 3: 8–16 GB di VRAM — Lavoro serio con l’IA

Cosa puoi fare: modelli da 13 miliardi di parametri senza problemi, SDXL e FLUX, ottimizzazione LoRA, flussi di lavoro ComfyUI, più modelli contemporaneamente.

Cosa non puoi fare: modelli da 70 miliardi di parametri interamente su GPU (serve ancora l’offload della CPU), ottimizzazione completa.

Esempi di laptop: laptop da gaming RTX 3070/3080 usati (8–16 GB), ThinkPad serie P con RTX A4000/A5000.

Ideale per: professionisti e appassionati seri che necessitano di inferenza AI e generazione di immagini affidabili e veloci.

VRAM e i nostri laptop recensiti

Ecco come si posizionano i laptop che abbiamo recensito in termini di VRAM:

Laptop	GPU	VRAM dedicata	Punteggio AI	Prezzo (Regno Unito)	Miglior caso d’uso AI
Dell Latitude 5540	Intel Iris Xe	0 GB (condivisa)	38	£280–£420	Solo inferenza CPU
ThinkPad T14 Gen 3	AMD Radeon 660M	0 GB (condivisa)	42	£320–£480	Inferenza CPU, strumenti API
ThinkPad T14s Gen 4	AMD Radeon 780M	0 GB (condivisa)	48	£420–£580	Inferenza CPU/iGPU più veloce
Dell Precision 5560	NVIDIA RTX A2000	4 GB GDDR6	62	£480–£680	SD 1.5, LLM accelerati da GPU
Legion 5 Gen 6	NVIDIA RTX 3060	6 GB GDDR6	71	£550–£750	SDXL, modelli da 13 miliardi di parametri, ComfyUI

Il passaggio da 0 GB a 4 GB di VRAM porta l’AI Score da un intervallo compreso tra 38 e 48 a 62. Il passaggio da 4 GB a 6 GB lo spinge a 71. Questo perché anche una piccola quantità di VRAM dedicata sblocca una categoria completamente diversa di carichi di lavoro AI.

Riepilogo

La VRAM è la memoria dedicata della GPU — separata dalla RAM di sistema, molto più veloce e mai aggiornabile nei laptop
È il collo di bottiglia n. 1 per l’IA locale — il tuo modello deve stare nella VRAM per un’inferenza GPU veloce
4 GB sono il minimo indispensabile per un’IA accelerata da GPU significativa; 6–8 GB sono il punto di equilibrio ideale per il 2026
Le GPU integrate hanno 0 GB di VRAM dedicata — possono eseguire solo l’inferenza CPU, che è 5–10 volte più lenta
Verifica sempre la presenza di VRAM dedicata al momento dell’acquisto — ignora le affermazioni di marketing relative alla “memoria GPU condivisa”
Per ulteriori informazioni sulla scelta del laptop usato giusto per l’IA, leggi la nostra guida completa all’acquisto