← Guide

Che cos'è la VRAM e perché è importante per lo sviluppo dell'IA?

La VRAM (Video Random Access Memory) è la memoria dedicata della scheda grafica. Se hai intenzione di eseguire modelli di IA in locale sul tuo portatile, la VRAM è la specifica più importante che devi conoscere. Determina quali modelli puoi eseguire, la loro velocità di esecuzione e se determinate attività sono effettivamente possibili.

Questa guida spiega cos’è effettivamente la VRAM, in che modo differisce dalla RAM standard, di quanta ne hai bisogno esattamente per diversi carichi di lavoro di IA e quali sono le insidie più comuni da evitare quando acquisti un laptop usato.

VRAM vs RAM — Qual è la differenza?

Immagina il tuo laptop come una cucina. La RAM di sistema è il tuo piano di lavoro: è dove la CPU svolge il suo lavoro generale, gestendo le schede del browser, l’editor di codice, il sistema operativo e qualsiasi altra cosa sia in esecuzione. La VRAM è un piano di lavoro separato e più piccolo all’interno di un dispositivo specializzato (la GPU) progettato esclusivamente per la grafica e il calcolo parallelo.

Quando esegui un modello di IA sulla tua GPU, l’intero modello deve stare su quel piano di lavoro della GPU: la VRAM. Se non ci sta, succede una delle due cose: o il modello si rifiuta di caricarsi, oppure si riversa parzialmente sul piano di lavoro della CPU (RAM di sistema), che è notevolmente più lento.

Ecco la distinzione fondamentale:

RAM di sistemaVRAM
UbicazioneScheda madre (slot SO-DIMM o saldata)Scheda grafica (saldata, non aggiornabile)
Dimensioni tipiche dei laptop8–64 GB0–16 GB
Larghezza di banda~50 GB/s (DDR5)~200–600 GB/s (GDDR6)
Utilizzata daCPU, sistema operativo, applicazioniGPU, pesi dei modelli di IA, generazione di immagini
Aggiornabile?Spesso sì (slot SO-DIMM)Mai

La differenza di larghezza di banda è fondamentale. La VRAM può trasferire i dati a una velocità da 4 a 10 volte superiore rispetto alla RAM di sistema. Quando un modello di IA genera token o rende un’immagine, deve leggere e scrivere miliardi di numeri al secondo. Una VRAM veloce rende questo possibile; una RAM di sistema lenta lo rende un’impresa ardua.

> Un laptop con 32 GB di RAM di sistema e 0 GB di VRAM non può eseguire Stable Diffusion. Un laptop con 16 GB di RAM di sistema e 6 GB di VRAM può farlo. I numeri sulla scheda tecnica che contano di più sono quelli accanto a “VRAM” o “Memoria GPU”.

Perché la VRAM è fondamentale per l’IA

Ogni attività locale di IA di rilievo è fondamentalmente limitata dalla VRAM.

Caricamento degli LLM nella memoria GPU

Quando si esegue un modello linguistico tramite Ollama o LM Studio, i pesi del modello devono risiedere in memoria. La quantizzazione (compressione del modello da una precisione a 16 bit a una a 4 bit) riduce drasticamente l’ingombro di memoria, ma anche i modelli quantizzati sono di grandi dimensioni:

  • Modello a 7 miliardi di parametri (Llama 3, Mistral 7B) con quantizzazione Q4: ~4–6 GB
  • Modello da 13 miliardi di parametri (Llama 2 13B, DeepSeek-Coder) in Q4: ~8–10 GB
  • Modello da 70 miliardi di parametri (Llama 3 70B) in Q4: ~35–40 GB — utilizzabile su laptop solo con offloading della CPU

Se il modello rientra interamente nella VRAM, si ottiene un’inferenza veloce accelerata dalla GPU — tipicamente 20–40 token al secondo. Se non ci sta, Ollama scarica i livelli nella RAM di sistema e la velocità scende a 3–5 token al secondo. Questa è la differenza tra un’esperienza di chat utilizzabile e guardare la vernice che si asciuga.

Generazione di immagini

Stable Diffusion e i suoi successori necessitano di VRAM per i pesi del modello, l’immagine in fase di generazione e i calcoli intermedi:

  • Stable Diffusion 1.5: ~4 GB di VRAM minimo, 6 GB per un funzionamento ottimale
  • Stable Diffusion XL (SDXL): ~6 GB minimo, 8 GB per un funzionamento ottimale
  • FLUX.1: ~8 GB minimo, 10–12 GB per un funzionamento ottimale

Esaurire la VRAM durante la generazione delle immagini di solito significa un crash per esaurimento di memoria — non un rallentamento graduale. O ne hai abbastanza o non ce l’hai.

Messa a punto

La messa a punto di un modello sui propri dati è l’attività che richiede più VRAM. Anche tecniche efficienti come LoRA (Low-Rank Adaptation) devono mantenere in memoria contemporaneamente il modello, il batch di dati di addestramento, i gradienti e lo stato dell’ottimizzatore:

  • Messa a punto LoRA di un modello da 7 miliardi: ~6–8 GB di VRAM minimo
  • QLoRA (LoRA quantizzato): ~4–6 GB — l’opzione più efficiente in termini di memoria
  • Ottimizzazione completa: impraticabile sui laptop — utilizzare il cloud computing

Quanta VRAM serve effettivamente?

Questa tabella illustra le attività di IA più comuni e i relativi requisiti di VRAM nel mondo reale:

AttivitàVRAM min.OttimaleNote
Ollama 7B (Q4_K_M)4 GB6 GBLascia spazio per l’overhead di sistema
Ollama 13B (Q4_K_M)8 GB10 GBLimitato a 8 GB — vicino al limite
Stable Diffusion 1.54 GB6 GBImmagini 512x512, 20–30 passaggi
SDXL6 GB8 GBImmagini 1024x1024
FLUX.18 GB12 GBUltima generazione, richiede molta memoria
Ottimizzazione LoRA (7B)6 GB8 GBCon QLoRA scende a ~4 GB
Flussi di lavoro ComfyUI6 GB8–12 GBDipende dalla complessità del flusso di lavoro
Trascrizione Whisper2 GB4 GBFunziona bene su GPU modeste

VRAM nei laptop — Insidie comuni

L’acquisto di un laptop usato con “buona VRAM” è pieno di potenziali errori. Ecco a cosa prestare attenzione.

La VRAM delle GPU mobili non è la VRAM dei desktop

La scheda desktop RTX 4090 ha 24 GB di VRAM. La GPU RTX 4090 per laptop ne ha 16 GB. Stesso nome, chip diverso, memoria diversa. Controlla sempre la variante mobile specifica: non dare per scontato che le specifiche del portatile corrispondano a quelle del desktop.

Allo stesso modo, la RTX 3060 esiste sia nella versione desktop da 6 GB che in quella da 12 GB, ma la RTX 3060 mobile è sempre da 6 GB. La denominazione è volutamente confusa.

Memoria condivisa vs VRAM dedicata

I laptop con GPU integrate (Intel Iris Xe, AMD Radeon 680M/780M) non hanno VRAM dedicata. Condividono la RAM di sistema con la GPU, il che significa:

  • La GPU “prende in prestito” 2–4 GB dalla RAM di sistema
  • Questa memoria condivisa funziona alla velocità della RAM di sistema (~50 GB/s), non a quella della VRAM (~200+ GB/s)
  • È da 4 a 10 volte più lenta per i carichi di lavoro di IA rispetto alla VRAM dedicata
  • Le descrizioni che indicano “fino a 16 GB di memoria GPU” su una GPU integrata sono fuorvianti: si tratta semplicemente della RAM di sistema condivisa

Sia il ThinkPad T14 Gen 3 che il Dell Latitude 5540 dispongono di GPU integrate con 0 GB di VRAM dedicata. Possono eseguire modelli di linguaggio (LLM) sulla CPU, ma la generazione di immagini e l’inferenza accelerata dalla GPU non sono possibili.

”16 GB di GPU” non significa sempre quello che pensi

Alcune schede tecniche dei laptop pubblicizzano “16 GB di memoria GPU” per macchine con grafica integrata. Tecnicamente, questa è la quantità massima di RAM di sistema che la GPU integrata può indirizzare — non VRAM dedicata. Le prestazioni effettive dell’IA con 16 GB di memoria condivisa non si avvicinano neanche lontanamente a quelle di 16 GB di VRAM GDDR6 dedicata.

Se un annuncio non specifica “dedicata” o non menziona un modello di GPU discreta NVIDIA/AMD, si deve presumere che si tratti di memoria condivisa e considerare la VRAM effettiva pari a 0.

Come scegliere: livelli di VRAM per il 2026

Livello 1: Nessuna VRAM dedicata (solo GPU integrata)

Cosa si può fare: Inferenza LLM solo su CPU (lenta — 3–5 tok/s), strumenti di IA basati su API (Copilot, ChatGPT, Claude), trascrizione Whisper su CPU.

Cosa non si può fare: Stable Diffusion, SDXL, FLUX, inferenza accelerata da GPU, fine-tuning.

Esempi di laptop: ThinkPad T14 Gen 3 (Punteggio AI: 42, £320–£480), Dell Latitude 5540 (Punteggio AI: 38, £280–£420).

Ideale per: Studenti con un budget limitato che vogliono imparare i fondamenti dell’IA ed eseguire modelli di piccole dimensioni spendendo meno di £500.

Livello 2: 4–6 GB di VRAM — Il punto di ingresso

Cosa puoi fare: Ollama 7B alla massima velocità della GPU (20–30 tok/s), Stable Diffusion 1.5, SDXL (al limite con 6 GB), LoRA di base con QLoRA.

Cosa non puoi fare: FLUX, modelli da 13 miliardi di parametri sulla GPU, ottimizzazione approfondita.

Esempi di laptop: Dell Precision 5560 (4 GB di VRAM, punteggio AI: 62, £480–£680), Legion 5 Gen 6 (6 GB di VRAM, punteggio AI: 71, £550–£750).

Ideale per: chiunque desideri un’IA accelerata da GPU senza spendere più di £800.

Livello 3: 8–16 GB di VRAM — Lavoro serio con l’IA

Cosa puoi fare: modelli da 13 miliardi di parametri senza problemi, SDXL e FLUX, ottimizzazione LoRA, flussi di lavoro ComfyUI, più modelli contemporaneamente.

Cosa non puoi fare: modelli da 70 miliardi di parametri interamente su GPU (serve ancora l’offload della CPU), ottimizzazione completa.

Esempi di laptop: laptop da gaming RTX 3070/3080 usati (8–16 GB), ThinkPad serie P con RTX A4000/A5000.

Ideale per: professionisti e appassionati seri che necessitano di inferenza AI e generazione di immagini affidabili e veloci.

VRAM e i nostri laptop recensiti

Ecco come si posizionano i laptop che abbiamo recensito in termini di VRAM:

LaptopGPUVRAM dedicataPunteggio AIPrezzo (Regno Unito)Miglior caso d’uso AI
Dell Latitude 5540Intel Iris Xe0 GB (condivisa)38£280–£420Solo inferenza CPU
ThinkPad T14 Gen 3AMD Radeon 660M0 GB (condivisa)42£320–£480Inferenza CPU, strumenti API
ThinkPad T14s Gen 4AMD Radeon 780M0 GB (condivisa)48£420–£580Inferenza CPU/iGPU più veloce
Dell Precision 5560NVIDIA RTX A20004 GB GDDR662£480–£680SD 1.5, LLM accelerati da GPU
Legion 5 Gen 6NVIDIA RTX 30606 GB GDDR671£550–£750SDXL, modelli da 13 miliardi di parametri, ComfyUI

Il passaggio da 0 GB a 4 GB di VRAM porta l’AI Score da un intervallo compreso tra 38 e 48 a 62. Il passaggio da 4 GB a 6 GB lo spinge a 71. Questo perché anche una piccola quantità di VRAM dedicata sblocca una categoria completamente diversa di carichi di lavoro AI.

  • La VRAM è la memoria dedicata della GPU — separata dalla RAM di sistema, molto più veloce e mai aggiornabile nei laptop
  • È il collo di bottiglia n. 1 per l’IA locale — il tuo modello deve stare nella VRAM per un’inferenza GPU veloce
  • 4 GB sono il minimo indispensabile per un’IA accelerata da GPU significativa; 6–8 GB sono il punto di equilibrio ideale per il 2026
  • Le GPU integrate hanno 0 GB di VRAM dedicata — possono eseguire solo l’inferenza CPU, che è 5–10 volte più lenta
  • Verifica sempre la presenza di VRAM dedicata al momento dell’acquisto — ignora le affermazioni di marketing relative alla “memoria GPU condivisa”
  • Per ulteriori informazioni sulla scelta del laptop usato giusto per l’IA, leggi la nostra guida completa all’acquisto

Articoli correlati