Can I use system RAM instead of VRAM for AI?

Technically yes — tools like Ollama can offload model layers to system RAM. But system RAM is 10–20x slower than VRAM for GPU workloads, so inference speed drops dramatically. A 7B model that runs at 30+ tokens per second on GPU might manage 4–5 tok/s on CPU with system RAM.

Is 4 GB VRAM enough for AI in 2026?

Barely. 4 GB lets you run Ollama 7B models in Q4 quantisation and Stable Diffusion 1.5, but you'll hit the ceiling quickly. SDXL, FLUX, and 13B models all need more. If you're buying now, 6 GB is the realistic minimum.

Does AMD VRAM work for AI the same as NVIDIA?

Not in practice. Almost all AI software is built on NVIDIA's CUDA platform. AMD's ROCm alternative exists but has patchy support and frequent compatibility issues. For AI work, stick to NVIDIA GPUs.

Can I add more VRAM to my laptop later?

No. VRAM is soldered onto the graphics card and cannot be upgraded. Unlike system RAM, which uses replaceable SO-DIMM slots in many laptops, VRAM is fixed at purchase. This makes it the single most important spec to get right when buying.

¿Qué es la VRAM y por qué es importante para el desarrollo de la IA?

La VRAM (memoria de acceso aleatorio para vídeo) es la memoria dedicada de la tarjeta gráfica. Si tienes pensado ejecutar modelos de IA de forma local en tu portátil, la VRAM es la especificación más importante que debes tener en cuenta. Determina qué modelos puedes ejecutar, a qué velocidad lo hacen y si ciertas tareas son siquiera posibles.

Esta guía explica qué es realmente la VRAM, en qué se diferencia de la RAM normal, cuánta necesitas exactamente para diferentes cargas de trabajo de IA y las trampas habituales que debes evitar al comprar un portátil de segunda mano.

VRAM frente a RAM: ¿cuál es la diferencia?

Piensa en tu portátil como una cocina. La RAM del sistema es tu encimera: es donde la CPU realiza su trabajo general, alojando las pestañas del navegador, el editor de código, el sistema operativo y cualquier otra cosa que se esté ejecutando. La VRAM es una encimera separada y más pequeña dentro de un dispositivo especializado (la GPU) que está diseñado exclusivamente para gráficos y computación paralela.

Cuando ejecutas un modelo de IA en tu GPU, todo el modelo debe caber en esa encimera de la GPU: la VRAM. Si no cabe, ocurre una de dos cosas: o bien el modelo se niega a cargarse, o bien se desborda parcialmente hacia la encimera de la CPU (la RAM del sistema), que es considerablemente más lenta.

Esta es la diferencia fundamental:

	RAM del sistema	VRAM
Ubicación	Placa base (ranuras SO-DIMM o soldada)	Tarjeta gráfica (soldada, nunca actualizable)
Tamaños típicos en portátiles	8–64 GB	0–16 GB
Ancho de banda	~50 GB/s (DDR5)	~200–600 GB/s (GDDR6)
Utilizada por	CPU, sistema operativo, aplicaciones	GPU, pesos de modelos de IA, generación de imágenes
¿Ampliable?	A menudo sí (ranuras SO-DIMM)	Nunca

La diferencia de ancho de banda es crucial. La VRAM puede transferir datos entre 4 y 10 veces más rápido que la RAM del sistema. Cuando un modelo de IA genera tokens o renderiza una imagen, necesita leer y escribir miles de millones de números por segundo. Una VRAM rápida lo hace factible; una RAM del sistema lenta lo hace muy lento.

> Un portátil con 32 GB de RAM del sistema y 0 GB de VRAM no puede ejecutar Stable Diffusion. Un portátil con 16 GB de RAM del sistema y 6 GB de VRAM sí puede. Las cifras de la ficha técnica que más importan son las que aparecen junto a «VRAM» o «Memoria de la GPU».

Por qué la VRAM es fundamental para la IA

Todas las tareas locales importantes de IA están limitadas fundamentalmente por la VRAM.

Carga de modelos de lenguaje grandes (LLM) en la memoria de la GPU

Cuando se ejecuta un modelo de lenguaje a través de Ollama o LM Studio, los pesos del modelo deben residir en la memoria. La cuantificación (comprimir el modelo de una precisión de 16 bits a 4 bits) reduce drásticamente el espacio de memoria, pero incluso los modelos cuantificados son grandes:

Modelo de 7 000 millones de parámetros (Llama 3, Mistral 7B) con cuantificación Q4: ~4–6 GB
Modelo de 13 000 millones de parámetros (Llama 2 13B, DeepSeek-Coder) en Q4: ~8–10 GB
Modelo de 70 000 millones de parámetros (Llama 3 70B) en Q4: ~35–40 GB — solo en portátiles con descarga a la CPU

Si el modelo cabe por completo en la VRAM, se obtiene una inferencia rápida acelerada por GPU —normalmente entre 20 y 40 tokens por segundo—. Si no cabe, Ollama descarga capas a la RAM del sistema y la velocidad cae a entre 3 y 5 tokens por segundo. Esa es la diferencia entre una experiencia de chat usable y ver cómo se seca la pintura.

Generación de imágenes

Stable Diffusion y sus sucesores necesitan VRAM para los pesos del modelo, la imagen que se está generando y el cálculo intermedio:

Stable Diffusion 1.5: ~4 GB de VRAM como mínimo, 6 GB para un rendimiento óptimo
Stable Diffusion XL (SDXL): ~6 GB como mínimo, 8 GB para un rendimiento óptimo
FLUX.1: ~8 GB como mínimo, 10–12 GB para un rendimiento óptimo

Quedarse sin VRAM durante la generación de imágenes suele significar un fallo por falta de memoria, no una ralentización gradual. O se tiene suficiente o no se tiene.

Ajuste fino

El ajuste fino de un modelo con tus propios datos es la tarea que más VRAM consume. Incluso técnicas eficientes como LoRA (Low-Rank Adaptation) necesitan mantener en memoria simultáneamente el modelo, el lote de datos de entrenamiento, los gradientes y el estado del optimizador:

Ajuste fino LoRA de un modelo de 7 000 millones: ~6–8 GB de VRAM como mínimo
QLoRA (LoRA cuantificado): ~4–6 GB — la opción más eficiente en cuanto a memoria
Ajuste fino completo: poco práctico en portátiles — utiliza computación en la nube

¿Cuánta VRAM necesitas realmente?

Esta tabla recoge las tareas de IA más comunes y sus requisitos de VRAM en el mundo real:

Tarea	VRAM mín.	Cómodo	Notas
Ollama 7B (Q4_K_M)	4 GB	6 GB	Deja margen para la sobrecarga del sistema
Ollama 13B (Q4_K_M)	8 GB	10 GB	Justo con 8 GB — cerca del límite
Stable Diffusion 1.5	4 GB	6 GB	Imágenes de 512x512, 20-30 pasos
SDXL	6 GB	8 GB	Imágenes de 1024x1024
FLUX.1	8 GB	12 GB	Última generación, consume mucha memoria
Ajuste fino de LoRA (7B)	6 GB	8 GB	Con QLoRA se reduce a ~4 GB
Flujos de trabajo de ComfyUI	6 GB	8–12 GB	Depende de la complejidad del flujo de trabajo
Transcripción con Whisper	2 GB	4 GB	Funciona bien con GPU modestas

VRAM en portátiles: errores habituales

Buscar un portátil de segunda mano con «buena VRAM» está plagado de posibles errores. Esto es lo que hay que tener en cuenta.

La VRAM de las GPU móviles no es la misma que la de las de sobremesa

La tarjeta RTX 4090 para sobremesa tiene 24 GB de VRAM. La GPU RTX 4090 para portátiles tiene 16 GB. Mismo nombre, chip diferente, memoria diferente. Comprueba siempre la variante móvil específica: no des por sentado que las especificaciones de los portátiles coinciden con las de los de sobremesa.

Del mismo modo, la RTX 3060 existe en versiones de sobremesa de 6 GB y 12 GB, pero la RTX 3060 móvil siempre es de 6 GB. La denominación es confusa a propósito.

Memoria compartida frente a VRAM dedicada

Los portátiles con GPU integradas (Intel Iris Xe, AMD Radeon 680M/780M) no tienen VRAM dedicada. Comparten la RAM del sistema con la GPU, lo que significa que:

La GPU «toma prestados» entre 2 y 4 GB de la RAM del sistema
Esta memoria compartida funciona a la velocidad de la RAM del sistema (~50 GB/s), no a la velocidad de la VRAM (~200+ GB/s)
Es entre 4 y 10 veces más lenta para cargas de trabajo de IA que la VRAM dedicada
Las especificaciones que indican «hasta 16 GB de memoria de GPU» en una GPU integrada son engañosas: solo se trata de la RAM del sistema compartida

Tanto el ThinkPad T14 Gen 3 como el Dell Latitude 5540 cuentan con GPU integradas con 0 GB de VRAM dedicada. Pueden ejecutar modelos de lenguaje grande (LLM) en la CPU, pero la generación de imágenes y la inferencia acelerada por GPU no son posibles.

«GPU de 16 GB» no siempre significa lo que crees

Algunas fichas de portátiles anuncian «16 GB de memoria de GPU» para equipos con gráficos integrados. Técnicamente, se trata de la cantidad máxima de RAM del sistema que la GPU integrada puede direccionar, no de VRAM dedicada. El rendimiento real de IA de 16 GB de memoria compartida no se acerca ni de lejos a los 16 GB de VRAM GDDR6 dedicada.

Si un anuncio no especifica «dedicada» ni menciona un modelo de GPU discreta de NVIDIA/AMD, asume que se trata de memoria compartida y considera que la VRAM efectiva es 0.

Cómo elegir: niveles de VRAM para 2026

Nivel 1: Sin VRAM dedicada (solo GPU integrada)

Lo que puedes hacer: Inferencia LLM solo con CPU (lenta — 3–5 tokens/s), herramientas de IA basadas en API (Copilot, ChatGPT, Claude), transcripción con Whisper en CPU.

Lo que no puedes hacer: Stable Diffusion, SDXL, FLUX, inferencia acelerada por GPU, ajuste fino.

Ejemplos de portátiles: ThinkPad T14 Gen 3 (Puntuación de IA: 42, 320–480 £), Dell Latitude 5540 (Puntuación de IA: 38, 280–420 £).

Ideal para: Estudiantes con un presupuesto ajustado que quieran aprender los fundamentos de la IA y ejecutar modelos pequeños sin gastar más de 500 £.

Nivel 2: 4-6 GB de VRAM — El punto de partida

Lo que puedes hacer: Ollama 7B a plena velocidad de la GPU (20–30 tok/s), Stable Diffusion 1.5, SDXL (ajustado con 6 GB), LoRA básico con QLoRA.

Lo que no puedes hacer: FLUX, modelos de 13 000 millones de parámetros en la GPU, ajuste fino complejo.

Ejemplos de portátiles: Dell Precision 5560 (4 GB de VRAM, puntuación de IA: 62, 480–680 £), Legion 5 Gen 6 (6 GB de VRAM, puntuación de IA: 71, 550–750 £).

Ideal para: Cualquiera que quiera IA acelerada por GPU sin gastar más de 800 £.

Nivel 3: 8–16 GB de VRAM — Trabajo serio con IA

Lo que puedes hacer: modelos de 13 000 millones de parámetros sin problemas, SDXL y FLUX, ajuste fino con LoRA, flujos de trabajo con ComfyUI, múltiples modelos simultáneamente.

Lo que no puedes hacer: modelos de 70 000 millones de parámetros totalmente en la GPU (aún se necesita descarga a la CPU), ajuste fino completo.

Ejemplos de portátiles: Portátiles para juegos de segunda mano con RTX 3070/3080 (8-16 GB), ThinkPad serie P con RTX A4000/A5000.

Ideal para: Profesionales y aficionados avanzados que necesitan una inferencia de IA y una generación de imágenes fiables y rápidas.

VRAM y los portátiles que hemos analizado

Así es como se comparan los portátiles que hemos analizado en cuanto a VRAM:

Portátil	GPU	VRAM dedicada	Puntuación de IA	Precio (Reino Unido)	Mejor caso de uso de IA
Dell Latitude 5540	Intel Iris Xe	0 GB (compartida)	38	280–420 £	Solo inferencia por CPU
ThinkPad T14 Gen 3	AMD Radeon 660M	0 GB (compartida)	42	320–480 £	Inferencia por CPU, herramientas API
ThinkPad T14s Gen 4	AMD Radeon 780M	0 GB (compartida)	48	420–580 £	Inferencia más rápida por CPU/iGPU
Dell Precision 5560	NVIDIA RTX A2000	4 GB GDDR6	62	480–680 £	SD 1.5, LLM acelerados por GPU
Legion 5 Gen 6	NVIDIA RTX 3060	6 GB GDDR6	71	550–750 £	SDXL, modelos de 13 000 millones de parámetros, ComfyUI

El salto de 0 GB a 4 GB de VRAM eleva la puntuación de IA del rango de 38-48 a 62. El salto de 4 GB a 6 GB la eleva a 71. Esto se debe a que incluso una pequeña cantidad de VRAM dedicada abre las puertas a una categoría completamente diferente de cargas de trabajo de IA.

Resumen

La VRAM es la memoria dedicada de la GPU: independiente de la RAM del sistema, mucho más rápida y nunca actualizable en portátiles
Es el principal cuello de botella para la IA local: tu modelo debe caber en la VRAM para una inferencia rápida por GPU
4 GB es el mínimo imprescindible para una IA acelerada por GPU significativa; 6-8 GB es el punto óptimo para 2026
Las GPU integradas tienen 0 GB de VRAM dedicada: solo pueden realizar inferencia por CPU, que es entre 5 y 10 veces más lenta
Comprueba siempre que haya VRAM dedicada al comprar; ignora las afirmaciones de marketing sobre «memoria de GPU compartida»
Para obtener más información sobre cómo elegir el portátil de segunda mano adecuado para IA, lee nuestra guía completa de compra