¿Qué es la VRAM y por qué es importante para el desarrollo de la IA?
La VRAM (memoria de acceso aleatorio para vídeo) es la memoria dedicada de la tarjeta gráfica. Si tienes pensado ejecutar modelos de IA de forma local en tu portátil, la VRAM es la especificación más importante que debes tener en cuenta. Determina qué modelos puedes ejecutar, a qué velocidad lo hacen y si ciertas tareas son siquiera posibles.
Esta guía explica qué es realmente la VRAM, en qué se diferencia de la RAM normal, cuánta necesitas exactamente para diferentes cargas de trabajo de IA y las trampas habituales que debes evitar al comprar un portátil de segunda mano.
VRAM frente a RAM: ¿cuál es la diferencia?
Piensa en tu portátil como una cocina. La RAM del sistema es tu encimera: es donde la CPU realiza su trabajo general, alojando las pestañas del navegador, el editor de código, el sistema operativo y cualquier otra cosa que se esté ejecutando. La VRAM es una encimera separada y más pequeña dentro de un dispositivo especializado (la GPU) que está diseñado exclusivamente para gráficos y computación paralela.
Cuando ejecutas un modelo de IA en tu GPU, todo el modelo debe caber en esa encimera de la GPU: la VRAM. Si no cabe, ocurre una de dos cosas: o bien el modelo se niega a cargarse, o bien se desborda parcialmente hacia la encimera de la CPU (la RAM del sistema), que es considerablemente más lenta.
Esta es la diferencia fundamental:
| RAM del sistema | VRAM | |
|---|---|---|
| Ubicación | Placa base (ranuras SO-DIMM o soldada) | Tarjeta gráfica (soldada, nunca actualizable) |
| Tamaños típicos en portátiles | 8–64 GB | 0–16 GB |
| Ancho de banda | ~50 GB/s (DDR5) | ~200–600 GB/s (GDDR6) |
| Utilizada por | CPU, sistema operativo, aplicaciones | GPU, pesos de modelos de IA, generación de imágenes |
| ¿Ampliable? | A menudo sí (ranuras SO-DIMM) | Nunca |
La diferencia de ancho de banda es crucial. La VRAM puede transferir datos entre 4 y 10 veces más rápido que la RAM del sistema. Cuando un modelo de IA genera tokens o renderiza una imagen, necesita leer y escribir miles de millones de números por segundo. Una VRAM rápida lo hace factible; una RAM del sistema lenta lo hace muy lento.
> Un portátil con 32 GB de RAM del sistema y 0 GB de VRAM no puede ejecutar Stable Diffusion. Un portátil con 16 GB de RAM del sistema y 6 GB de VRAM sí puede. Las cifras de la ficha técnica que más importan son las que aparecen junto a «VRAM» o «Memoria de la GPU».
Por qué la VRAM es fundamental para la IA
Todas las tareas locales importantes de IA están limitadas fundamentalmente por la VRAM.
Carga de modelos de lenguaje grandes (LLM) en la memoria de la GPU
Cuando se ejecuta un modelo de lenguaje a través de Ollama o LM Studio, los pesos del modelo deben residir en la memoria. La cuantificación (comprimir el modelo de una precisión de 16 bits a 4 bits) reduce drásticamente el espacio de memoria, pero incluso los modelos cuantificados son grandes:
- Modelo de 7 000 millones de parámetros (Llama 3, Mistral 7B) con cuantificación Q4: ~4–6 GB
- Modelo de 13 000 millones de parámetros (Llama 2 13B, DeepSeek-Coder) en Q4: ~8–10 GB
- Modelo de 70 000 millones de parámetros (Llama 3 70B) en Q4: ~35–40 GB — solo en portátiles con descarga a la CPU
Si el modelo cabe por completo en la VRAM, se obtiene una inferencia rápida acelerada por GPU —normalmente entre 20 y 40 tokens por segundo—. Si no cabe, Ollama descarga capas a la RAM del sistema y la velocidad cae a entre 3 y 5 tokens por segundo. Esa es la diferencia entre una experiencia de chat usable y ver cómo se seca la pintura.
Generación de imágenes
Stable Diffusion y sus sucesores necesitan VRAM para los pesos del modelo, la imagen que se está generando y el cálculo intermedio:
- Stable Diffusion 1.5: ~4 GB de VRAM como mínimo, 6 GB para un rendimiento óptimo
- Stable Diffusion XL (SDXL): ~6 GB como mínimo, 8 GB para un rendimiento óptimo
- FLUX.1: ~8 GB como mínimo, 10–12 GB para un rendimiento óptimo
Quedarse sin VRAM durante la generación de imágenes suele significar un fallo por falta de memoria, no una ralentización gradual. O se tiene suficiente o no se tiene.
Ajuste fino
El ajuste fino de un modelo con tus propios datos es la tarea que más VRAM consume. Incluso técnicas eficientes como LoRA (Low-Rank Adaptation) necesitan mantener en memoria simultáneamente el modelo, el lote de datos de entrenamiento, los gradientes y el estado del optimizador:
- Ajuste fino LoRA de un modelo de 7 000 millones: ~6–8 GB de VRAM como mínimo
- QLoRA (LoRA cuantificado): ~4–6 GB — la opción más eficiente en cuanto a memoria
- Ajuste fino completo: poco práctico en portátiles — utiliza computación en la nube
¿Cuánta VRAM necesitas realmente?
Esta tabla recoge las tareas de IA más comunes y sus requisitos de VRAM en el mundo real:
| Tarea | VRAM mín. | Cómodo | Notas |
|---|---|---|---|
| Ollama 7B (Q4_K_M) | 4 GB | 6 GB | Deja margen para la sobrecarga del sistema |
| Ollama 13B (Q4_K_M) | 8 GB | 10 GB | Justo con 8 GB — cerca del límite |
| Stable Diffusion 1.5 | 4 GB | 6 GB | Imágenes de 512x512, 20-30 pasos |
| SDXL | 6 GB | 8 GB | Imágenes de 1024x1024 |
| FLUX.1 | 8 GB | 12 GB | Última generación, consume mucha memoria |
| Ajuste fino de LoRA (7B) | 6 GB | 8 GB | Con QLoRA se reduce a ~4 GB |
| Flujos de trabajo de ComfyUI | 6 GB | 8–12 GB | Depende de la complejidad del flujo de trabajo |
| Transcripción con Whisper | 2 GB | 4 GB | Funciona bien con GPU modestas |
VRAM en portátiles: errores habituales
Buscar un portátil de segunda mano con «buena VRAM» está plagado de posibles errores. Esto es lo que hay que tener en cuenta.
La VRAM de las GPU móviles no es la misma que la de las de sobremesa
La tarjeta RTX 4090 para sobremesa tiene 24 GB de VRAM. La GPU RTX 4090 para portátiles tiene 16 GB. Mismo nombre, chip diferente, memoria diferente. Comprueba siempre la variante móvil específica: no des por sentado que las especificaciones de los portátiles coinciden con las de los de sobremesa.
Del mismo modo, la RTX 3060 existe en versiones de sobremesa de 6 GB y 12 GB, pero la RTX 3060 móvil siempre es de 6 GB. La denominación es confusa a propósito.
Memoria compartida frente a VRAM dedicada
Los portátiles con GPU integradas (Intel Iris Xe, AMD Radeon 680M/780M) no tienen VRAM dedicada. Comparten la RAM del sistema con la GPU, lo que significa que:
- La GPU «toma prestados» entre 2 y 4 GB de la RAM del sistema
- Esta memoria compartida funciona a la velocidad de la RAM del sistema (~50 GB/s), no a la velocidad de la VRAM (~200+ GB/s)
- Es entre 4 y 10 veces más lenta para cargas de trabajo de IA que la VRAM dedicada
- Las especificaciones que indican «hasta 16 GB de memoria de GPU» en una GPU integrada son engañosas: solo se trata de la RAM del sistema compartida
Tanto el ThinkPad T14 Gen 3 como el Dell Latitude 5540 cuentan con GPU integradas con 0 GB de VRAM dedicada. Pueden ejecutar modelos de lenguaje grande (LLM) en la CPU, pero la generación de imágenes y la inferencia acelerada por GPU no son posibles.
«GPU de 16 GB» no siempre significa lo que crees
Algunas fichas de portátiles anuncian «16 GB de memoria de GPU» para equipos con gráficos integrados. Técnicamente, se trata de la cantidad máxima de RAM del sistema que la GPU integrada puede direccionar, no de VRAM dedicada. El rendimiento real de IA de 16 GB de memoria compartida no se acerca ni de lejos a los 16 GB de VRAM GDDR6 dedicada.
Si un anuncio no especifica «dedicada» ni menciona un modelo de GPU discreta de NVIDIA/AMD, asume que se trata de memoria compartida y considera que la VRAM efectiva es 0.
Cómo elegir: niveles de VRAM para 2026
Nivel 1: Sin VRAM dedicada (solo GPU integrada)
Lo que puedes hacer: Inferencia LLM solo con CPU (lenta — 3–5 tokens/s), herramientas de IA basadas en API (Copilot, ChatGPT, Claude), transcripción con Whisper en CPU.
Lo que no puedes hacer: Stable Diffusion, SDXL, FLUX, inferencia acelerada por GPU, ajuste fino.
Ejemplos de portátiles: ThinkPad T14 Gen 3 (Puntuación de IA: 42, 320–480 £), Dell Latitude 5540 (Puntuación de IA: 38, 280–420 £).
Ideal para: Estudiantes con un presupuesto ajustado que quieran aprender los fundamentos de la IA y ejecutar modelos pequeños sin gastar más de 500 £.
Nivel 2: 4-6 GB de VRAM — El punto de partida
Lo que puedes hacer: Ollama 7B a plena velocidad de la GPU (20–30 tok/s), Stable Diffusion 1.5, SDXL (ajustado con 6 GB), LoRA básico con QLoRA.
Lo que no puedes hacer: FLUX, modelos de 13 000 millones de parámetros en la GPU, ajuste fino complejo.
Ejemplos de portátiles: Dell Precision 5560 (4 GB de VRAM, puntuación de IA: 62, 480–680 £), Legion 5 Gen 6 (6 GB de VRAM, puntuación de IA: 71, 550–750 £).
Ideal para: Cualquiera que quiera IA acelerada por GPU sin gastar más de 800 £.
Nivel 3: 8–16 GB de VRAM — Trabajo serio con IA
Lo que puedes hacer: modelos de 13 000 millones de parámetros sin problemas, SDXL y FLUX, ajuste fino con LoRA, flujos de trabajo con ComfyUI, múltiples modelos simultáneamente.
Lo que no puedes hacer: modelos de 70 000 millones de parámetros totalmente en la GPU (aún se necesita descarga a la CPU), ajuste fino completo.
Ejemplos de portátiles: Portátiles para juegos de segunda mano con RTX 3070/3080 (8-16 GB), ThinkPad serie P con RTX A4000/A5000.
Ideal para: Profesionales y aficionados avanzados que necesitan una inferencia de IA y una generación de imágenes fiables y rápidas.
VRAM y los portátiles que hemos analizado
Así es como se comparan los portátiles que hemos analizado en cuanto a VRAM:
| Portátil | GPU | VRAM dedicada | Puntuación de IA | Precio (Reino Unido) | Mejor caso de uso de IA |
|---|---|---|---|---|---|
| Dell Latitude 5540 | Intel Iris Xe | 0 GB (compartida) | 38 | 280–420 £ | Solo inferencia por CPU |
| ThinkPad T14 Gen 3 | AMD Radeon 660M | 0 GB (compartida) | 42 | 320–480 £ | Inferencia por CPU, herramientas API |
| ThinkPad T14s Gen 4 | AMD Radeon 780M | 0 GB (compartida) | 48 | 420–580 £ | Inferencia más rápida por CPU/iGPU |
| Dell Precision 5560 | NVIDIA RTX A2000 | 4 GB GDDR6 | 62 | 480–680 £ | SD 1.5, LLM acelerados por GPU |
| Legion 5 Gen 6 | NVIDIA RTX 3060 | 6 GB GDDR6 | 71 | 550–750 £ | SDXL, modelos de 13 000 millones de parámetros, ComfyUI |
El salto de 0 GB a 4 GB de VRAM eleva la puntuación de IA del rango de 38-48 a 62. El salto de 4 GB a 6 GB la eleva a 71. Esto se debe a que incluso una pequeña cantidad de VRAM dedicada abre las puertas a una categoría completamente diferente de cargas de trabajo de IA.
Resumen
- La VRAM es la memoria dedicada de la GPU: independiente de la RAM del sistema, mucho más rápida y nunca actualizable en portátiles
- Es el principal cuello de botella para la IA local: tu modelo debe caber en la VRAM para una inferencia rápida por GPU
- 4 GB es el mínimo imprescindible para una IA acelerada por GPU significativa; 6-8 GB es el punto óptimo para 2026
- Las GPU integradas tienen 0 GB de VRAM dedicada: solo pueden realizar inferencia por CPU, que es entre 5 y 10 veces más lenta
- Comprueba siempre que haya VRAM dedicada al comprar; ignora las afirmaciones de marketing sobre «memoria de GPU compartida»
- Para obtener más información sobre cómo elegir el portátil de segunda mano adecuado para IA, lee nuestra guía completa de compra