Requisitos de Ollama en portátil: VRAM y RAM para LLM locales (2026)

Q: ¿Qué significa la cuantización (Q4, Q8) para los requisitos?

La cuantización reduce un modelo almacenando los pesos con menor precisión. Q4 reduce aproximadamente a la mitad la memoria de Q8, así que un modelo 13B necesita unos 8 GB en Q4 frente a 14 GB en Q8, con una pequeña pérdida de calidad. En un portátil usado, Q4_K_M suele ser el punto justo entre tamaño y calidad.

Ollama es la forma más sencilla de ejecutar grandes modelos de lenguaje en local, pero «¿funcionará en mi portátil?» tiene una respuesta precisa: depende de la VRAM primero, luego la RAM, luego la CPU. Esta guía da los números reales por tamaño de modelo, para que emparejes un portátil usado con los modelos que realmente quieres ejecutar.

Si aún estás decidiendo si vale la pena una GPU dedicada, empieza por nuestra explicación de qué es la VRAM y por qué importa para la IA — es la base de todo lo que sigue.

La única regla: el modelo debe caber en memoria

Un LLM debe cargar sus pesos en memoria antes de generar un solo token. Dónde residen esos pesos decide tu velocidad:

En VRAM (memoria dedicada de la GPU): con diferencia, la más rápida. Un modelo 7B en VRAM funciona a 25–38 tokens/segundo.
En RAM del sistema (inferencia en CPU): funciona, pero lento — 3–6 tokens/segundo para un modelo 7B.
Repartido entre VRAM + RAM: cuando un modelo es algo grande para la VRAM, Ollama descarga algunas capas a la GPU y ejecuta el resto en la CPU. La velocidad queda en medio.

Así que la pregunta siempre es: ¿el modelo cuantizado cabe en mi VRAM? Si sí, obtienes inferencia rápida. Si no, recurres a la RAM y aceptas menor velocidad.

Requisitos por tamaño de modelo y cuantización

La tabla siguiente muestra la memoria que necesita cada modelo en los niveles de cuantización comunes, más el rendimiento realista en tres niveles de hardware. Los tokens/segundo son estimaciones para uso interactivo de un solo usuario.

Model	Quant	Memory needed	CPU only (RAM)	iGPU (780M)	dGPU 6–8 GB
Llama 3 7B	Q4_K_M	~5 GB	3–6 tok/s	6–10 tok/s	25–38 tok/s
Llama 3 7B	Q8	~8 GB	2–4 tok/s	4–7 tok/s	18–26 tok/s
13B	Q4_K_M	~8 GB	1.5–3 tok/s	3–5 tok/s	12–20 tok/s
13B	Q8	~14 GB	1–2 tok/s	n/a	16 GB VRAM
34B	Q4_K_M	~19 GB	0.5–1 tok/s	n/a	split only
70B	Q4_K_M	~40 GB	needs 64 GB RAM	n/a	n/a (laptop)

Conclusiones clave:

7B en Q4 es la base universal — funciona en casi todo con 8 GB de RAM.
13B en Q4 necesita ~8 GB: cómodo en una dGPU de 6 GB (parcial) o de 8 GB (completo).
13B en Q8 o 34B necesita de forma realista 16 GB de VRAM — el territorio del ThinkPad P15 Gen 2.
70B no es una carga para GPU de portátil; solo funciona lento en 64 GB de RAM del sistema.

Emparejar el hardware con tus necesidades

Portátiles solo CPU (sin GPU dedicada). Máquinas como el ThinkPad T14 Gen 3 ejecutan modelos 7B en CPU a 3–6 tok/s — bien para preguntas ocasionales, redacción y aprendizaje. 16 GB de RAM mínimo, 32 GB para el 13B. Una iGPU moderna (Radeon 780M) añade un empujón moderado sobre los gráficos integrados más antiguos.

Portátiles con dGPU de 6–8 GB. El punto ideal para la mayoría. Una tarjeta de 6 GB ejecuta 7B por completo en GPU y 13B parcialmente; una tarjeta de 8 GB como el Lenovo Legion 5 Gen 7 ejecuta 13B con comodidad y deja sitio para contextos más largos. Espera 25–38 tok/s en 7B — más rápido de lo que lees.

Portátiles con dGPU de 16 GB. Solo necesarios si quieres 13B en alta calidad (Q8), modelos 34B o trabajo de contexto largo. El ThinkPad P15 Gen 2 es la opción usada aquí.

La RAM importa incluso con una GPU

La VRAM ejecuta el modelo, pero la RAM del sistema contiene todo lo demás: el SO, tu editor, el navegador y cualquier capa del modelo que se desborde de la VRAM. Para la inferencia en GPU, 16 GB de RAM es el suelo y 32 GB la comodidad. Para la inferencia en CPU de modelos más grandes, la RAM es el almacén del modelo — 64 GB desbloquea modelos de clase 30B que ninguna GPU de portátil puede contener.

Consejos prácticos para portátiles usados

Compra según la VRAM, no el nombre de la GPU. Una GPU «Laptop» suele tener menos VRAM que su homónima de escritorio. Verifica la VRAM real en GPU-Z antes de comprar.
Empieza con Q4_K_M. Es el mejor compromiso tamaño/calidad para uso local; pasa a Q8 solo si te sobra VRAM.
Vigila la longitud de contexto. Los prompts largos y las ventanas de contexto grandes consumen memoria adicional sobre los pesos del modelo — deja margen.
El NVMe importa para el tiempo de carga, no la velocidad. Un SSD rápido carga el modelo en memoria antes, pero no cambia los tokens/segundo una vez en marcha.

Preguntas frecuentes

¿Cuánta VRAM necesito para ejecutar Ollama? Para una experiencia fluida, 6–8 GB de VRAM permiten ejecutar modelos 7B y 13B por completo en la GPU. Puedes ejecutar Ollama sin VRAM dedicada — recurre entonces a la CPU y la RAM del sistema — pero espera 3–5 tokens por segundo en un modelo 7B en lugar de 25–35 en una dGPU.

¿Puedo ejecutar Ollama sin una GPU dedicada? Sí. Ollama funciona en la CPU usando la RAM del sistema, y una GPU integrada moderna da un pequeño empujón. Un modelo 7B en Q4 necesita unos 8 GB de RAM y funciona a 3–6 tokens por segundo. Para uso ligero está bien; solo es más lento.

¿Cuánta RAM necesito para los LLM locales? Al menos 16 GB para los modelos 7B y 32 GB para ejecutar cómodamente el 13B. Para la inferencia en CPU de modelos más grandes (30B+), 64 GB es el suelo práctico.

¿Qué significa la cuantización (Q4, Q8) para los requisitos? La cuantización almacena los pesos con menor precisión para reducir el modelo. Q4 reduce aproximadamente a la mitad la memoria de Q8, así que un 13B necesita unos 8 GB en Q4 frente a 14 GB en Q8, con una pequeña pérdida de calidad. Q4_K_M suele ser el punto justo.

Para una lista de máquinas seleccionadas que alcanzan estos objetivos, consulta nuestra selección mejores portátiles usados para LLM locales.