La cuantización GGUF explicada (Q4 vs Q8 vs FP16): qué se ejecuta en un portátil
Si alguna vez has descargado un LLM local y has visto archivos llamados Q4_K_M, Q5_K_S, Q8_0 o FP16, te has topado con la cuantización — el concepto más importante para ejecutar modelos de IA en un portátil de segunda mano. La cuantización es lo que permite que un modelo que necesita 13 GB a plena precisión se ejecute en 4 GB de VRAM con una pérdida de calidad apenas perceptible. Entenderla te dice exactamente qué modelos puede ejecutar tu portátil antes de descargar un archivo de 10 GB que no llegará a cargar.
Esta guía explica la cuantización GGUF en términos sencillos, muestra el compromiso entre calidad y memoria y te ofrece una tabla de qué quant cabe en 4, 6, 8 y 16 GB de VRAM.
Qué hace realmente la cuantización
Una red neuronal son miles de millones de números (los pesos). Cuando se entrena un modelo, cada peso se almacena como un número de 16 bits — FP16 o BF16, la «plena precisión» para nuestro propósito. Un modelo de 7000 millones de parámetros en FP16 ocupa unos 13 GB, porque 7000 millones de pesos × 2 bytes ≈ 14 GB.
La cuantización almacena cada peso usando menos bits — 8, 5, 4, incluso 2 — proyectando el rango de valores sobre una rejilla más pequeña. El intercambio es sencillo:
- Menos bits → archivo más pequeño, menos VRAM/RAM, carga más rápida.
- Menos bits → pesos algo menos precisos → calidad de salida marginalmente inferior.
El hallazgo notable de los últimos años es que los grandes modelos de lenguaje toleran esto extraordinariamente bien. Pasar de 16 bits a 4 bits reduce un modelo en ~70% conservando la gran mayoría de su calidad para chat, código y resúmenes. Esa es toda la razón por la que la IA local en hardware modesto es viable — y por la que la VRAM es la especificación que más importa al comprar un portátil.
GGUF y los K-quants
GGUF es el formato de archivo que usan llama.cpp y Ollama — las dos herramientas con las que la mayoría de la gente ejecuta modelos en local. Un archivo GGUF agrupa los pesos cuantizados más los metadatos para que cualquier entorno de ejecución compatible pueda cargarlo. La nomenclatura parece críptica, pero se descifra con limpieza:
- El número indica los bits por peso:
Q4≈ 4 bits,Q5≈ 5 bits,Q8≈ 8 bits. _Kindica un K-quant — un esquema más inteligente que varía la precisión a lo largo del modelo, protegiendo los pesos más sensibles._S,_M,_Lson las variantes pequeña / mediana / grande del K-quant:Q4_K_Mconserva algo más de precisión queQ4_K_S.Q8_0yQ4_0son quants «legacy» más antiguos sin el esquema K — por lo general superados por los K-quants a igual tamaño.
Para casi todo el mundo, Q4_K_M es la opción por defecto: el mejor equilibrio entre tamaño, velocidad y calidad. Sube a Q5_K_M o Q6_K si te sobra memoria; recurre a Q8_0 solo cuando quieras una salida casi sin pérdidas y tengas la VRAM para ello.
El compromiso entre calidad y memoria
| Quant | Bits/peso | Tamaño vs FP16 | Calidad | Cuándo usarlo |
|---|---|---|---|---|
| FP16/BF16 | 16 | 100% | Referencia (plena) | Solo fine-tuning y entrenamiento |
| Q8_0 | ~8 | ~53% | Casi sin pérdidas | Memoria de sobra; máxima fidelidad |
| Q6_K | ~6.5 | ~41% | Excelente | Alta calidad con ahorro moderado |
| Q5_K_M | ~5.5 | ~35% | Muy buena | Un paso seguro por encima de Q4 si la VRAM lo permite |
| Q4_K_M | ~4.5 | ~28% | Buena (por defecto) | El punto óptimo diario para portátiles |
| Q3_K_M | ~3.5 | ~22% | Notablemente degradada | Encajar un modelo mayor en una VRAM ajustada |
| Q2_K | ~2.6 | ~16% | Pobre / último recurso | Solo para que un modelo llegue a cargar |
La conclusión práctica: de Q4_K_M a Q5_K_M es la zona que quieres. Por debajo de Q3 el modelo empieza a cometer más errores, a repetirse y a seguir peor las instrucciones. Por encima de Q6 pagas mucha memoria por ganancias que la mayoría de tareas en portátil no notará.
¿Qué quant cabe en tu VRAM?
La regla aproximada: tamaño del archivo GGUF + 1–2 GB de sobrecarga (contexto, caché KV, entorno de ejecución) es lo que necesitas en VRAM para ejecutar un modelo por completo en la GPU. Si el modelo es mayor que tu VRAM, Ollama y llama.cpp descargarán algunas capas a la RAM del sistema — sigue funcionando, solo que más lento, así que tener mucha RAM también importa.
| Tu VRAM | Modelo cómodo + quant | Portátil de ejemplo |
|---|---|---|
| 4 GB | 7B at Q4_K_M (parte descargada), 3B todo en GPU | ThinkPad X1 Extreme Gen 4 |
| 6 GB | 7B at Q4_K_M todo en GPU; 13B parte descargada | Lenovo Legion 5 Gen 6 |
| 8 GB | 7B at Q5/Q6; 13B at Q4_K_M todo en GPU | ASUS ROG Zephyrus G14 |
| 16 GB | 13B at Q6/Q8; 34B at Q4 (justo); fine-tuning | ThinkPad P15 Gen 2 |
Fíjate en cómo un modelo 13B que no cabe en una tarjeta de 6 GB sí cabe en 8 GB con Q4_K_M — ese único paso es la razón por la que 8 GB es un nivel de VRAM tan significativo. Para el panorama de velocidad modelo por modelo, consulta nuestra guía de requisitos de Ollama en portátil.
¿Y Stable Diffusion y FLUX?
Los modelos de imagen funcionan de otra forma — no se distribuyen como quants de chat GGUF — pero se aplica la misma lógica de memoria. SDXL quiere 6–8 GB de VRAM para ir cómodo; FLUX.1 es el grande. FLUX a plena precisión necesita unos 16 GB, pero FLUX cuantizado (builds comunitarios GGUF/Q8 y Q4) lo rebaja hasta ejecutarse en tarjetas de 8 GB, exactamente como hace la cuantización con los LLM. Así que un portátil de 8 GB ejecuta FLUX cuantizado; solo 16 GB lo ejecutan a plena precisión. Consulta los mejores portátiles de segunda mano para Stable Diffusion para ver los niveles de hardware.
Recomendaciones prácticas
- Empieza con Q4_K_M. Es el valor por defecto por algo. Cámbialo solo si tienes una necesidad concreta.
- Ajusta el modelo a tu VRAM, no a tu ambición. Un 7B at Q4_K_M ejecutándose por completo en la GPU supera a un 13B descargado a medias en RAM que va a rastras.
- Añade RAM si vas a descargar. 32 GB de RAM del sistema permiten que una GPU de 4–8 GB ejecute modelos más grandes derramando capas a la CPU.
- Reserva FP16 solo para el fine-tuning. La inferencia casi nunca lo necesita; el entrenamiento sí — y es una tarea de 16 GB de VRAM.
FAQ
¿Qué significa Q4 en un archivo de modelo GGUF?
Q4 significa que los pesos del modelo están cuantizados a unos 4 bits cada uno en lugar de 16. Un archivo Q4_K_M ocupa alrededor de un cuarto del tamaño del original FP16, así que un modelo 7B baja de ~13 GB a ~4 GB. La pérdida de calidad es pequeña en la mayoría de tareas de chat y código, y por eso Q4_K_M es el quant más popular en portátiles.
¿Es Q8 notablemente mejor que Q4?
Q8 está más cerca del modelo a plena precisión y es algo más preciso, pero para la mayoría del uso en portátil la diferencia frente a Q4_K_M es difícil de notar en el chat, los resúmenes y el código del día a día. Q8 duplica aproximadamente el tamaño del archivo y la huella de VRAM/RAM frente a Q4, así que solo lo eliges cuando tienes memoria de sobra o necesitas la máxima fidelidad.
¿Necesito FP16 para ejecutar un modelo en local?
No. FP16 (o BF16) es el formato de plena precisión que se usa para el entrenamiento y el fine-tuning, no para la inferencia diaria en un portátil. Para ejecutar modelos en local, un GGUF cuantizado (Q4 o Q5) da casi las mismas respuestas con una fracción de la memoria. Reserva FP16 para el fine-tuning, que requiere una GPU de 16 GB como el ThinkPad P15 Gen 2.
¿Cómo sé si un quant cabrá en mi VRAM?
Como regla aproximada, el tamaño del archivo GGUF más 1–2 GB de sobrecarga es lo que necesitas en VRAM para ejecutarlo por completo en la GPU. Un modelo 7B Q4_K_M de 4,4 GB necesita unos 6 GB de VRAM para ir cómodo. Si el modelo es mayor que tu VRAM, llama.cpp y Ollama pueden descargar algunas capas a la RAM del sistema — más lento, pero funciona.