La quantification GGUF expliquée (Q4 vs Q8 vs FP16) : ce qui tourne sur un portable
Si vous avez déjà téléchargé un LLM local et vu des fichiers nommés Q4_K_M, Q5_K_S, Q8_0 ou FP16, vous avez rencontré la quantification — le concept le plus important pour faire tourner des modèles d’IA sur un portable d’occasion. C’est la quantification qui permet à un modèle réclamant 13 Go en pleine précision de tourner dans 4 Go de VRAM avec une perte de qualité à peine perceptible. La comprendre vous dit exactement quels modèles votre portable peut exécuter avant de télécharger un fichier de 10 Go qui ne se chargera pas.
Ce guide explique la quantification GGUF en termes simples, montre le compromis qualité/mémoire et vous donne un tableau indiquant quel quant tient dans 4, 6, 8 et 16 Go de VRAM.
Ce que fait réellement la quantification
Un réseau de neurones, ce sont des milliards de nombres (les poids). Lorsqu’un modèle est entraîné, chaque poids est stocké sous forme de nombre 16 bits — FP16 ou BF16, la « pleine précision » pour notre propos. Un modèle de 7 milliards de paramètres en FP16 pèse environ 13 Go, car 7 milliards de poids × 2 octets ≈ 14 Go.
La quantification stocke chaque poids avec moins de bits — 8, 5, 4, voire 2 — en projetant la plage de valeurs sur une grille plus fine. L’échange est simple :
- Moins de bits → fichier plus petit, moins de VRAM/RAM, chargement plus rapide.
- Moins de bits → poids un peu moins précis → qualité de sortie légèrement inférieure.
La découverte remarquable de ces dernières années est que les grands modèles de langage tolèrent cela extraordinairement bien. Passer de 16 bits à 4 bits réduit un modèle d’environ 70 % tout en conservant la grande majorité de sa qualité en chat, code et résumé. C’est toute la raison pour laquelle l’IA locale sur du matériel modeste est viable — et pourquoi la VRAM est la spécification qui compte le plus à l’achat d’un portable.
GGUF et les K-quants
GGUF est le format de fichier utilisé par llama.cpp et Ollama — les deux outils avec lesquels la plupart des gens font tourner des modèles locaux. Un fichier GGUF regroupe les poids quantifiés et des métadonnées pour que tout environnement d’exécution compatible puisse le charger. La nomenclature paraît cryptique mais se décode proprement :
- Le chiffre correspond aux bits par poids :
Q4≈ 4 bits,Q5≈ 5 bits,Q8≈ 8 bits. _Kdésigne un K-quant — un schéma plus malin qui fait varier la précision dans le modèle, protégeant les poids les plus sensibles._S,_M,_Lsont les variantes small / medium / large du K-quant :Q4_K_Mconserve un peu plus de précision queQ4_K_S.Q8_0etQ4_0sont d’anciens quants « legacy » sans schéma K — généralement supplantés par les K-quants à taille égale.
Pour presque tout le monde, Q4_K_M est le choix par défaut : le meilleur équilibre entre taille, vitesse et qualité. Passez à Q5_K_M ou Q6_K si vous avez de la mémoire en réserve ; ne visez Q8_0 que lorsque vous voulez une sortie quasi sans perte et que vous avez la VRAM pour.
Le compromis qualité / mémoire
| Quant | Bits/poids | Taille vs FP16 | Qualité | Quand l’utiliser |
|---|---|---|---|---|
| FP16/BF16 | 16 | 100% | Référence (pleine) | Fine-tuning et entraînement uniquement |
| Q8_0 | ~8 | ~53% | Quasi sans perte | Mémoire en réserve ; fidélité maximale |
| Q6_K | ~6.5 | ~41% | Excellent | Haute qualité avec économies modérées |
| Q5_K_M | ~5.5 | ~35% | Très bon | Une marche sûre au-dessus de Q4 si la VRAM suit |
| Q4_K_M | ~4.5 | ~28% | Bon (par défaut) | Le point d’équilibre quotidien sur portable |
| Q3_K_M | ~3.5 | ~22% | Nettement dégradé | Caser un modèle plus gros dans une VRAM serrée |
| Q2_K | ~2.6 | ~16% | Médiocre / dernier recours | Uniquement pour que le modèle se charge |
L’enseignement pratique : Q4_K_M à Q5_K_M est la zone que vous voulez. En dessous de Q3, le modèle commence à faire plus d’erreurs, à se répéter et à moins bien suivre les instructions. Au-dessus de Q6, vous payez beaucoup de mémoire pour des gains que la plupart des tâches sur portable ne remarqueront pas.
Quel quant tient dans votre VRAM ?
La règle approximative : taille du fichier GGUF + 1 à 2 Go de surcharge (contexte, cache KV, environnement d’exécution) correspond à ce qu’il faut en VRAM pour exécuter un modèle entièrement sur le GPU. Si le modèle dépasse votre VRAM, Ollama et llama.cpp déportent certaines couches vers la RAM système — ça tourne quand même, juste plus lentement, donc beaucoup de RAM compte aussi.
| Votre VRAM | Modèle confortable + quant | Exemple de portable |
|---|---|---|
| 4 GB | 7B at Q4_K_M (partiellement déporté), 3B sur GPU | ThinkPad X1 Extreme Gen 4 |
| 6 GB | 7B at Q4_K_M tout sur GPU ; 13B partiellement déporté | Lenovo Legion 5 Gen 6 |
| 8 GB | 7B at Q5/Q6 ; 13B at Q4_K_M tout sur GPU | ASUS ROG Zephyrus G14 |
| 16 GB | 13B at Q6/Q8 ; 34B at Q4 (juste) ; fine-tuning | ThinkPad P15 Gen 2 |
Remarquez comment un modèle 13B qui ne tient pas sur une carte de 6 Go tient bien sur 8 Go en Q4_K_M — cette seule marche explique pourquoi 8 Go est un palier de VRAM aussi décisif. Pour le panorama de vitesse modèle par modèle, voyez notre guide des exigences d’Ollama sur portable.
Et Stable Diffusion et FLUX ?
Les modèles d’image fonctionnent différemment — ils ne sont pas distribués sous forme de quants de chat GGUF — mais la même logique de mémoire s’applique. SDXL veut 6 à 8 Go de VRAM pour être confortable ; FLUX.1 est le gros morceau. FLUX en pleine précision réclame environ 16 Go, mais FLUX quantifié (builds communautaires GGUF/Q8 et Q4) le ramène à tourner sur des cartes de 8 Go, exactement comme la quantification le fait pour les LLM. Un portable de 8 Go fait donc tourner FLUX quantifié ; seuls 16 Go le font tourner en pleine précision. Voyez les meilleurs portables d’occasion pour Stable Diffusion pour les paliers matériels.
Recommandations pratiques
- Commencez par Q4_K_M. C’est le choix par défaut pour de bonnes raisons. Ne changez que si vous avez un besoin précis.
- Adaptez le modèle à votre VRAM, pas à votre ambition. Un 7B at Q4_K_M tournant entièrement sur le GPU bat un 13B à moitié déporté en RAM qui rampe.
- Ajoutez de la RAM si vous comptez déporter. 32 Go de RAM système permettent à un GPU de 4 à 8 Go d’exécuter de plus gros modèles en débordant des couches sur le CPU.
- Gardez FP16 pour le seul fine-tuning. L’inférence n’en a presque jamais besoin ; l’entraînement, si — et c’est une affaire de 16 Go de VRAM.
FAQ
Que signifie Q4 dans un fichier de modèle GGUF ?
Q4 signifie que les poids du modèle sont quantifiés à environ 4 bits chacun au lieu de 16. Un fichier Q4_K_M fait à peu près le quart de la taille de l’original FP16, si bien qu’un modèle 7B passe de ~13 Go à ~4 Go. La perte de qualité est faible pour la plupart des tâches de chat et de code, ce qui explique pourquoi Q4_K_M est le quant le plus populaire sur portable.
Q8 est-il nettement meilleur que Q4 ?
Q8 est plus proche du modèle en pleine précision et un peu plus précis, mais pour la plupart des usages sur portable la différence avec Q4_K_M est difficile à percevoir au quotidien en chat, résumé et code. Q8 double à peu près la taille du fichier et l’empreinte VRAM/RAM par rapport à Q4, on ne le choisit donc que lorsqu’on a de la mémoire à revendre ou qu’on vise une fidélité maximale.
Ai-je besoin de FP16 pour faire tourner un modèle en local ?
Non. FP16 (ou BF16) est le format pleine précision utilisé pour l’entraînement et le fine-tuning, pas pour l’inférence quotidienne sur un portable. Pour exécuter des modèles en local, un GGUF quantifié (Q4 ou Q5) donne presque les mêmes réponses pour une fraction de la mémoire. Réservez FP16 au fine-tuning, qui réclame un GPU de 16 Go comme le ThinkPad P15 Gen 2.
Comment savoir si un quant tiendra dans ma VRAM ?
En règle générale, la taille du fichier GGUF plus 1 à 2 Go de surcharge correspond à ce qu’il faut en VRAM pour tourner entièrement sur le GPU. Un modèle 7B Q4_K_M de 4,4 Go a besoin d’environ 6 Go de VRAM pour être confortable. Si le modèle dépasse votre VRAM, llama.cpp et Ollama peuvent déporter certaines couches vers la RAM système — plus lent, mais ça marche.