Prérequis Ollama sur portable : VRAM et RAM pour LLM locaux (2026)

Q: Que signifie la quantisation (Q4, Q8) pour les besoins ?

La quantisation réduit un modèle en stockant les poids à précision inférieure. Q4 divise grossièrement par deux la mémoire de Q8 : un modèle 13B nécessite environ 8 Go en Q4 contre 14 Go en Q8, avec une petite baisse de qualité. Sur un portable d’occasion, Q4_K_M est le bon compromis entre taille et qualité.

Ollama est le moyen le plus simple d’exécuter des grands modèles de langage en local, mais « est-ce que ça tournera sur mon portable ? » a une réponse précise : cela dépend de la VRAM d’abord, puis de la RAM, puis du CPU. Ce guide donne les vrais chiffres par taille de modèle, pour associer un portable d’occasion aux modèles que vous voulez réellement exécuter.

Si vous hésitez encore sur l’intérêt d’un GPU dédié, commencez par notre explication de ce qu’est la VRAM et pourquoi elle compte pour l’IA — c’est le socle de tout ce qui suit.

La règle unique : le modèle doit tenir en mémoire

Un LLM doit charger ses poids en mémoire avant de générer le moindre token. L’endroit où ces poids résident détermine votre vitesse :

En VRAM (mémoire GPU dédiée) : de loin le plus rapide. Un modèle 7B en VRAM tourne à 25–38 tokens/seconde.
En RAM système (inférence CPU) : fonctionne, mais lent — 3–6 tokens/seconde pour un modèle 7B.
Réparti VRAM + RAM : quand un modèle est un peu trop gros pour la VRAM, Ollama décharge quelques couches sur le GPU et exécute le reste sur le CPU. La vitesse se situe entre les deux.

La question est donc toujours : le modèle quantisé tient-il dans ma VRAM ? Si oui, vous obtenez une inférence rapide. Si non, vous repliez sur la RAM et acceptez une vitesse moindre.

Besoins par taille de modèle et quantisation

Le tableau ci-dessous indique la mémoire requise par chaque modèle aux niveaux de quantisation courants, plus le débit réaliste sur trois niveaux de matériel. Les tokens/seconde sont des estimations pour un usage interactif mono-utilisateur.

Model	Quant	Memory needed	CPU only (RAM)	iGPU (780M)	dGPU 6–8 GB
Llama 3 7B	Q4_K_M	~5 GB	3–6 tok/s	6–10 tok/s	25–38 tok/s
Llama 3 7B	Q8	~8 GB	2–4 tok/s	4–7 tok/s	18–26 tok/s
13B	Q4_K_M	~8 GB	1.5–3 tok/s	3–5 tok/s	12–20 tok/s
13B	Q8	~14 GB	1–2 tok/s	n/a	16 GB VRAM
34B	Q4_K_M	~19 GB	0.5–1 tok/s	n/a	split only
70B	Q4_K_M	~40 GB	needs 64 GB RAM	n/a	n/a (laptop)

À retenir :

7B en Q4 est la base universelle — tourne sur presque tout avec 8 Go de RAM.
13B en Q4 nécessite ~8 Go : confortable sur un dGPU 6 Go (partiel) ou 8 Go (complet).
13B en Q8 ou 34B nécessite réellement 16 Go de VRAM — le territoire du ThinkPad P15 Gen 2.
70B n’est pas une charge pour GPU portable ; il ne tourne lentement que sur 64 Go de RAM système.

Adapter le matériel à vos besoins

Portables CPU uniquement (sans GPU dédié). Des machines comme le ThinkPad T14 Gen 3 exécutent des 7B sur CPU à 3–6 tok/s — bien pour des questions ponctuelles, de la rédaction et l’apprentissage. 16 Go de RAM minimum, 32 Go pour le 13B. Un iGPU moderne (Radeon 780M) apporte un gain modéré sur les graphiques intégrés plus anciens.

Portables avec dGPU 6–8 Go. Le point idéal pour la plupart. Une carte 6 Go exécute 7B entièrement sur GPU et 13B partiellement ; une carte 8 Go comme le Lenovo Legion 5 Gen 7 exécute 13B confortablement avec de la marge pour un contexte plus long. Comptez 25–38 tok/s en 7B — plus vite que vous ne lisez.

Portables avec dGPU 16 Go. Nécessaire seulement pour du 13B haute qualité (Q8), des modèles 34B ou du travail à long contexte. Le ThinkPad P15 Gen 2 est l’option d’occasion ici.

La RAM compte aussi avec un GPU

La VRAM exécute le modèle, mais la RAM système contient tout le reste : l’OS, votre éditeur, le navigateur et toutes les couches de modèle qui débordent de la VRAM. Pour l’inférence GPU, 16 Go de RAM est le plancher et 32 Go le confort. Pour l’inférence CPU de plus gros modèles, la RAM est le stockage du modèle — 64 Go débloque des modèles de classe 30B qu’aucun GPU portable ne peut contenir.

Conseils pratiques pour portables d’occasion

Achetez selon la VRAM, pas le nom du GPU. Un GPU « Laptop » a souvent moins de VRAM que son homonyme desktop. Vérifiez la vraie VRAM dans GPU-Z avant d’acheter.
Commencez par Q4_K_M. C’est le meilleur compromis taille/qualité pour un usage local ; ne passez à Q8 que si vous avez de la VRAM en réserve.
Surveillez la longueur de contexte. Les longs prompts et les grandes fenêtres de contexte consomment de la mémoire en plus des poids du modèle — gardez de la marge.
Le NVMe compte pour le temps de chargement, pas la vitesse. Un SSD rapide charge le modèle en mémoire plus vite mais ne change pas les tokens/seconde une fois lancé.

Foire aux questions

De combien de VRAM ai-je besoin pour exécuter Ollama ? Pour une expérience fluide, 6 à 8 Go de VRAM permettent d’exécuter des modèles 7B et 13B entièrement sur le GPU. Vous pouvez exécuter Ollama sans aucune VRAM dédiée — il bascule alors sur le CPU et la RAM système — mais attendez-vous à 3–5 tokens par seconde sur un modèle 7B au lieu de 25–35 sur un dGPU.

Puis-je exécuter Ollama sans GPU dédié ? Oui. Ollama tourne sur le CPU avec la RAM système, et un GPU intégré moderne apporte un léger gain. Un modèle 7B en Q4 nécessite environ 8 Go de RAM et tourne à 3–6 tokens par seconde. Pour un usage léger, cela suffit ; c’est juste plus lent.

De combien de RAM ai-je besoin pour les LLM locaux ? Au moins 16 Go pour les modèles 7B, et 32 Go pour exécuter confortablement le 13B. Pour l’inférence CPU de modèles plus gros (30B+), 64 Go est le plancher pratique.

Que signifie la quantisation (Q4, Q8) pour les besoins ? La quantisation stocke les poids à précision inférieure pour réduire le modèle. Q4 divise grossièrement par deux la mémoire de Q8 : un 13B nécessite environ 8 Go en Q4 contre 14 Go en Q8, avec une petite baisse de qualité. Q4_K_M est le bon compromis.

Pour une liste de machines triées sur le volet qui atteignent ces cibles, voyez notre sélection meilleurs portables d’occasion pour LLM locaux.