Can I use system RAM instead of VRAM for AI?

Technically yes — tools like Ollama can offload model layers to system RAM. But system RAM is 10–20x slower than VRAM for GPU workloads, so inference speed drops dramatically. A 7B model that runs at 30+ tokens per second on GPU might manage 4–5 tok/s on CPU with system RAM.

Is 4 GB VRAM enough for AI in 2026?

Barely. 4 GB lets you run Ollama 7B models in Q4 quantisation and Stable Diffusion 1.5, but you'll hit the ceiling quickly. SDXL, FLUX, and 13B models all need more. If you're buying now, 6 GB is the realistic minimum.

Does AMD VRAM work for AI the same as NVIDIA?

Not in practice. Almost all AI software is built on NVIDIA's CUDA platform. AMD's ROCm alternative exists but has patchy support and frequent compatibility issues. For AI work, stick to NVIDIA GPUs.

Can I add more VRAM to my laptop later?

No. VRAM is soldered onto the graphics card and cannot be upgraded. Unlike system RAM, which uses replaceable SO-DIMM slots in many laptops, VRAM is fixed at purchase. This makes it the single most important spec to get right when buying.

Qu'est-ce que la VRAM et pourquoi est-elle importante pour le développement de l'IA ?

La VRAM (mémoire vidéo à accès aléatoire) est la mémoire dédiée de votre carte graphique. Si vous prévoyez d’exécuter des modèles d’IA localement sur votre ordinateur portable, la VRAM est la caractéristique la plus importante à prendre en compte. Elle détermine les modèles que vous pouvez exécuter, leur vitesse d’exécution et si certaines tâches sont tout simplement possibles.

Ce guide explique ce qu’est réellement la VRAM, en quoi elle diffère de la RAM classique, la quantité exacte dont vous avez besoin pour différentes charges de travail d’IA, ainsi que les pièges courants à éviter lors de l’achat d’un ordinateur portable d’occasion.

VRAM vs RAM — Quelle est la différence ?

Considérez votre ordinateur portable comme une cuisine. La RAM système est votre plan de travail : c’est là que le processeur effectue ses tâches générales, en gérant vos onglets de navigateur, votre éditeur de code, votre système d’exploitation et tout ce qui est en cours d’exécution. La VRAM est un plan de travail distinct et plus petit, situé à l’intérieur d’un appareil spécialisé (le GPU) conçu exclusivement pour le traitement graphique et le calcul parallèle.

Lorsque vous exécutez un modèle d’IA sur votre GPU, l’intégralité du modèle doit tenir sur ce plan de travail du GPU — la VRAM. S’il ne tient pas, deux scénarios sont possibles : soit le modèle refuse de se charger, soit il déborde partiellement sur le plan de travail du processeur (la RAM système), qui est nettement plus lent.

Voici la distinction essentielle :

	Mémoire vive système	VRAM
Emplacement	Carte mère (emplacements SO-DIMM ou soudée)	Carte graphique (soudée, jamais évolutive)
Capacités typiques sur un ordinateur portable	8–64 Go	0–16 Go
Bande passante	~50 Go/s (DDR5)	~200–600 Go/s (GDDR6)
Utilisée par	CPU, système d’exploitation, applications	GPU, poids des modèles d’IA, génération d’images
Extensible ?	Souvent oui (emplacements SO-DIMM)	Jamais

La différence de bande passante est cruciale. La VRAM peut transférer des données 4 à 10 fois plus vite que la RAM système. Lorsqu’un modèle d’IA génère des jetons ou rend une image, il doit lire et écrire des milliards de chiffres par seconde. Une VRAM rapide rend cela possible ; une RAM système lente rend la tâche pénible.

> Un ordinateur portable doté de 32 Go de RAM système et de 0 Go de VRAM ne peut pas exécuter Stable Diffusion. Un ordinateur portable doté de 16 Go de RAM système et de 6 Go de VRAM le peut. Les chiffres les plus importants sur la fiche technique sont ceux indiqués à côté de « VRAM » ou « Mémoire GPU ».

Pourquoi la VRAM est essentielle pour l’IA

Toutes les tâches locales majeures en matière d’IA sont fondamentalement limitées par la VRAM.

Chargement des LLM dans la mémoire GPU

Lorsque vous exécutez un modèle linguistique via Ollama ou LM Studio, les poids du modèle doivent être stockés en mémoire. La quantification (compression du modèle d’une précision de 16 bits à 4 bits) réduit considérablement l’empreinte mémoire, mais même les modèles quantifiés restent volumineux :

Modèle à 7 milliards de paramètres (Llama 3, Mistral 7B) en quantification Q4 : ~4–6 Go
Modèle à 13 milliards de paramètres (Llama 2 13B, DeepSeek-Coder) en Q4 : ~8–10 Go
Modèle à 70 milliards de paramètres (Llama 3 70B) en Q4 : ~35–40 Go — utilisable sur ordinateur portable uniquement avec déchargement sur le CPU

Si le modèle tient entièrement dans la VRAM, vous bénéficiez d’une inférence rapide accélérée par le GPU — généralement 20–40 tokens par seconde. S’il ne tient pas, Ollama décharge des couches vers la RAM système, et la vitesse chute à 3–5 tokens par seconde. C’est la différence entre une expérience de chat utilisable et regarder la peinture sécher.

Génération d’images

Stable Diffusion et ses successeurs ont besoin de VRAM pour les poids du modèle, l’image en cours de génération et les calculs intermédiaires :

Stable Diffusion 1.5 : ~4 Go de VRAM minimum, 6 Go pour un fonctionnement optimal
Stable Diffusion XL (SDXL) : ~6 Go minimum, 8 Go pour un fonctionnement optimal
FLUX.1 : environ 8 Go minimum, 10 à 12 Go pour un fonctionnement optimal

Manquer de VRAM pendant la génération d’images entraîne généralement un plantage dû à un manque de mémoire — et non un simple ralentissement progressif. Soit vous en avez assez, soit vous n’en avez pas assez.

Réglage fin

Le réglage fin d’un modèle sur vos propres données est la tâche la plus gourmande en VRAM. Même des techniques efficaces comme LoRA (Low-Rank Adaptation) doivent conserver simultanément en mémoire le modèle, le lot de données d’entraînement, les gradients et l’état de l’optimiseur :

Réglage fin LoRA d’un modèle 7B : environ 6 à 8 Go de VRAM minimum
QLoRA (LoRA quantifié) : ~4–6 Go — l’option la plus économe en mémoire
Réglage fin complet : irréalisable sur un ordinateur portable — utilisez le cloud computing

De combien de VRAM avez-vous réellement besoin ?

Ce tableau présente les tâches d’IA les plus courantes et leurs besoins réels en VRAM :

Tâche	VRAM min.	Confortable	Remarques
Ollama 7B (Q4_K_M)	4 Go	6 Go	Laisse de la marge pour la surcharge du système
Ollama 13B (Q4_K_M)	8 Go	10 Go	Juste avec 8 Go — proche de la limite
Stable Diffusion 1.5	4 Go	6 Go	Images 512x512, 20 à 30 étapes
SDXL	6 Go	8 Go	Images 1024x1024
FLUX.1	8 Go	12 Go	Dernière génération, très gourmand en mémoire
Réglage fin LoRA (7B)	6 Go	8 Go	L’utilisation de QLoRA réduit la consommation à environ 4 Go
Workflows ComfyUI	6 Go	8 à 12 Go	Dépend de la complexité du workflow
Transcription Whisper	2 Go	4 Go	Fonctionne bien sur des GPU modestes

VRAM sur les ordinateurs portables — Pièges courants

L’achat d’un ordinateur portable d’occasion doté d’une « bonne VRAM » comporte de nombreux pièges. Voici ce à quoi il faut faire attention.

La VRAM des GPU mobiles n’est pas celle des GPU de bureau

La carte de bureau RTX 4090 dispose de 24 Go de VRAM. Le GPU RTX 4090 pour ordinateur portable en dispose de 16 Go. Même nom, puce différente, mémoire différente. Vérifiez toujours la variante mobile spécifique — ne partez pas du principe que les spécifications des ordinateurs portables correspondent à celles des ordinateurs de bureau.

De même, la RTX 3060 existe en versions de bureau de 6 Go et 12 Go, mais la RTX 3060 mobile est toujours de 6 Go. La nomenclature est volontairement confuse.

Mémoire partagée vs VRAM dédiée

Les ordinateurs portables équipés de GPU intégrés (Intel Iris Xe, AMD Radeon 680M/780M) ne disposent d’aucune VRAM dédiée. Ils partagent la mémoire vive (RAM) du système avec le GPU, ce qui signifie :

Le GPU « emprunte » 2 à 4 Go à la mémoire vive (RAM) de votre système
Cette mémoire partagée fonctionne à la vitesse de la RAM système (~50 Go/s), et non à celle de la VRAM (~200+ Go/s)
Elle est 4 à 10 fois plus lente pour les charges de travail IA que la VRAM dédiée
Les descriptions indiquant « jusqu’à 16 Go de mémoire GPU » sur un GPU intégré sont trompeuses : il s’agit simplement de votre RAM système partagée

Le ThinkPad T14 Gen 3 et le Dell Latitude 5540 sont tous deux équipés de GPU intégrés avec 0 Go de VRAM dédiée. Ils peuvent exécuter des LLM sur le CPU, mais la génération d’images et l’inférence accélérée par GPU ne sont pas possibles.

« 16 Go de mémoire GPU » ne signifie pas toujours ce que vous pensez

Certaines fiches techniques d’ordinateurs portables annoncent « 16 Go de mémoire GPU » pour des machines dotées d’une carte graphique intégrée. Il s’agit techniquement de la quantité maximale de mémoire vive (RAM) système que le GPU intégré peut adresser — et non de mémoire vidéo dédiée (VRAM). Les performances réelles en matière d’IA d’une mémoire partagée de 16 Go sont loin d’égaler celles de 16 Go de mémoire vidéo GDDR6 dédiée.

Si une fiche produit ne précise pas « dédiée » ou ne mentionne pas de modèle de GPU discret NVIDIA/AMD, partez du principe qu’il s’agit de mémoire partagée et considérez la VRAM effective comme étant de 0.

Comment choisir : niveaux de VRAM pour 2026

Niveau 1 : Pas de VRAM dédiée (GPU intégré uniquement)

Ce que vous pouvez faire : Inférence LLM sur CPU uniquement (lente — 3 à 5 tok/s), outils IA basés sur des API (Copilot, ChatGPT, Claude), transcription Whisper sur CPU.

Ce que vous ne pouvez pas faire : Stable Diffusion, SDXL, FLUX, inférence accélérée par GPU, réglage fin.

Exemples d’ordinateurs portables : ThinkPad T14 Gen 3 (Score IA : 42, 320–480 £), Dell Latitude 5540 (Score IA : 38, 280–420 £).

Idéal pour : Les étudiants au budget serré qui souhaitent apprendre les bases de l’IA et exécuter de petits modèles tout en dépensant moins de 500 £.

Niveau 2 : 4 à 6 Go de VRAM — Le point d’entrée

Ce que vous pouvez faire : Ollama 7B à pleine vitesse GPU (20–30 tok/s), Stable Diffusion 1.5, SDXL (limité à 6 Go), LoRA de base avec QLoRA.

Ce que vous ne pouvez pas faire : FLUX, modèles 13B sur GPU, réglages fins complexes.

Exemples d’ordinateurs portables : Dell Precision 5560 (4 Go de VRAM, score IA : 62, 480–680 £), Legion 5 Gen 6 (6 Go de VRAM, score IA : 71, 550–750 £).

Idéal pour : toute personne souhaitant bénéficier d’une IA accélérée par GPU sans dépenser plus de 800 £.

Niveau 3 : 8 à 16 Go de VRAM — Travail IA intensif

Ce que vous pouvez faire : Modèles de 13 milliards de paramètres sans difficulté, SDXL et FLUX, réglage fin LoRA, workflows ComfyUI, plusieurs modèles simultanément.

Ce que vous ne pouvez pas faire : Modèles de 70 milliards de paramètres entièrement sur GPU (nécessite toujours un déchargement vers le CPU), réglage fin complet.

Exemples d’ordinateurs portables : Ordinateurs portables de jeu d’occasion équipés d’une RTX 3070/3080 (8 à 16 Go), ThinkPad série P avec RTX A4000/A5000.

Idéal pour : Les professionnels et les amateurs sérieux qui ont besoin d’une inférence IA et d’une génération d’images fiables et rapides.

VRAM et les ordinateurs portables que nous avons testés

Voici comment les ordinateurs portables que nous avons testés se classent en termes de VRAM :

Ordinateur portable	GPU	VRAM dédiée	Score IA	Prix (Royaume-Uni)	Meilleur cas d’utilisation IA
Dell Latitude 5540	Intel Iris Xe	0 Go (partagée)	38	280–420 £	Inférence CPU uniquement
ThinkPad T14 Gen 3	AMD Radeon 660M	0 Go (partagée)	42	320–480 £	Inférence CPU, outils API
ThinkPad T14s Gen 4	AMD Radeon 780M	0 Go (partagé)	48	420 £ – 580 £	Inférence CPU/iGPU plus rapide
Dell Precision 5560	NVIDIA RTX A2000	4 Go GDDR6	62	480–680 £	SD 1.5, LLM accélérés par GPU
Legion 5 Gen 6	NVIDIA RTX 3060	6 Go GDDR6	71	550–750 £	SDXL, modèles 13B, ComfyUI

Le passage de 0 Go à 4 Go de VRAM fait passer le score IA de 38–48 à 62. Le passage de 4 Go à 6 Go le porte à 71. En effet, même une petite quantité de VRAM dédiée débloque une catégorie de charges de travail IA totalement différente.

Résumé

La VRAM est la mémoire dédiée du GPU — distincte de la RAM système, bien plus rapide, et jamais extensible sur les ordinateurs portables
C’est le principal goulot d’étranglement de l’IA locale — votre modèle doit tenir dans la VRAM pour permettre une inférence GPU rapide
4 Go constituent le strict minimum pour une IA accélérée par GPU significative ; 6 à 8 Go constituent le juste milieu pour 2026
Les GPU intégrés disposent de 0 Go de VRAM dédiée — ils ne peuvent effectuer que de l’inférence CPU, qui est 5 à 10 fois plus lente
Vérifiez toujours la présence de VRAM dédiée lors de votre achat — ignorez les arguments marketing sur la « mémoire GPU partagée »
Pour plus d’informations sur le choix du bon ordinateur portable d’occasion pour l’IA, consultez notre guide d’achat complet