Qu'est-ce que la VRAM et pourquoi est-elle importante pour le développement de l'IA ?
La VRAM (mémoire vidéo à accès aléatoire) est la mémoire dédiée de votre carte graphique. Si vous prévoyez d’exécuter des modèles d’IA localement sur votre ordinateur portable, la VRAM est la caractéristique la plus importante à prendre en compte. Elle détermine les modèles que vous pouvez exécuter, leur vitesse d’exécution et si certaines tâches sont tout simplement possibles.
Ce guide explique ce qu’est réellement la VRAM, en quoi elle diffère de la RAM classique, la quantité exacte dont vous avez besoin pour différentes charges de travail d’IA, ainsi que les pièges courants à éviter lors de l’achat d’un ordinateur portable d’occasion.
VRAM vs RAM — Quelle est la différence ?
Considérez votre ordinateur portable comme une cuisine. La RAM système est votre plan de travail : c’est là que le processeur effectue ses tâches générales, en gérant vos onglets de navigateur, votre éditeur de code, votre système d’exploitation et tout ce qui est en cours d’exécution. La VRAM est un plan de travail distinct et plus petit, situé à l’intérieur d’un appareil spécialisé (le GPU) conçu exclusivement pour le traitement graphique et le calcul parallèle.
Lorsque vous exécutez un modèle d’IA sur votre GPU, l’intégralité du modèle doit tenir sur ce plan de travail du GPU — la VRAM. S’il ne tient pas, deux scénarios sont possibles : soit le modèle refuse de se charger, soit il déborde partiellement sur le plan de travail du processeur (la RAM système), qui est nettement plus lent.
Voici la distinction essentielle :
| Mémoire vive système | VRAM | |
|---|---|---|
| Emplacement | Carte mère (emplacements SO-DIMM ou soudée) | Carte graphique (soudée, jamais évolutive) |
| Capacités typiques sur un ordinateur portable | 8–64 Go | 0–16 Go |
| Bande passante | ~50 Go/s (DDR5) | ~200–600 Go/s (GDDR6) |
| Utilisée par | CPU, système d’exploitation, applications | GPU, poids des modèles d’IA, génération d’images |
| Extensible ? | Souvent oui (emplacements SO-DIMM) | Jamais |
La différence de bande passante est cruciale. La VRAM peut transférer des données 4 à 10 fois plus vite que la RAM système. Lorsqu’un modèle d’IA génère des jetons ou rend une image, il doit lire et écrire des milliards de chiffres par seconde. Une VRAM rapide rend cela possible ; une RAM système lente rend la tâche pénible.
> Un ordinateur portable doté de 32 Go de RAM système et de 0 Go de VRAM ne peut pas exécuter Stable Diffusion. Un ordinateur portable doté de 16 Go de RAM système et de 6 Go de VRAM le peut. Les chiffres les plus importants sur la fiche technique sont ceux indiqués à côté de « VRAM » ou « Mémoire GPU ».
Pourquoi la VRAM est essentielle pour l’IA
Toutes les tâches locales majeures en matière d’IA sont fondamentalement limitées par la VRAM.
Chargement des LLM dans la mémoire GPU
Lorsque vous exécutez un modèle linguistique via Ollama ou LM Studio, les poids du modèle doivent être stockés en mémoire. La quantification (compression du modèle d’une précision de 16 bits à 4 bits) réduit considérablement l’empreinte mémoire, mais même les modèles quantifiés restent volumineux :
- Modèle à 7 milliards de paramètres (Llama 3, Mistral 7B) en quantification Q4 : ~4–6 Go
- Modèle à 13 milliards de paramètres (Llama 2 13B, DeepSeek-Coder) en Q4 : ~8–10 Go
- Modèle à 70 milliards de paramètres (Llama 3 70B) en Q4 : ~35–40 Go — utilisable sur ordinateur portable uniquement avec déchargement sur le CPU
Si le modèle tient entièrement dans la VRAM, vous bénéficiez d’une inférence rapide accélérée par le GPU — généralement 20–40 tokens par seconde. S’il ne tient pas, Ollama décharge des couches vers la RAM système, et la vitesse chute à 3–5 tokens par seconde. C’est la différence entre une expérience de chat utilisable et regarder la peinture sécher.
Génération d’images
Stable Diffusion et ses successeurs ont besoin de VRAM pour les poids du modèle, l’image en cours de génération et les calculs intermédiaires :
- Stable Diffusion 1.5 : ~4 Go de VRAM minimum, 6 Go pour un fonctionnement optimal
- Stable Diffusion XL (SDXL) : ~6 Go minimum, 8 Go pour un fonctionnement optimal
- FLUX.1 : environ 8 Go minimum, 10 à 12 Go pour un fonctionnement optimal
Manquer de VRAM pendant la génération d’images entraîne généralement un plantage dû à un manque de mémoire — et non un simple ralentissement progressif. Soit vous en avez assez, soit vous n’en avez pas assez.
Réglage fin
Le réglage fin d’un modèle sur vos propres données est la tâche la plus gourmande en VRAM. Même des techniques efficaces comme LoRA (Low-Rank Adaptation) doivent conserver simultanément en mémoire le modèle, le lot de données d’entraînement, les gradients et l’état de l’optimiseur :
- Réglage fin LoRA d’un modèle 7B : environ 6 à 8 Go de VRAM minimum
- QLoRA (LoRA quantifié) : ~4–6 Go — l’option la plus économe en mémoire
- Réglage fin complet : irréalisable sur un ordinateur portable — utilisez le cloud computing
De combien de VRAM avez-vous réellement besoin ?
Ce tableau présente les tâches d’IA les plus courantes et leurs besoins réels en VRAM :
| Tâche | VRAM min. | Confortable | Remarques |
|---|---|---|---|
| Ollama 7B (Q4_K_M) | 4 Go | 6 Go | Laisse de la marge pour la surcharge du système |
| Ollama 13B (Q4_K_M) | 8 Go | 10 Go | Juste avec 8 Go — proche de la limite |
| Stable Diffusion 1.5 | 4 Go | 6 Go | Images 512x512, 20 à 30 étapes |
| SDXL | 6 Go | 8 Go | Images 1024x1024 |
| FLUX.1 | 8 Go | 12 Go | Dernière génération, très gourmand en mémoire |
| Réglage fin LoRA (7B) | 6 Go | 8 Go | L’utilisation de QLoRA réduit la consommation à environ 4 Go |
| Workflows ComfyUI | 6 Go | 8 à 12 Go | Dépend de la complexité du workflow |
| Transcription Whisper | 2 Go | 4 Go | Fonctionne bien sur des GPU modestes |
VRAM sur les ordinateurs portables — Pièges courants
L’achat d’un ordinateur portable d’occasion doté d’une « bonne VRAM » comporte de nombreux pièges. Voici ce à quoi il faut faire attention.
La VRAM des GPU mobiles n’est pas celle des GPU de bureau
La carte de bureau RTX 4090 dispose de 24 Go de VRAM. Le GPU RTX 4090 pour ordinateur portable en dispose de 16 Go. Même nom, puce différente, mémoire différente. Vérifiez toujours la variante mobile spécifique — ne partez pas du principe que les spécifications des ordinateurs portables correspondent à celles des ordinateurs de bureau.
De même, la RTX 3060 existe en versions de bureau de 6 Go et 12 Go, mais la RTX 3060 mobile est toujours de 6 Go. La nomenclature est volontairement confuse.
Mémoire partagée vs VRAM dédiée
Les ordinateurs portables équipés de GPU intégrés (Intel Iris Xe, AMD Radeon 680M/780M) ne disposent d’aucune VRAM dédiée. Ils partagent la mémoire vive (RAM) du système avec le GPU, ce qui signifie :
- Le GPU « emprunte » 2 à 4 Go à la mémoire vive (RAM) de votre système
- Cette mémoire partagée fonctionne à la vitesse de la RAM système (~50 Go/s), et non à celle de la VRAM (~200+ Go/s)
- Elle est 4 à 10 fois plus lente pour les charges de travail IA que la VRAM dédiée
- Les descriptions indiquant « jusqu’à 16 Go de mémoire GPU » sur un GPU intégré sont trompeuses : il s’agit simplement de votre RAM système partagée
Le ThinkPad T14 Gen 3 et le Dell Latitude 5540 sont tous deux équipés de GPU intégrés avec 0 Go de VRAM dédiée. Ils peuvent exécuter des LLM sur le CPU, mais la génération d’images et l’inférence accélérée par GPU ne sont pas possibles.
« 16 Go de mémoire GPU » ne signifie pas toujours ce que vous pensez
Certaines fiches techniques d’ordinateurs portables annoncent « 16 Go de mémoire GPU » pour des machines dotées d’une carte graphique intégrée. Il s’agit techniquement de la quantité maximale de mémoire vive (RAM) système que le GPU intégré peut adresser — et non de mémoire vidéo dédiée (VRAM). Les performances réelles en matière d’IA d’une mémoire partagée de 16 Go sont loin d’égaler celles de 16 Go de mémoire vidéo GDDR6 dédiée.
Si une fiche produit ne précise pas « dédiée » ou ne mentionne pas de modèle de GPU discret NVIDIA/AMD, partez du principe qu’il s’agit de mémoire partagée et considérez la VRAM effective comme étant de 0.
Comment choisir : niveaux de VRAM pour 2026
Niveau 1 : Pas de VRAM dédiée (GPU intégré uniquement)
Ce que vous pouvez faire : Inférence LLM sur CPU uniquement (lente — 3 à 5 tok/s), outils IA basés sur des API (Copilot, ChatGPT, Claude), transcription Whisper sur CPU.
Ce que vous ne pouvez pas faire : Stable Diffusion, SDXL, FLUX, inférence accélérée par GPU, réglage fin.
Exemples d’ordinateurs portables : ThinkPad T14 Gen 3 (Score IA : 42, 320–480 £), Dell Latitude 5540 (Score IA : 38, 280–420 £).
Idéal pour : Les étudiants au budget serré qui souhaitent apprendre les bases de l’IA et exécuter de petits modèles tout en dépensant moins de 500 £.
Niveau 2 : 4 à 6 Go de VRAM — Le point d’entrée
Ce que vous pouvez faire : Ollama 7B à pleine vitesse GPU (20–30 tok/s), Stable Diffusion 1.5, SDXL (limité à 6 Go), LoRA de base avec QLoRA.
Ce que vous ne pouvez pas faire : FLUX, modèles 13B sur GPU, réglages fins complexes.
Exemples d’ordinateurs portables : Dell Precision 5560 (4 Go de VRAM, score IA : 62, 480–680 £), Legion 5 Gen 6 (6 Go de VRAM, score IA : 71, 550–750 £).
Idéal pour : toute personne souhaitant bénéficier d’une IA accélérée par GPU sans dépenser plus de 800 £.
Niveau 3 : 8 à 16 Go de VRAM — Travail IA intensif
Ce que vous pouvez faire : Modèles de 13 milliards de paramètres sans difficulté, SDXL et FLUX, réglage fin LoRA, workflows ComfyUI, plusieurs modèles simultanément.
Ce que vous ne pouvez pas faire : Modèles de 70 milliards de paramètres entièrement sur GPU (nécessite toujours un déchargement vers le CPU), réglage fin complet.
Exemples d’ordinateurs portables : Ordinateurs portables de jeu d’occasion équipés d’une RTX 3070/3080 (8 à 16 Go), ThinkPad série P avec RTX A4000/A5000.
Idéal pour : Les professionnels et les amateurs sérieux qui ont besoin d’une inférence IA et d’une génération d’images fiables et rapides.
VRAM et les ordinateurs portables que nous avons testés
Voici comment les ordinateurs portables que nous avons testés se classent en termes de VRAM :
| Ordinateur portable | GPU | VRAM dédiée | Score IA | Prix (Royaume-Uni) | Meilleur cas d’utilisation IA |
|---|---|---|---|---|---|
| Dell Latitude 5540 | Intel Iris Xe | 0 Go (partagée) | 38 | 280–420 £ | Inférence CPU uniquement |
| ThinkPad T14 Gen 3 | AMD Radeon 660M | 0 Go (partagée) | 42 | 320–480 £ | Inférence CPU, outils API |
| ThinkPad T14s Gen 4 | AMD Radeon 780M | 0 Go (partagé) | 48 | 420 £ – 580 £ | Inférence CPU/iGPU plus rapide |
| Dell Precision 5560 | NVIDIA RTX A2000 | 4 Go GDDR6 | 62 | 480–680 £ | SD 1.5, LLM accélérés par GPU |
| Legion 5 Gen 6 | NVIDIA RTX 3060 | 6 Go GDDR6 | 71 | 550–750 £ | SDXL, modèles 13B, ComfyUI |
Le passage de 0 Go à 4 Go de VRAM fait passer le score IA de 38–48 à 62. Le passage de 4 Go à 6 Go le porte à 71. En effet, même une petite quantité de VRAM dédiée débloque une catégorie de charges de travail IA totalement différente.
Résumé
- La VRAM est la mémoire dédiée du GPU — distincte de la RAM système, bien plus rapide, et jamais extensible sur les ordinateurs portables
- C’est le principal goulot d’étranglement de l’IA locale — votre modèle doit tenir dans la VRAM pour permettre une inférence GPU rapide
- 4 Go constituent le strict minimum pour une IA accélérée par GPU significative ; 6 à 8 Go constituent le juste milieu pour 2026
- Les GPU intégrés disposent de 0 Go de VRAM dédiée — ils ne peuvent effectuer que de l’inférence CPU, qui est 5 à 10 fois plus lente
- Vérifiez toujours la présence de VRAM dédiée lors de votre achat — ignorez les arguments marketing sur la « mémoire GPU partagée »
- Pour plus d’informations sur le choix du bon ordinateur portable d’occasion pour l’IA, consultez notre guide d’achat complet