La VRAM, la star des LLM locaux

Lorsque l’on décide d’installer un modèle de langage large (LLM) sur sa propre machine, une question brûle toutes les lèvres : quelle config faut-il pour que ça tourne sans souffrir ? La réponse tient (presque) en un mot : VRAM. Oui, la mémoire vidéo de votre carte graphique est la clé de la réussite pour tout projet d’intelligence artificielle générative en local.

Mais attention, la VRAM n’est pas la seule invitée à la fête. Trois éléments font varier le besoin : le nombre de paramètres du modèle, la quantization (promis, ce n’est pas une insulte) et la taille de la « fenêtre de contexte ». Zoom sur ces trois facteurs qui transforment votre GPU en véritable cerveau artificiel.

Modèle LLM : La taille, ça compte vraiment !

Premier réflexe à adopter : regarder combien de « milliards de paramètres » embarque votre futur modèle.

Plus il y en a, plus le modèle est puissant.
Mais qui dit plus de neurones à faire tourner dit aussi plus de mémoire à réserver…

Petite règle d’or : il faut généralement prévoir deux fois la taille du modèle (en paramètres) en Go de VRAM. Un modèle de 24 milliards de paramètres ? Prévoyez 48 Go de VRAM pour être à l’aise, faire vos inférences et peut-être même jouer à Tetris en attendant que ça mouline !

Pour les modèles MoE (Mixture of Experts), cette règle s’applique uniquement sur la partition active du modèle. Résultat : une jolie économie de ressources puisqu’on ne charge pas tout l’ensemble d’un coup. C’est magique, mais attention, ces architectures nécessitent souvent plusieurs cartes graphiques bien synchronisées – à ne pas tenter sur le PC familial du salon.

Petit guide rapide d’usage :

Chatbot ou classification de texte : 3 à 7 milliards de paramètres suffisent.
Recherche augmentée (RAG), analyse contextuelle : 13 à 30 milliards commencent à devenir la norme.
Cas avancés comme multimodal, OCR ou orchestration intelligente : au-delà de 30 milliards de paramètres (attention à l’explosion de la consommation !).

Quantization : compresser sans dénaturer

Alias l’art de gagner en efficacité sans (trop) sacrifier la qualité. La quantization consiste à réduire la précision des nombres dans le modèle.

Version full précision : 16 bits. Qualité premium, mémoire massive.
Version quantized : 4 bits à 8 bits. Moins lourd, presque aussi performant, et ça évite de faire chauffer la carte graphique comme une raclette un soir d’hiver.

Prenons un modèle de 24 milliards de paramètres :

En 16 bits : 48 Go de VRAM
En 4 bits : 15 Go de VRAM (oui, c’est magique)

Tip d’expert :

Pour les usages « texte pur » : la quantization à 4 bits c’est le sweet spot.
Pour l’OCR ou l’image : visez plutôt 5 à 8 bits pour garder de la précision.
Les modèles non quantisés ? Gardez-les pour les missions ultra-stratégiques (mieux vaut ne pas tous les lancer au bureau lundi matin, sauf si vous voulez impressionner l’IT).

Fenêtre de contexte : pensez à l’espace de dialogue !

La fenêtre de contexte, ce n’est pas une baie vitrée ouverte sur la mer, mais la quantité de texte traitée en parallèle par votre LLM (en tokens). Plus elle est grande, plus votre besoin mémoire explose !

En dessous de 16k tokens, vous allez vite être limités pour les cas d’usage pros (analyse documentaire, chat avec un historique long…).
16k ou 32k tokens, c’est le nouvel eldorado pour garder la mémoire des conversations ou fouiller dans des rapports interminables.

L’astuce à retenir : chaque augmentation de la fenêtre de contexte fait grimper la consommation de VRAM presque linéairement. Donc, à surveiller comme votre stock de café lors d’une migration serveur !

Quelle carte graphique pour quel LLM ?

À chaque besoin son GPU, et il existe une configuration idéale pour chaque profil, du hacker du dimanche à l’entreprise Fortune 500.

Petits modèles, grandes ambitions : RTX 4060 et 4070

Pour des modèles jusqu’à 7 milliards de paramètres (quantized), les cartes Nvidia RTX 4060 ou 4070 (moins de 8 Go de VRAM) suffisent à faire tourner vos chatbots et expérimentations maison. C’est là que la démocratisation des LLM devient réalité… même sur le laptop de votre cousin !

Milieu de gamme : RTX 4070 Ti, 4090 ou RTX 3090

Pour des modèles jusqu’à 13 milliards de paramètres, et des fenêtres de contexte honorables (environ 16k tokens) : visez 12 à 16 Go de VRAM. La RTX 4070 Ti, la mythique RTX 3090 ou la surpuissante 4090 deviennent alors vos meilleures alliées.

Premium XXL : RTX 4090, Nvidia A6000

Place aux grands formats : pour des modèles de 30 milliards de paramètres toujours en quantization, préparez-vous… 24 Go de VRAM minimum sous le capot ! Là, votre PC se transforme en station de travail à faire pâlir les studios de cinéma.

Pour les géants : Nvidia L40, H100 et clusters de GPU

Vous souhaitez jouer dans la cour des très grands ? Si votre modèle frise les 70 milliards de paramètres ou plus, comptez 48 Go de VRAM (minimum !). La Nvidia H100 est alors la reine incontestée, mais mieux vaut avoir un banquier compréhensif…

Pour ceux qui rêvent de modèles à plus de 100 milliards (ou même 600 milliards…), il n’y a plus de miracle : seul un cluster de GPU, reliés par des interconnexions ultra rapides, fera l’affaire. Une opération réservée à un cercle très fermé d’élus (et de poches bien profondes).

Récap’ express

Cas d’usage	Nombre de paramètres	VRAM minimum	Carte graphique recommandée
Chatbot, texte simple	3-7 milliards	8 Go	RTX 4060 / 4070
RAG, usage pro contextuel	13-30 milliards	12-24 Go	RTX 3090 / 4090 / A6000
Analyse multimodale, OCR avancé	30-70 milliards	24-48 Go	RTX 4090 / L40 / H100
Modèles >100 milliards (cluster)	100-600+ milliards	48+ Go/cluster	H100 x plusieurs

Optimiser sa config : l’art du compromis

Le choix de la configuration, ce n’est pas du pile ou face. C’est un savant mélange d’anticipation, d’ajustements, et d’itérations. Partez de votre estimation de VRAM, essayez… puis ajustez !

N’oubliez pas d’espionner aussi les outils d’inférence (Ollama, VLLM…) qui peuvent faire des miracles sur l’optimisation mémoire et la gestion des tâches parallèles. Tel un bon chef d’orchestre, un serveur d’inférence adapté donnera à votre LLM toute la musicalité qu’il mérite.

Derniers conseils de pro avant de vous lancer

Ne sur-dimensionnez pas ! Investissez dans une configuration taillée pour VOS besoins réels. Les performances brutes coûtent cher et servent rarement à briller autrement qu’à la pause café.
Testez, ajustez, progressez : personne ne trouve la config parfaite du premier coup (même pas les dieux du hardware).
Tenez compte du serveur d’inférence choisi : optimiser le logiciel peut parfois doubler la durée de vie de votre matériel.

Dernière étape (et non des moindres), gardez toujours un œil sur le refroidissement, histoire de ne pas transformer votre setup en grille-pain intelligent.

Bon tuning, bonne IA, et n’oubliez pas : la meilleure config, c’est celle qui répond à vos besoins, sans vous faire vendre un rein !

Source : LLM en local : les secrets pour choisir la meilleure configuration matérielle (sans ruiner votre carte bleue !)