Un client e-commerce nous a appelés en panique fin 2025. Ils avaient signé un projet de fine-tuning de Llama 3 8B pour leur assistant produit : 38 k€ de prestation, deux mois de travail, infra GPU à 1 200 €/mois. Le modèle livré atteignait 81 % de précision sur leurs tests. Avant de signer la mise en production, ils ont fait tester la même tâche à Claude 3.5 Sonnet avec un bon system prompt et trois exemples few-shot. Résultat : 89 %. Le projet de fine-tuning est parti à la poubelle. Ce n'est pas une mauvaise prestation — c'est une mauvaise grille de décision. Voici quand fine-tuner vaut vraiment le coup, et quand c'est jeter de l'argent par les fenêtres.
Le malentendu fondamental sur le fine-tuning
Le fine-tuning a une réputation magique : « il connaît votre domaine, il est rapide, il est moins cher à l'inférence ». Les trois affirmations sont vraies isolément, fausses en pratique pour 80 % des projets B2B.
Pourquoi ? Parce que la comparaison correcte n'est pas « Llama fine-tuné vs Llama brut ». C'est « Llama fine-tuné vs Claude/GPT-4 prompté avec un effort équivalent ». Et un effort équivalent côté prompting, c'est : un system prompt soigné, du few-shot, du RAG, du prompt caching. Pas trois lignes balancées dans la console.
Quand on compare ce qui est comparable, voici ce qu'on observe sur 11 projets clients audités en 2026 :
| Critère | Fine-tuning Llama 7B | Prompting Claude 3.5 + RAG |
|---|---|---|
| Coût initial | 15–80 k€ | 0,5–3 k€ |
| Temps de mise en prod | 6–12 semaines | 1–2 semaines |
| Précision moyenne | 78 % | 87 % |
| Latence p95 | 200–600 ms | 800–2 500 ms |
| Coût / 1k requêtes | 0,15 € | 1,80 € |
| Mise à jour du domaine | Réentraînement | Update RAG (1h) |
Le fine-tuning gagne sur deux dimensions : latence et coût marginal d'inférence. Tout le reste plaide pour le prompting bien fait.
La formule ROI en deux lignes
Avant de partir dans 50 pages de calcul, voici l'équation qu'on utilise en première analyse chez nos clients :
Volume mensuel × (Coût/req prompting − Coût/req fine-tune)
vs
Coût initial fine-tune + Coût infra mensuelle × 24 moisLe « 24 mois » est crucial : c'est l'horizon de vie d'un fine-tune avant que le modèle de base soit obsolète et qu'il faille tout refaire. Llama 3 a duré 14 mois avant Llama 4. Mistral pareil. Comptez deux ans grand maximum.
Les paramètres concrets en 2026 :
| Paramètre | Valeur typique |
|---|---|
| Coût/1k tokens Claude 3.5 Sonnet | input 3 $ / output 15 $ |
| Coût/1k tokens Claude prompt-caché | input 0,30 $ / output 15 $ |
| Coût/1k tokens GPT-4o | input 2,50 $ / output 10 $ |
| Coût/1k tokens Llama 7B sur GPU dédié | 0,05 € (amortissement infra) |
| Coût mensuel GPU L40S (inférence Llama 7B) | 800–1 400 €/mois |
| Coût d'entraînement LoRA Llama 7B | 8–25 k€ (data + ML eng) |
Exemple à 100k requêtes/mois (1k tokens chacune en moyenne) :
- Prompting Claude prompt-caché : 100 k × 1 800 € = 1 800 €/mois
- Fine-tuning Llama 7B : 800 €/mois infra + 25 k€ amortis sur 24 mois = 1 850 €/mois
À 100k requêtes/mois, c'est équivalent. À 500k requêtes/mois, le fine-tuning économise 6 000 €/mois. À 30k requêtes/mois, le prompting est moins cher de 1 000 €/mois — et largement plus précis.
LoRA vs full fine-tuning : ne payez jamais le prix fort
Quand le fine-tuning est justifié, il reste une décision : full fine-tuning (réentraîner tous les poids) ou LoRA (adapter quelques milliers de paramètres seulement). En 2026, la réponse est presque toujours LoRA :
| Critère | Full fine-tuning | LoRA |
|---|---|---|
| Coût compute | 100 % | 1–3 % |
| Mémoire GPU requise | 80 Go (A100/H100) | 24 Go (L40S, 4090) |
| Temps d'entraînement | 12–48 h | 1–4 h |
| Qualité finale | Référence | -1 à -3 points |
| Stockage par version | 14 Go (Llama 7B) | 60–200 Mo |
Pour une perte de qualité quasi nulle, vous divisez le coût par 30 à 100. Le seul cas où le full fine-tuning se justifie : domaine extrêmement spécialisé (médical pointu, juridique exotique) avec plus de 100 000 exemples annotés. Sinon : LoRA, point final.
Quand fine-tuner gagne vraiment : la matrice de décision
La décision dépend de deux axes : le volume mensuel de requêtes et la spécificité du domaine. Combinés, ils découpent quatre quadrants — chaque quadrant a sa stratégie.
Quadrant haut-droit : fine-tuning justifié
C'est le seul quadrant où le fine-tuning gagne sans débat. Conditions cumulatives :
- Volume > 500k requêtes/mois stable sur 12+ mois
- Domaine très spécifique : vocabulaire métier dense, formats de sortie stricts, terminologie absente d'internet (codes médicaux internes, nomenclature interne, langage juridique très local)
- Latence critique (< 300 ms) — typique des assistants temps réel intégrés
- Données d'entraînement disponibles : minimum 5 000 exemples annotés de qualité
Exemple typique : extraction structurée de comptes-rendus médicaux pour un éditeur logiciel hospitalier. 2 millions de documents/mois, 47 champs à extraire avec un format strict, terminologie CIM-10 et nomenclature interne. Llama 7B fine-tuné en LoRA bat Claude prompté de 11 points de précision et coûte 6× moins cher à l'inférence.
Quadrant haut-gauche : RAG spécialisé, pas fine-tuning
Volume modéré (< 100k/mois) mais domaine pointu. Ici, le réflexe « fine-tunons » est cher pour rien. La bonne réponse :
- System prompt riche (1 500–3 000 tokens, cachable)
- Few-shot dynamique (3–5 exemples sélectionnés via RAG)
- RAG sur la base de connaissances métier
- Output structuré contraint (JSON schema)
Exemple : assistant juridique pour un cabinet de 30 avocats. 8 000 requêtes/mois sur du droit fiscal très pointu. Avec un bon RAG sur la jurisprudence interne et un system prompt rédigé par un avocat sénior, Claude prompté atteint 91 % de précision pour 280 €/mois. Un fine-tuning aurait coûté 35 k€ pour atteindre 86 %.
Quadrant bas-droit : prompt caching + RAG
Gros volume mais domaine généraliste. Le piège : le coût par requête semble élevé et on est tenté de fine-tuner pour économiser. Le prompt caching (5 minutes de TTL chez Anthropic, 1h chez OpenAI à venir) divise le coût d'input par 10. Combiné avec un RAG bien câblé, on reste 3–5× plus cher au token qu'un Llama maison, mais sans coût de maintenance, sans GPU à provisionner, sans dette technique.
Pour un agent de support produit à 800k requêtes/mois, le calcul donne :
| Setup | Coût/mois | Précision | Time-to-prod |
|---|---|---|---|
| Claude + caching + RAG | 3 800 € | 88 % | 2 semaines |
| Llama 13B fine-tuné | 2 200 € | 82 % | 10 semaines |
| GPT-4o-mini + RAG | 1 100 € | 84 % | 2 semaines |
GPT-4o-mini ou Claude Haiku 4.5 prompté gagne en time-to-prod et en simplicité opérationnelle. La différence de 1 600 €/mois ne compense pas un projet de 10 semaines + maintenance.
Quadrant bas-gauche : Claude/GPT direct, pas de RAG
Volume faible, domaine généraliste. Toute optimisation ici est de la sur-ingénierie. Un system prompt bien écrit suffit. Coût mensuel typique : 50–500 €. Pas de RAG, pas de fine-tune, pas de framework.
Les pièges qu'on voit dans les audits
Piège 1 : les coûts cachés du fine-tuning
Le devis de fine-tuning montre 25 k€. La réalité sur 12 mois :
| Poste | Coût annuel |
|---|---|
| Entraînement initial | 25 000 € |
| Infrastructure GPU (L40S 24/7) | 14 400 € |
| Réentraînement trimestriel (drift) | 12 000 € |
| Monitoring + eval | 6 000 € |
| ML engineer dédié (20 % temps) | 18 000 € |
| Total réel an 1 | 75 400 € |
C'est ce qu'on appelle le « coût du fine-tune en année pleine ». Personne ne l'écrit dans la proposition commerciale.
Piège 2 : le drift de modèle
Un fine-tune capture l'état du domaine à l'instant T. Trois mois plus tard, votre catalogue produit a évolué, vos process ont changé, vos données aussi. La précision baisse de 2–4 points par trimestre sans intervention. À 12 mois, vous avez perdu 8–16 points si vous n'avez pas réentraîné.
Le RAG, lui, se met à jour en réindexant les nouveaux documents — 1 heure de calcul, 0 € de prestation.
Piège 3 : la latence fantôme
« Llama 7B local répond en 200 ms, Claude répond en 1,2 s, donc on prend Llama. » Sauf que dans 80 % des cas applicatifs B2B, l'utilisateur ne perçoit pas la différence — l'agent est appelé en background, le streaming masque la latence, l'utilisateur lit pendant que le LLM finit. Validez sur un prototype avant d'en faire un argument décisif.
Piège 4 : le « lock-in » du modèle de base
Vous fine-tunez sur Llama 3 8B en mars 2025. En janvier 2026, Meta sort Llama 4 — meilleur sur tous les benchmarks. Vous ne pouvez pas en bénéficier sans refaire tout le fine-tune sur votre dataset. Coût : nouvelle prestation, nouveau cycle de validation, nouveau cycle d'eval.
Pendant ce temps, l'équipe restée sur Claude prompté a juste changé la version dans son code (claude-sonnet-4-5 → claude-sonnet-4-6) et bénéficie immédiatement des améliorations. Cette agilité a une valeur monétaire concrète, qu'on peut chiffrer : sur 24 mois, un fine-tune typique manque 2 à 3 améliorations majeures de modèle. Chaque amélioration vaut 3 à 8 points de précision sur les tâches généralistes.
Cas concret : trois projets, trois trajectoires
Trois clients récents avec des problématiques voisines (extraction structurée depuis documents) — décisions différentes, résultats mesurés à 6 mois :
| Client | Volume | Choix | Coût total 6 mois | Précision | Verdict |
|---|---|---|---|---|---|
| Éditeur juridique | 8k req/mois | Claude prompté + RAG | 1 700 € | 89 % | ✅ Bon choix |
| ERP industrie | 60k req/mois | GPT-4o-mini + few-shot | 5 400 € | 84 % | ✅ Bon choix |
| Plateforme RH | 800k req/mois | LoRA Llama 7B | 38 000 € | 86 % | ✅ Bon choix |
À 800k requêtes/mois, le fine-tune devient rentable. À 60k, c'est trop cher. À 8k, c'est absurde. Les seuils ne sont pas absolus mais l'ordre de grandeur l'est.
Ce qu'il faut retenir
Trois règles, dans cet ordre :
- Calculez votre volume avant de choisir. En dessous de 500k requêtes/mois stables, le fine-tuning est rarement rentable.
- Comparez ce qui est comparable. Llama fine-tuné contre Claude bien prompté avec RAG, jamais contre Llama brut.
- Multipliez le coût initial par 3. Entre infra, réentraînement et MLOps, le coût annuel réel d'un fine-tune dépasse largement le devis.
Pour aller plus loin :
- Documentation Anthropic sur le prompt caching (réduction 10× du coût d'input)
- Article Mistral sur LoRA vs full fine-tune (mêmes résultats à 1/100 du coût compute)
- Benchmark MTEB pour comparer les modèles open-source spécialisés
Conclusion
Le fine-tuning n'est pas un mauvais outil — c'est juste le bon outil pour 10 % des projets B2B et le mauvais outil pour les 90 % restants. Avant de signer 40 k€ de prestation, demandez un test bench sur Claude prompté avec le même budget de design que vous mettriez sur le fine-tune. Dans les deux tiers des cas, le test règle la question en trois jours.
