Forger un agent IA qui tient en prod : 6 règles d'atelier
Six pratiques opérationnelles pour passer du POC LLM à un agent qui tourne 24/7 sans réveiller l'astreinte.
La grande majorité des “agents IA” qu’on nous montre en démo ne survivent pas deux semaines en production. Pas parce que le modèle est mauvais — parce que personne n’a forgé l’autour. Voilà six règles qu’on applique à chaque sprint chez Rustyclab.
1. L’agent ne décide pas, il exécute
Un bon agent en prod a un plan, pas une opinion. On définit explicitement
ses outils (grafana.query, logs.search, k8s.describe…) et on écrit des
prompts qui forcent un format de sortie machine-lisible. Si le modèle hallucine
une commande hors de la liste, on la rejette avant de la passer à
l’environnement.
Règle d’atelier : tout output non-validé = tool call rejeté, pas de retry silencieux.
2. Observabilité dès le jour 1
Trois choses à instrumenter avant la première mise en prod :
- Tokens consommés par session — pour la facturation et les anomalies
- Tool call success rate — un agent qui rate 40% de ses appels n’est pas un agent, c’est un bruit
- Latence p95 par tool — le checkout latency d’un LLM, c’est l’addition des latences de chaque outil
Sans ça, vous découvrirez une dérive de comportement après qu’un client s’en plaigne.
3. Datasets de régression, pas tests unitaires
Tester un agent avec assert response == "ok", c’est ridicule. Ce qu’il
faut : un dataset de scénarios annotés (50 à 200 cas) qu’on rejoue à
chaque release, avec un scoring automatique (rubrique : a-t-il appelé le
bon outil, dans le bon ordre, en concluant correctement ?).
Sans dataset de régression, le moindre upgrade de modèle = roulette russe.
4. Sandbox > IAM permissif
Un agent qui peut lire la base de prod en lecture seule est toujours préférable à un agent qui peut lire-écrire mais “fait attention”. L’IAM permissif est une mine antipersonnel — quelqu’un finira par marcher dessus.
5. Humain dans la boucle pour les actions destructrices
Suppression, refund, restart de service en prod : toujours une confirmation humaine. Le coût d’attente de 30 secondes est sans commune mesure avec le coût d’une suppression accidentelle de 50 000 lignes.
6. Plan B : kill switch
Une feature flag, un endpoint /admin/disable-agent, un secret manager
qui révoque la clé API en un clic. Si demain l’agent fait n’importe quoi,
on doit pouvoir l’éteindre en moins de 60 secondes, sans déploiement.
C’est dans cet esprit qu’on construit chaque agent qu’on livre. Si vous avez un POC qui marchote et qui mérite d’être vraiment en prod, on en parle volontiers — premier appel gratuit, 30 minutes.
Un projet à forger ?
Démarrer un sprint →