Forger un agent IA qui tient en prod : 6 règles d'atelier

La grande majorité des “agents IA” qu’on nous montre en démo ne survivent pas deux semaines en production. Pas parce que le modèle est mauvais — parce que personne n’a forgé l’autour. Voilà six règles qu’on applique à chaque sprint chez Rustyclab.

1. L’agent ne décide pas, il exécute

Un bon agent en prod a un plan, pas une opinion. On définit explicitement ses outils (grafana.query, logs.search, k8s.describe…) et on écrit des prompts qui forcent un format de sortie machine-lisible. Si le modèle hallucine une commande hors de la liste, on la rejette avant de la passer à l’environnement.

Règle d’atelier : tout output non-validé = tool call rejeté, pas de retry silencieux.

2. Observabilité dès le jour 1

Trois choses à instrumenter avant la première mise en prod :

Tokens consommés par session — pour la facturation et les anomalies
Tool call success rate — un agent qui rate 40% de ses appels n’est pas un agent, c’est un bruit
Latence p95 par tool — le checkout latency d’un LLM, c’est l’addition des latences de chaque outil

Sans ça, vous découvrirez une dérive de comportement après qu’un client s’en plaigne.

3. Datasets de régression, pas tests unitaires

Tester un agent avec assert response == "ok", c’est ridicule. Ce qu’il faut : un dataset de scénarios annotés (50 à 200 cas) qu’on rejoue à chaque release, avec un scoring automatique (rubrique : a-t-il appelé le bon outil, dans le bon ordre, en concluant correctement ?).

Sans dataset de régression, le moindre upgrade de modèle = roulette russe.

4. Sandbox > IAM permissif

Un agent qui peut lire la base de prod en lecture seule est toujours préférable à un agent qui peut lire-écrire mais “fait attention”. L’IAM permissif est une mine antipersonnel — quelqu’un finira par marcher dessus.

5. Humain dans la boucle pour les actions destructrices

Suppression, refund, restart de service en prod : toujours une confirmation humaine. Le coût d’attente de 30 secondes est sans commune mesure avec le coût d’une suppression accidentelle de 50 000 lignes.

6. Plan B : kill switch

Une feature flag, un endpoint /admin/disable-agent, un secret manager qui révoque la clé API en un clic. Si demain l’agent fait n’importe quoi, on doit pouvoir l’éteindre en moins de 60 secondes, sans déploiement.

C’est dans cet esprit qu’on construit chaque agent qu’on livre. Si vous avez un POC qui marchote et qui mérite d’être vraiment en prod, on en parle volontiers — premier appel gratuit, 30 minutes.