Quand votre fonctionnalité LLM régresse sans cesse, /ai-evals construit une rubrique de modes d'échec et un jeu de tests pour savoir si le prochain changement l'améliore. — Claude Skill
Une compétence Claude pour Claude Code par Refound — exécuter /ai-evals dans Claude·Mis à jour le 8 juin 2026
Construisez une rubrique pass/fail et un jeu de tests à partir de vraies traces d'échec
- Workflow d'analyse d'erreurs : open coding des traces d'échec, clustering en patterns, conversion en items de rubrique
- Les evals deviennent le vrai PRD : exigences exécutables plutôt que prose vague
- Décisions binaires pass/fail uniquement, pas de moyennes Likert 1-5 sans sens
- Scaffolding LLM-as-judge avec boucle de validation humaine ancrée sur l'accord expert
- Rapport de couverture : modes d'échec testés et angles morts restants
Pour qui
Ce qu'il fait
La précision de votre support-bot baisse après un tweak et vous ne savez pas pourquoi. /ai-evals analyse 50 traces, regroupe 6 modes d'échec et construit une rubrique pass/fail relançable après chaque changement.
L'équipe débat si une réponse est bonne. /ai-evals force la conversation de rubrique : chaque dimension reçoit un critère spécifique, mesurable et illustré.
Vous utilisez GPT-4 pour scorer des sorties Claude. /ai-evals ajoute une validation humaine sur 20 traces pour vérifier l'accord avec les experts métier avant de l'utiliser en CI.
Votre agent écrit du code, appelle des outils et modifie des docs. /ai-evals conçoit un jeu de tests couvrant les principaux modes d'échec vus et des cas adversariaux synthétiques.
Fonctionnement
Collez 20 à 50 traces réelles de sortie LLM, réussites et échecs
Lancez l'open coding : étiquetez chaque trace avec ce qui ne va pas en langage simple
Regroupez les labels en 4 à 8 catégories de modes d'échec avec exemples
Générez une rubrique pass/fail et un prompt LLM-as-judge ancrés sur ces catégories
Obtenez un jeu d'evals relançable avec rapport de couverture et checklist de validation humaine
Exemple
50 conversations du bot de support de la semaine derniere 12 signalees comme mauvaises par le CSAT Modele : Claude 3.5 Sonnet, RAG sur la documentation d'aide Reclamation : "il invente des politiques"
1. Politique hallucinee 18/50 traces (principal) 2. Mauvais document cite 9/50 3. Refus d'une question dans le perimetre 7/50 4. Ton : froid 5/50 5. Reponses trop prudentes 4/50 6. Mauvaise langue 2/50
policy_grounded: chaque affirmation de politique cite un vrai ID de document PASS/FAIL right_citation: le document cite soutient reellement l'affirmation PASS/FAIL in_scope_answered: les questions dans le perimetre recoivent une vraie reponse PASS/FAIL tone_acceptable: pas de refus du type "Je ne peux pas aider" PASS/FAIL
Vous evaluez une reponse du bot de support. Pour chaque dimension, retournez PASS ou FAIL et une phrase expliquant pourquoi. Ancrage : comparez avec le document de reference fourni. N'utilisez pas d'echelles de Likert. [grille injectee]
-> Valider le juge : annotez vous-meme 20 traces, verifiez un accord avec le juge >85 % -> Baseline : le modele actuel obtient 64 % sur policy_grounded -> Cible : 90 % avant mise en production
Métriques améliorées
Compatible avec
Envie d'utiliser Évals IA ?
Choisissez comment commencer.
Installez et exécutez cette compétence localement sur votre ordinateur.
Ouvrez un terminal sur votre ordinateur et collez cette commande :
Cela télécharge la compétence avec tous ses fichiers sur votre ordinateur :
Ajoutez -g à la fin pour le rendre disponible dans tous vos projets.
Démarrez Claude Code, puis tapez la commande :
Évals IA
Aidez l'utilisateur à créer des évaluations systématiques pour des produits IA en appliquant les méthodes de praticiens IA.
Comment aider
Quand l'utilisateur demande de l'aide sur les evals IA :
- Comprendre ce qui est évalué — demandez quelle fonctionnalité ou modèle IA est testé et à quoi ressemble une bonne sortie.
- Concevoir l'approche d'évaluation — proposez rubriques, cas de test et méthodes de mesure.
- Guider l'implémentation — aidez à penser les edge cases, critères de scoring et cycles d'itération.
- Relier aux exigences produit — vérifiez que les evals mesurent les besoins réels des utilisateurs, pas seulement des métriques techniques.
Principes clés
Les evals sont le nouveau PRD
Si le modèle est le produit, l'eval est le document d'exigences produit. Les evals définissent le succès des produits IA : ce ne sont pas des contrôles qualité optionnels, mais des spécifications centrales.
Les evals sont une compétence produit centrale
Les responsables produit d'Anthropic et OpenAI soulignent que les evals deviennent une compétence clé pour les builders produit. Ce n'est pas réservé aux ML engineers.
Le workflow compte
De bonnes evals demandent analyse d'erreurs, open coding, clustering des patterns d'échec et création de rubriques. C'est un processus systématique, pas un test ponctuel.
Questions utiles
- « À quoi ressemble une bonne sortie IA ? »
- « Quels modes d'échec voyez-vous le plus souvent ? »
- « Comment saurez-vous si le modèle s'améliore ou régresse ? »
- « Mesurez-vous ce qui compte vraiment pour les utilisateurs ? »
- « Avez-vous revu assez de sorties manuellement pour comprendre les patterns d'échec ? »
Erreurs fréquentes à signaler
- Sauter la revue manuelle — impossible d'écrire de bonnes evals sans comprendre d'abord les échecs par analyse de traces.
- Critères vagues — « la sortie doit être bonne » n'est pas une eval ; il faut des critères spécifiques et mesurables.
- LLM-as-judge sans validation — un juge LLM doit être validé contre des experts humains.
- Échelles Likert plutôt que binaire — forcez des décisions Pass/Fail ; les scores 1-5 produisent souvent des moyennes inutiles.
Deep Dive
Pour les insights des invités, voir references/guest-insights.md.
Compétences liées
- Building with LLMs
- AI Product Strategy
- Evaluating New Technology