Disponible en : English Français 한국어 Português Türkçe

Compétence IAConstruire les evalsProduit & Ingénierie

Quand votre fonctionnalité LLM régresse sans cesse, /ai-evals construit une rubrique de modes d'échec et un jeu de tests pour savoir si le prochain changement l'améliore. — Claude Skill

Name: Évals IA
Author: Refound

Une compétence Claude pour Claude Code par Refound — exécuter /ai-evals dans Claude·Mis à jour le 8 juin 2026

Compatible avecChatGPT

ClaudeClaude CodeClaude DesktopCodex / Codex CLI

Cursor

GeminiHermes (via Continue / Cline)

OpenClaw

Windsurf

Construisez une rubrique pass/fail et un jeu de tests à partir de vraies traces d'échec

Workflow d'analyse d'erreurs : open coding des traces d'échec, clustering en patterns, conversion en items de rubrique
Les evals deviennent le vrai PRD : exigences exécutables plutôt que prose vague
Décisions binaires pass/fail uniquement, pas de moyennes Likert 1-5 sans sens
Scaffolding LLM-as-judge avec boucle de validation humaine ancrée sur l'accord expert
Rapport de couverture : modes d'échec testés et angles morts restants

Pour qui

Fondateur

Construire des evals LLM-as-judge qui transforment les exigences produit en quality gates automatisés

Voir les compétences de ce rôle

Ce qu'il fait

Une fonctionnalité LLM shippe puis régresse silencieusement après un changement de prompt

La précision de votre support-bot baisse après un tweak et vous ne savez pas pourquoi. /ai-evals analyse 50 traces, regroupe 6 modes d'échec et construit une rubrique pass/fail relançable après chaque changement.

La notion de bonne sortie est vague et les PM ne sont pas d'accord

L'équipe débat si une réponse est bonne. /ai-evals force la conversation de rubrique : chaque dimension reçoit un critère spécifique, mesurable et illustré.

LLM-as-judge sans validation du juge

Vous utilisez GPT-4 pour scorer des sorties Claude. /ai-evals ajoute une validation humaine sur 20 traces pour vérifier l'accord avec les experts métier avant de l'utiliser en CI.

Lancement d'une fonctionnalité agentique sans filet de sécurité

Votre agent écrit du code, appelle des outils et modifie des docs. /ai-evals conçoit un jeu de tests couvrant les principaux modes d'échec vus et des cas adversariaux synthétiques.

Fonctionnement

Collez 20 à 50 traces réelles de sortie LLM, réussites et échecs

Lancez l'open coding : étiquetez chaque trace avec ce qui ne va pas en langage simple

Regroupez les labels en 4 à 8 catégories de modes d'échec avec exemples

Générez une rubrique pass/fail et un prompt LLM-as-judge ancrés sur ces catégories

Obtenez un jeu d'evals relançable avec rapport de couverture et checklist de validation humaine

Exemple

Vos traces (50 conversations)

50 conversations du bot de support de la semaine derniere
12 signalees comme mauvaises par le CSAT
Modele : Claude 3.5 Sonnet, RAG sur la documentation d'aide
Reclamation : "il invente des politiques"

30 minutes plus tard

Modes d'echec (6 groupes)

1. Politique hallucinee       18/50 traces   (principal)
2. Mauvais document cite       9/50
3. Refus d'une question dans le perimetre  7/50
4. Ton : froid                 5/50
5. Reponses trop prudentes     4/50
6. Mauvaise langue             2/50

Grille PASS/FAIL

policy_grounded:    chaque affirmation de politique cite un vrai ID de document  PASS/FAIL
right_citation:     le document cite soutient reellement l'affirmation       PASS/FAIL
in_scope_answered:  les questions dans le perimetre recoivent une vraie reponse PASS/FAIL
tone_acceptable:    pas de refus du type "Je ne peux pas aider"           PASS/FAIL

Prompt LLM-as-judge

Vous evaluez une reponse du bot de support. Pour chaque dimension, retournez PASS ou FAIL et une phrase expliquant pourquoi. Ancrage : comparez avec le document de reference fourni. N'utilisez pas d'echelles de Likert. [grille injectee]

Etapes suivantes

-> Valider le juge : annotez vous-meme 20 traces, verifiez un accord avec le juge >85 %
-> Baseline : le modele actuel obtient 64 % sur policy_grounded
-> Cible : 90 % avant mise en production

Métriques améliorées

Time to Value

Les suites d'evals automatisées raccourcissent la boucle d'itération des fonctionnalités IA

Produit & Ingénierie

Qualité de contenu

Des evals exécutables détectent les régressions avant qu'elles n'atteignent les utilisateurs

Produit & Ingénierie

Qualité des données

Les rubriques LLM-as-judge imposent une discipline d'étiquetage ground truth

Produit & Ingénierie

Compatible avec

Google Sheets

manuel

Suivre scores d'eval, taux de passage et tendances de régression entre runs

Jira

manuel

Créer des tickets liés aux evals pour les modes d'échec découverts en production

Notion

manuel

Documenter rubriques d'eval et modes d'échec à côté des exigences produit

Envie d'utiliser Évals IA ?

Choisissez comment commencer.

Exécuter dans Claude Code

Gratuit. Open source.

Installez et exécutez cette compétence localement sur votre ordinateur.

Installer Claude Code

Ouvrez un terminal sur votre ordinateur et collez cette commande :

Installer la compétence

Cela télécharge la compétence avec tous ses fichiers sur votre ordinateur :

Ajoutez -g à la fin pour le rendre disponible dans tous vos projets.

Lancez-le

Démarrez Claude Code, puis tapez la commande :

puis

Voir la source sur GitHub

Utiliser sur ElasticFlow

Fonctionnalités d'équipe et de collaboration

Exécutez les compétences depuis votre navigateur. Partagez les résultats, gérez les accès, collaborez avec votre équipe. Sans terminal.

Essai gratuit de 14 jours. Annulez à tout moment.

Voir sur GitHub

Évals IA

Aidez l'utilisateur à créer des évaluations systématiques pour des produits IA en appliquant les méthodes de praticiens IA.

Comment aider

Quand l'utilisateur demande de l'aide sur les evals IA :

Comprendre ce qui est évalué — demandez quelle fonctionnalité ou modèle IA est testé et à quoi ressemble une bonne sortie.
Concevoir l'approche d'évaluation — proposez rubriques, cas de test et méthodes de mesure.
Guider l'implémentation — aidez à penser les edge cases, critères de scoring et cycles d'itération.
Relier aux exigences produit — vérifiez que les evals mesurent les besoins réels des utilisateurs, pas seulement des métriques techniques.

Principes clés

Les evals sont le nouveau PRD

Si le modèle est le produit, l'eval est le document d'exigences produit. Les evals définissent le succès des produits IA : ce ne sont pas des contrôles qualité optionnels, mais des spécifications centrales.

Les evals sont une compétence produit centrale

Les responsables produit d'Anthropic et OpenAI soulignent que les evals deviennent une compétence clé pour les builders produit. Ce n'est pas réservé aux ML engineers.

Le workflow compte

De bonnes evals demandent analyse d'erreurs, open coding, clustering des patterns d'échec et création de rubriques. C'est un processus systématique, pas un test ponctuel.

Questions utiles

« À quoi ressemble une bonne sortie IA ? »
« Quels modes d'échec voyez-vous le plus souvent ? »
« Comment saurez-vous si le modèle s'améliore ou régresse ? »
« Mesurez-vous ce qui compte vraiment pour les utilisateurs ? »
« Avez-vous revu assez de sorties manuellement pour comprendre les patterns d'échec ? »

Erreurs fréquentes à signaler

Sauter la revue manuelle — impossible d'écrire de bonnes evals sans comprendre d'abord les échecs par analyse de traces.
Critères vagues — « la sortie doit être bonne » n'est pas une eval ; il faut des critères spécifiques et mesurables.
LLM-as-judge sans validation — un juge LLM doit être validé contre des experts humains.
Échelles Likert plutôt que binaire — forcez des décisions Pass/Fail ; les scores 1-5 produisent souvent des moyennes inutiles.

Deep Dive

Pour les insights des invités, voir references/guest-insights.md.

Compétences liées

Building with LLMs
AI Product Strategy
Evaluating New Technology

Disponible en : English Français 한국어 Português Türkçe

Compétence IAConstruire les evalsProduit & Ingénierie

Quand votre fonctionnalité LLM régresse sans cesse, /ai-evals construit une rubrique de modes d'échec et un jeu de tests pour savoir si le prochain changement l'améliore. — Claude Skill

Une compétence Claude pour Claude Code par Refound — exécuter /ai-evals dans Claude·Mis à jour le 8 juin 2026

Compatible avecChatGPT

ClaudeClaude CodeClaude DesktopCodex / Codex CLI

Cursor

GeminiHermes (via Continue / Cline)

OpenClaw

Windsurf

Construisez une rubrique pass/fail et un jeu de tests à partir de vraies traces d'échec

Workflow d'analyse d'erreurs : open coding des traces d'échec, clustering en patterns, conversion en items de rubrique
Les evals deviennent le vrai PRD : exigences exécutables plutôt que prose vague
Décisions binaires pass/fail uniquement, pas de moyennes Likert 1-5 sans sens
Scaffolding LLM-as-judge avec boucle de validation humaine ancrée sur l'accord expert
Rapport de couverture : modes d'échec testés et angles morts restants

Pour qui

Fondateur

Construire des evals LLM-as-judge qui transforment les exigences produit en quality gates automatisés

Voir les compétences de ce rôle

Ce qu'il fait

Une fonctionnalité LLM shippe puis régresse silencieusement après un changement de prompt

La notion de bonne sortie est vague et les PM ne sont pas d'accord

L'équipe débat si une réponse est bonne. /ai-evals force la conversation de rubrique : chaque dimension reçoit un critère spécifique, mesurable et illustré.

LLM-as-judge sans validation du juge

Vous utilisez GPT-4 pour scorer des sorties Claude. /ai-evals ajoute une validation humaine sur 20 traces pour vérifier l'accord avec les experts métier avant de l'utiliser en CI.

Lancement d'une fonctionnalité agentique sans filet de sécurité

Votre agent écrit du code, appelle des outils et modifie des docs. /ai-evals conçoit un jeu de tests couvrant les principaux modes d'échec vus et des cas adversariaux synthétiques.

Fonctionnement

Collez 20 à 50 traces réelles de sortie LLM, réussites et échecs

Lancez l'open coding : étiquetez chaque trace avec ce qui ne va pas en langage simple

Regroupez les labels en 4 à 8 catégories de modes d'échec avec exemples

Générez une rubrique pass/fail et un prompt LLM-as-judge ancrés sur ces catégories

Obtenez un jeu d'evals relançable avec rapport de couverture et checklist de validation humaine

Exemple

Vos traces (50 conversations)

50 conversations du bot de support de la semaine derniere
12 signalees comme mauvaises par le CSAT
Modele : Claude 3.5 Sonnet, RAG sur la documentation d'aide
Reclamation : "il invente des politiques"

30 minutes plus tard

Modes d'echec (6 groupes)

1. Politique hallucinee       18/50 traces   (principal)
2. Mauvais document cite       9/50
3. Refus d'une question dans le perimetre  7/50
4. Ton : froid                 5/50
5. Reponses trop prudentes     4/50
6. Mauvaise langue             2/50

Grille PASS/FAIL

policy_grounded:    chaque affirmation de politique cite un vrai ID de document  PASS/FAIL
right_citation:     le document cite soutient reellement l'affirmation       PASS/FAIL
in_scope_answered:  les questions dans le perimetre recoivent une vraie reponse PASS/FAIL
tone_acceptable:    pas de refus du type "Je ne peux pas aider"           PASS/FAIL

Prompt LLM-as-judge

Vous evaluez une reponse du bot de support. Pour chaque dimension, retournez PASS ou FAIL et une phrase expliquant pourquoi. Ancrage : comparez avec le document de reference fourni. N'utilisez pas d'echelles de Likert. [grille injectee]

Etapes suivantes

-> Valider le juge : annotez vous-meme 20 traces, verifiez un accord avec le juge >85 %
-> Baseline : le modele actuel obtient 64 % sur policy_grounded
-> Cible : 90 % avant mise en production

Métriques améliorées

Time to Value

Les suites d'evals automatisées raccourcissent la boucle d'itération des fonctionnalités IA

Produit & Ingénierie

Qualité de contenu

Des evals exécutables détectent les régressions avant qu'elles n'atteignent les utilisateurs

Produit & Ingénierie

Qualité des données

Les rubriques LLM-as-judge imposent une discipline d'étiquetage ground truth

Produit & Ingénierie

Compatible avec

Google Sheets

manuel

Suivre scores d'eval, taux de passage et tendances de régression entre runs

Jira

manuel

Créer des tickets liés aux evals pour les modes d'échec découverts en production

Notion

manuel

Documenter rubriques d'eval et modes d'échec à côté des exigences produit

Envie d'utiliser Évals IA ?

Choisissez comment commencer.

Exécuter dans Claude Code

Gratuit. Open source.

Installez et exécutez cette compétence localement sur votre ordinateur.

Installer Claude Code

Ouvrez un terminal sur votre ordinateur et collez cette commande :

Installer la compétence

Cela télécharge la compétence avec tous ses fichiers sur votre ordinateur :

Ajoutez -g à la fin pour le rendre disponible dans tous vos projets.

Lancez-le

Démarrez Claude Code, puis tapez la commande :

puis

Voir la source sur GitHub

Utiliser sur ElasticFlow

Fonctionnalités d'équipe et de collaboration

Exécutez les compétences depuis votre navigateur. Partagez les résultats, gérez les accès, collaborez avec votre équipe. Sans terminal.

Essai gratuit de 14 jours. Annulez à tout moment.

Voir sur GitHub

Évals IA

Aidez l'utilisateur à créer des évaluations systématiques pour des produits IA en appliquant les méthodes de praticiens IA.

Comment aider

Quand l'utilisateur demande de l'aide sur les evals IA :

Comprendre ce qui est évalué — demandez quelle fonctionnalité ou modèle IA est testé et à quoi ressemble une bonne sortie.
Concevoir l'approche d'évaluation — proposez rubriques, cas de test et méthodes de mesure.
Guider l'implémentation — aidez à penser les edge cases, critères de scoring et cycles d'itération.
Relier aux exigences produit — vérifiez que les evals mesurent les besoins réels des utilisateurs, pas seulement des métriques techniques.

Principes clés

Les evals sont le nouveau PRD

Les evals sont une compétence produit centrale

Les responsables produit d'Anthropic et OpenAI soulignent que les evals deviennent une compétence clé pour les builders produit. Ce n'est pas réservé aux ML engineers.

Le workflow compte

De bonnes evals demandent analyse d'erreurs, open coding, clustering des patterns d'échec et création de rubriques. C'est un processus systématique, pas un test ponctuel.

Questions utiles

« À quoi ressemble une bonne sortie IA ? »
« Quels modes d'échec voyez-vous le plus souvent ? »
« Comment saurez-vous si le modèle s'améliore ou régresse ? »
« Mesurez-vous ce qui compte vraiment pour les utilisateurs ? »
« Avez-vous revu assez de sorties manuellement pour comprendre les patterns d'échec ? »

Erreurs fréquentes à signaler

Sauter la revue manuelle — impossible d'écrire de bonnes evals sans comprendre d'abord les échecs par analyse de traces.
Critères vagues — « la sortie doit être bonne » n'est pas une eval ; il faut des critères spécifiques et mesurables.
LLM-as-judge sans validation — un juge LLM doit être validé contre des experts humains.
Échelles Likert plutôt que binaire — forcez des décisions Pass/Fail ; les scores 1-5 produisent souvent des moyennes inutiles.

Deep Dive

Pour les insights des invités, voir references/guest-insights.md.

Compétences liées

Building with LLMs
AI Product Strategy
Evaluating New Technology

Quand votre fonctionnalité LLM régresse sans cesse, /ai-evals construit une rubrique de modes d'échec et un jeu de tests pour savoir si le prochain changement l'améliore. — Claude Skill

Pour qui

Ce qu'il fait

Fonctionnement

Exemple

Métriques améliorées

Compatible avec

Envie d'utiliser Évals IA ?

Instructions de la compétence

Évals IA

Comment aider

Principes clés

Les evals sont le nouveau PRD

Les evals sont une compétence produit centrale

Le workflow compte

Questions utiles

Erreurs fréquentes à signaler

Deep Dive

Compétences liées

Quand votre fonctionnalité LLM régresse sans cesse, /ai-evals construit une rubrique de modes d'échec et un jeu de tests pour savoir si le prochain changement l'améliore. — Claude Skill

Pour qui

Ce qu'il fait

Fonctionnement

Exemple

Métriques améliorées

Compatible avec

Envie d'utiliser Évals IA ?

Instructions de la compétence

Évals IA

Comment aider

Principes clés

Les evals sont le nouveau PRD

Les evals sont une compétence produit centrale

Le workflow compte

Questions utiles

Erreurs fréquentes à signaler

Deep Dive

Compétences liées