Disponible en : English Français 한국어 Português Türkçe

Compétence IAGérer l’incidentOpérations

Classez les incidents, coordonnez les updates et transformez la réponse en travail de suivi. — Claude Skill

Name: Réponse aux incidents
Author: NickCrew

Une compétence Claude pour Claude Code par NickCrew — exécuter /incident-response dans Claude·Mis à jour le 13 juin 2026·vmain@1d565c1

Compatible avecChatGPT

ClaudeClaude CodeCodex / Codex CLI

Cursor

Gemini

Aide les équipes à gérer pannes et dégradations de service avec sévérité, owner, cadence de statut, actions de confinement, messages clients sûrs, updates parties prenantes et actions de postmortem sans blâme.

Classe la sévérité pour que l’équipe sache s’il s’agit d’un P0, P1, P2 ou P3.
Définit qui possède l’incident, à quelle fréquence informer les personnes et quel canal fait foi.
Transforme notes Slack, tickets, alertes et retours clients dispersés en updates de statut sûrs pour les clients.
Sépare confinement immédiat, communication client, coordination interne et suivi post-incident.
Crée des actions postmortem avec owners, échéances et contrôles de prévention après résolution.

VousAujourd'hui

Support, engineering et leadership discutent l’incident dans des canaux dispersés pendant que les clients reçoivent des updates tardifs ou incohérents.

Avec /incident-response

Lancez /incident-response pour classer la sévérité, assigner un owner, fixer la cadence d’update, rédiger les statuts et capturer la trace postmortem.

1 Coller les faits et la timeline2 Classer sévérité et impact3 Rédiger updates et actions4 Transformer la timeline en suivi postmortem

Pour qui

Responsable support

Transformer les faits d’incident en sévérité claire, updates clients, chemins d’escalade et actions de suivi.

Voir les compétences de ce rôle

Chef de projet

Coordonner owners, timeline, prochains updates et actions post-incident entre équipes.

Voir les compétences de ce rôle

Ce qu'il fait

Update d’incident actif

Transforme des faits d’incident dispersés en update clair pour clients, support et leadership.

Sévérité et ownership

Décide de la gravité de l’incident, de qui coordonne et de l’heure du prochain update.

Préparation du postmortem

Convertit la timeline de réponse en cause racine, facteurs contributifs et actions concrètes.

Fonctionnement

Collecte symptômes, impact utilisateur, services touchés, timeline, owner actuel et retours clients.

Classe la sévérité et choisit la cadence de communication.

Sépare le confinement immédiat du travail plus profond sur la cause racine.

Rédige des updates client, support et leadership indiquant ce qui est connu, inconnu et quand arrivera le prochain update.

Enregistre la timeline d’incident et le tracker d’actions pendant que les faits évoluent.

Après résolution, produit une trame de postmortem sans blâme avec actions de suivi précises.

Options d'entrée

Symptômes et impact

Ce que vivent les utilisateurs, combien sont touchés et si données, revenu ou sécurité sont concernés.

Exemple

Ce que l’utilisateur colle

09:04 le support signale des échecs de checkout chez 18 clients.
09:07 le dashboard paiements montre des erreurs d’autorisation carte en hausse de 32 %.
09:10 engineering soupçonne le déploiement de la nouvelle règle anti-fraude.
09:14 Sales indique que deux essais entreprise sont bloqués.
Impact : le checkout échoue pour les utilisateurs Safari aux US/UE. Pas de perte de données. Contournement : réessayer sur Chrome fonctionne pour certains utilisateurs.
Canaux actuels : #support-urgent, #payments-eng, tickets Zendesk, bug Jira PAY-1842.
Besoin : sévérité, update client, owner, update interne, prochaines actions et notes postmortem.

Résultat utile

Lecture de l’incident

Classer en P1 : un parcours critique pour le revenu est dégradé pour un segment utilisateur significatif, sans panne totale, problème sécurité ni perte de données. Traiter le checkout Safari comme l’expérience client touchée, pas comme “tous les paiements down”.

Commandement incident

Incident commander : Support Lead jusqu à ce que Payments Engineering nomme un lead technique. Source de vérité : #inc-checkout-errors. Ticket lié : PAY-1842. Cadence d’update : toutes les 30 minutes jusqu à mitigation, puis toutes les 60 minutes jusqu à résolution. Prochain update externe dû à 09:45 UTC.

Update sûr pour les clients

Nous investiguons des erreurs de checkout élevées touchant certains utilisateurs Safari aux États-Unis et dans l’UE. Certains clients peuvent finaliser le checkout dans un autre navigateur pendant que nous isolons la cause. Nous partagerons le prochain update d’ici 09:45 UTC.

Update interne parties prenantes

Impact : 18 clients signalés plus deux essais entreprise bloqués. Déclencheur suspecté : déploiement de règle anti-fraude. L’hypothèse actuelle n’est pas confirmée. Payments Engineering vérifie les échecs d’autorisation spécifiques au navigateur et prépare un rollback si la règle est impliquée.

Tracker d’actions

Maintenant : mettre en pause ou rollback le déploiement de la règle anti-fraude. Owner : Payments Engineering.
Maintenant : lier tous les tickets Zendesk à PAY-1842. Owner : Support.
Ensuite : suivre le succès checkout par navigateur et région. Owner : Analytics/Payments.
Ensuite : préparer une réponse support sauvegardée avec contournement et heure du prochain update. Owner : Support Lead.

Graine de postmortem

Questions : pourquoi le déploiement a-t-il atteint les utilisateurs Safari sans monitoring checkout spécifique au navigateur ? Pourquoi Sales a-t-il reçu des retours d’essais avant que l’équipe ait un update de statut ? Les actions de suivi doivent inclure alertes checkout segmentées, mise à jour de checklist de rollout et instructions de liaison d’incidents pour le support.

Revue humaine

Confirmer la sévérité, le wording légal/conformité et si le contournement peut être publié avant tout update client.

Métriques améliorées

Temps de cycle des tickets

Aide support et engineering à faire avancer plus vite les incidents urgents via ownership et prochaines actions.

Opérations

Hygiène des tickets

Transforme les notes d’incident en bugs, actions de suivi, owners et échéances clairs.

Opérations

Compatible avec

Slack

manuel

Utiliser canaux incident, updates et notes des responders comme source de timeline.

Jira

manuel

Suivre les actions de suivi incident, bugs et tâches postmortem.

Zendesk

manuel

Utiliser retours clients et tickets support pour comprendre l’impact utilisateur.

Envie d'utiliser Réponse aux incidents ?

Choisissez comment commencer.

Exécuter dans Claude Code

Gratuit. Open source.

Installez et exécutez cette compétence localement sur votre ordinateur.

Installer Claude Code

Ouvrez un terminal sur votre ordinateur et collez cette commande :

Installer la compétence

Cela télécharge la compétence avec tous ses fichiers sur votre ordinateur :

Ajoutez -g à la fin pour le rendre disponible dans tous vos projets.

Lancez-le

Démarrez Claude Code, puis tapez la commande :

puis

Voir la source sur GitHub

Utiliser sur ElasticFlow

Fonctionnalités d'équipe et de collaboration

Exécutez les compétences depuis votre navigateur. Partagez les résultats, gérez les accès, collaborez avec votre équipe. Sans terminal.

Essai gratuit de 14 jours. Annulez à tout moment.

Voir sur GitHub

Réponse aux incidents

Gestion structurée des incidents depuis la détection jusqu au postmortem, avec patterns de résilience pour prévenir et contenir les défaillances en cascade.

Quand l’utiliser

Incident production en cours (panne, dégradation, perte de données)
Conception de circuit breakers, bulkheads ou stratégies de fallback
Conduite ou planification d’exercices de chaos engineering
Rédaction ou revue de documents postmortem
Mise en place de procédures d’astreinte et de chemins d’escalade

À éviter quand :

Le problème est un bug de développement sans impact production
Vous concevez une architecture système générale (utilisez plutôt system-design)

Référence rapide

Sujet	Charger la référence
Cadre de triage	`skills/incident-response/references/triage-framework.md`
Patterns postmortem	`skills/incident-response/references/postmortem-patterns.md`

Workflow de réponse aux incidents

Phase 1 : Détecter

Une alerte se déclenche ou un rapport utilisateur arrive
Confirmer que le problème est réel (pas un faux positif)
Identifier les services affectés et le périmètre d’impact utilisateur

Phase 2 : Trier

Classer la sévérité (P0-P3)
Assigner un incident commander
Ouvrir un canal de communication (war room, canal Slack)
Démarrer les updates de page de statut

Phase 3 : Contenir

Arrêter l’hémorragie : rollback, feature flag, déplacement de trafic
Prévenir la cascade : circuit breakers, load shedding, isolation bulkhead
Communiquer : updates parties prenantes toutes les 15 minutes pour P0/P1

Phase 4 : Résoudre

Implémenter le correctif (correctif viable minimal en premier)
Valider en staging si le temps le permet
Déployer avec monitoring et plan de rollback prêts
Confirmer la récupération avec des métriques revenues à la baseline

Phase 5 : Postmortem

Documenter la timeline dans les 48 heures
Mener une revue sans blâme avec tous les participants
Identifier cause racine et facteurs contributifs
Assigner les actions avec owners et échéances
Mettre à jour runbooks et alerting à partir des leçons apprises

Cadre de sévérité

Niveau	Impact	Temps de réponse	Exemples
P0	Panne complète, perte de données, faille sécurité	Immédiat (< 5 min)	Service down, corruption de données, fuite d’identifiants
P1	Fonction majeure cassée, impact utilisateur significatif	< 30 min	Traitement des paiements échoué, auth cassée pour une région
P2	Performance dégradée, perte partielle de fonctionnalité	< 4 heures	Latence élevée, fonctionnalité non critique indisponible
P3	Problème mineur, contournement disponible	Jour ouvré suivant	Bug UI, génération de rapport lente, erreur cosmétique

Sortie

Timeline d’incident et classification de sévérité
Actions de confinement prises
Document postmortem avec actions
Runbooks et règles d’alerting mis à jour

Erreurs courantes

Sauter la classification de sévérité et traiter tout comme P0
Faire des changements sans plan de rollback
Oublier de communiquer le statut aux parties prenantes
Écrire des postmortems qui attribuent la faute au lieu d’identifier les problèmes systémiques
Ne pas suivre les actions issues du postmortem

Documents de référence

Patterns postmortem

Structure de postmortem sans blâme, techniques d’analyse de cause racine, suivi des actions et patterns de chaos engineering. À utiliser après résolution d’incident ou lors de la conception de programmes de test de résilience.

Structure de postmortem sans blâme

Principes cœur

Pas de blâme : se concentrer sur systèmes, processus et conditions -- pas sur les individus
Supposer la bonne intention : chaque personne impliquée faisait de son mieux avec les informations disponibles
Apprendre, ne pas punir : l’objectif est la prévention, pas la responsabilité individuelle
Partager largement : les postmortems sont un apprentissage organisationnel, pas une honte d’équipe

Template de document postmortem

# Incident Postmortem: [Title]

**Date:** [Incident date]
**Severity:** P[0-3]
**Duration:** [Start time] to [End time] ([total duration])
**Incident Commander:** [Name]
**Author:** [Name]
**Status:** [Draft | Review | Final]

## Summary

[1-2 sentence description of what happened and the user impact]

## Impact

- **Users affected:** [Number or percentage]
- **Duration:** [How long users experienced the issue]
- **Revenue impact:** [If applicable]
- **Data impact:** [Any data loss or corruption]
- **SLA impact:** [Any SLA violations]

## Timeline

All times in [timezone].

| Time | Event |
|------|-------|
| HH:MM | [First signal / alert fired] |
| HH:MM | [On-call acknowledged] |
| HH:MM | [Severity classified as P_] |
| HH:MM | [Key investigation finding] |
| HH:MM | [Mitigation applied] |
| HH:MM | [Issue confirmed resolved] |
| HH:MM | [Monitoring confirmed stable] |

## Root Cause

[Detailed description of the root cause. What condition or change led to the failure?]

## Contributing Factors

- [Factor 1: e.g., missing monitoring for this failure mode]
- [Factor 2: e.g., deployment during high-traffic period]
- [Factor 3: e.g., no automated rollback configured]

## What Went Well

- [Thing 1: e.g., alert fired within 2 minutes of impact]
- [Thing 2: e.g., team coordinated effectively in war room]
- [Thing 3: e.g., rollback was smooth and fast]

## What Went Poorly

- [Thing 1: e.g., took 20 minutes to identify the failing service]
- [Thing 2: e.g., no runbook existed for this failure mode]
- [Thing 3: e.g., status page was not updated for 30 minutes]

## Action Items

| ID | Action | Owner | Priority | Due Date | Status |
|----|--------|-------|----------|----------|--------|
| 1 | [Action description] | [Name] | P1 | [Date] | Open |
| 2 | [Action description] | [Name] | P2 | [Date] | Open |

## Lessons Learned

[Key takeaways that should inform future design, process, or tooling decisions]

Facilitation de réunion postmortem

Avant la réunion :

Rédiger le document postmortem et le partager 24 heures à l’avance
Tous les participants relisent la timeline pour exactitude
L’incident commander prépare l’analyse de cause racine

Pendant la réunion (60-90 min) :

Revue timeline (15 min) : parcourir les événements, corriger les erreurs, combler les gaps
Discussion cause racine (20 min) : appliquer 5 Whys ou analyse fishbone
Facteurs contributifs (15 min) : qu’est-ce qui a aggravé l’incident ou rendu la résolution plus difficile ?
Ce qui a bien fonctionné (10 min) : renforcer les pratiques efficaces
Actions (20 min) : définir des actions concrètes, assignables et time-bounded

Après la réunion :

Finaliser le document sous 24 heures
Le distribuer à l’organisation élargie
Entrer les actions dans le système de suivi
Planifier une revue de suivi pour l’achèvement des actions

Techniques d’analyse de cause racine

5 Whys

Demander "pourquoi" de façon répétée pour dépasser les symptômes et atteindre la cause sous-jacente.

Exemple :

Problem: Users received duplicate order confirmation emails.

Why 1: The email service sent the confirmation twice.
Why 2: The order completion event was published twice.
Why 3: The order service retried after a timeout.
Why 4: The message broker acknowledged slowly under load.
Why 5: The broker's disk was 95% full, causing write delays.

Root cause: No disk usage monitoring or alerting on the message broker.
Action: Add disk usage alerting at 80% threshold + auto-scaling.

Guidelines :

Arrêtez-vous quand vous atteignez une cause systémique corrigeable (processus, tooling, design)
Ne vous arrêtez pas à "human error" -- demandez pourquoi le système a permis l’erreur
Certains incidents ont plusieurs causes racines; lancez 5 Whys pour chaque branche
Les réponses doivent être factuelles, pas spéculatives

Diagramme fishbone (Ishikawa)

Catégoriser les facteurs contributifs selon des dimensions standard.

                    ┌─ People: On-call unfamiliar with service
                    ├─ Process: No rollback runbook existed
Duplicate emails ───├─ Technology: No idempotency on email sends
                    ├─ Environment: Broker disk at 95%
                    ├─ Monitoring: No disk usage alerts
                    └─ External: Upstream traffic spike

Catégories standard :

People : lacunes de connaissance, staffing, communication
Process : runbooks manquants, procédures floues, goulots d’approbation
Technology : bugs, fonctionnalités manquantes, gaps d’architecture
Environment : infrastructure, capacité, configuration
Monitoring : alertes manquantes, seuils incorrects, gaps d’observabilité
External : pannes tierces, pics de trafic, attaques

Fault Tree Analysis

Remonter depuis la panne pour identifier toutes les causes possibles.

Top event: Service outage
├── AND: Load balancer failure
│   ├── OR: Config error
│   └── OR: Health check misconfigured
└── AND: No failover triggered
    ├── OR: Failover not configured
    └── OR: Failover health check also failed

Quand l’utiliser : incidents complexes avec plusieurs défaillances interactives où 5 Whys est insuffisant.

Suivi des actions

Critères de qualité des actions

Chaque action doit être :

Spécifique : description claire de quoi faire (pas "improve monitoring")
Assignable : un owner, pas une équipe
Time-bounded : date d’échéance, pas "quand on aura le temps"
Vérifiable : définition claire du done
Priorisée : P1 (avant la prochaine rotation d’astreinte), P2 (ce sprint), P3 (ce trimestre)

Catégories d’actions

Catégorie	Description	Exemples
Détection	Améliorer la capacité à remarquer le problème	Ajouter alerte, améliorer dashboard
Prévention	Empêcher le problème de se produire	Corriger bug, ajouter validation, améliorer architecture
Mitigation	Réduire l’impact quand cela arrive	Ajouter circuit breaker, améliorer rollback, écrire runbook
Processus	Améliorer la réponse d’équipe	Mettre à jour procédures d’astreinte, conduire formation

Tracking et suivi

Entrer toutes les actions immédiatement dans l’issue tracker de l’équipe
Taguer avec postmortem et l’ID incident pour traçabilité
Revoir chaque semaine les actions postmortem ouvertes en standup équipe
Escalader les P1 en retard au manager engineering
Fermer les actions seulement quand l’achèvement est vérifié (pas juste "code merged")

Anti-patterns d’actions

Anti-pattern	Problème	Alternative préférable
"Be more careful"	Pas actionnable	Automatiser le contrôle
"Improve monitoring"	Trop vague	"Add alert for X metric when > Y for Z minutes"
"No owner assigned"	Ne sera pas fait	Assigner une personne précise
"Due: TBD"	Sera dépriorisé	Fixer une date concrète
"Add more tests"	Non borné	"Add regression test for this specific failure mode"

Patterns de chaos engineering

Injection de fautes

Introduire volontairement des pannes pour vérifier la résilience.

Types de fautes courants :

Faute	Outil/Méthode	Valide
Tuer instance service	Process kill, pod delete	Auto-restart, health checks
Latence réseau	tc netem, Toxiproxy	Gestion timeout, circuit breakers
Partition réseau	iptables, DNS override	Failover, gestion split-brain
Disque plein	fallocate, dd	Dégradation gracieuse, alerting
Épuisement CPU	stress-ng	Autoscaling, load shedding
Défaillance dépendance	Mock retournant 500s	Chemins fallback, gestion erreur
Décalage horloge	chrony offset	Logique dépendante du temps

Checklist d’injection de fautes

Hypothèse définie : "We believe [X] will happen when [fault]"
Blast radius limité (instance unique, canary, staging)
Mécanisme de rollback prêt (kill switch de l’expérience)
Monitoring en place pour observer l’effet
L’équipe sait que l’expérience est en cours
Critères d’arrêt définis (stop si impact utilisateur réel dépasse N%)

Game Days

Exercices structurés où les équipes pratiquent la réponse incident face à des pannes simulées.

Template de planification Game Day :

## Game Day: [Title]

**Date:** [Date and time]
**Duration:** [Expected duration]
**Facilitator:** [Name]
**Participants:** [Team members]

### Scenario
[Description of the simulated incident]

### Objectives
- [ ] Validate alerting detects the failure within [N] minutes
- [ ] Validate team can triage to correct severity
- [ ] Validate mitigation can be applied within [N] minutes
- [ ] Validate communication protocols are followed

### Ground Rules
- This is practice, not evaluation
- Facilitator controls the scenario progression
- Anyone can call "stop" if real production impact is detected
- Document all observations in real time

### Debrief Questions
1. Did alerts fire as expected?
2. Was the right team engaged quickly enough?
3. Were runbooks adequate?
4. What would we do differently in a real incident?

Cadence game day :

Trimestrielle pour les services critiques
Après changements d’architecture majeurs
Lors de l’onboarding de nouveaux ingénieurs d’astreinte
Après tout incident P0 (tester les correctifs)

Méthodologie de test de résilience

Niveaux de maturité résilience

Niveau	Description	Activités
1 - Réactif	Corriger les pannes après coup	Postmortems, monitoring basique
2 - Aware	Savoir où les pannes peuvent arriver	Analyse modes de défaillance, registre risques
3 - Proactif	Tester les pannes avant qu’elles arrivent	Expériences chaos en staging
4 - Continu	Valider régulièrement la résilience en production	Chaos automatisé, game days
5 - Anti-fragile	Les systèmes s’améliorent par la panne	Boucles feedback, auto-remediation

Checklist de test de résilience

Pour chaque service critique, valider :

Défaillance instance unique : le service récupère quand une instance meurt
Timeout dépendance : le service gère les dépendances lentes gracieusement
Panne dépendance : le service se dégrade (ne crash pas) quand une dépendance est down
Partition réseau : le service gère les scénarios split-brain
Pic de charge : le service shed la charge ou scale sous 3x trafic normal
Disque plein : le service alerte et se dégrade avant de crasher
Erreur configuration : le service fail fast avec erreur claire sur mauvaise config
Rollback : la version précédente peut être déployée sous 5 minutes
Corruption données : la restauration backup a été testée dans le dernier trimestre

Hypothèse steady-state

Avant toute expérience chaos, définir ce que "normal" signifie :

Steady state:
- Request success rate > 99.9%
- p99 latency < 200ms
- Error rate < 0.1%
- No alerts firing

Experiment: Kill 1 of 3 service instances

Hypothesis: Steady state metrics remain within 10% of baseline
            within 60 seconds of the fault injection.

Abort if: Error rate > 5% for more than 30 seconds.

name: incident-response description: Triage d’incident, prévention des cascades et méthodologie postmortem. À utiliser lors d’incidents production, de conception de patterns de résilience ou d’exercices de chaos engineering. keywords:

réponse aux incidents
panne
postmortem
triage
incident
réponse

Réponse aux incidents

Gestion structurée des incidents depuis la détection jusqu au postmortem, avec patterns de résilience pour prévenir et contenir les défaillances en cascade.

Quand l’utiliser

Incident production en cours (panne, dégradation, perte de données)
Conception de circuit breakers, bulkheads ou stratégies de fallback
Conduite ou planification d’exercices de chaos engineering
Rédaction ou revue de documents postmortem
Mise en place de procédures d’astreinte et de chemins d’escalade

À éviter quand :

Le problème est un bug de développement sans impact production
Vous concevez une architecture système générale (utilisez plutôt system-design)

Référence rapide

Sujet	Charger la référence
Cadre de triage	`skills/incident-response/references/triage-framework.md`
Patterns postmortem	`skills/incident-response/references/postmortem-patterns.md`

Workflow de réponse aux incidents

Phase 1 : Détecter

Une alerte se déclenche ou un rapport utilisateur arrive
Confirmer que le problème est réel (pas un faux positif)
Identifier les services affectés et le périmètre d’impact utilisateur

Phase 2 : Trier

Classer la sévérité (P0-P3)
Assigner un incident commander
Ouvrir un canal de communication (war room, canal Slack)
Démarrer les updates de page de statut

Phase 3 : Contenir

Arrêter l’hémorragie : rollback, feature flag, déplacement de trafic
Prévenir la cascade : circuit breakers, load shedding, isolation bulkhead
Communiquer : updates parties prenantes toutes les 15 minutes pour P0/P1

Phase 4 : Résoudre

Implémenter le correctif (correctif viable minimal en premier)
Valider en staging si le temps le permet
Déployer avec monitoring et plan de rollback prêts
Confirmer la récupération avec des métriques revenues à la baseline

Phase 5 : Postmortem

Documenter la timeline dans les 48 heures
Mener une revue sans blâme avec tous les participants
Identifier cause racine et facteurs contributifs
Assigner les actions avec owners et échéances
Mettre à jour runbooks et alerting à partir des leçons apprises

Cadre de sévérité

Niveau	Impact	Temps de réponse	Exemples
P0	Panne complète, perte de données, faille sécurité	Immédiat (< 5 min)	Service down, corruption de données, fuite d’identifiants
P1	Fonction majeure cassée, impact utilisateur significatif	< 30 min	Traitement des paiements échoué, auth cassée pour une région
P2	Performance dégradée, perte partielle de fonctionnalité	< 4 heures	Latence élevée, fonctionnalité non critique indisponible
P3	Problème mineur, contournement disponible	Jour ouvré suivant	Bug UI, génération de rapport lente, erreur cosmétique

Sortie

Timeline d’incident et classification de sévérité
Actions de confinement prises
Document postmortem avec actions
Runbooks et règles d’alerting mis à jour

Erreurs courantes

Sauter la classification de sévérité et traiter tout comme P0
Faire des changements sans plan de rollback
Oublier de communiquer le statut aux parties prenantes
Écrire des postmortems qui attribuent la faute au lieu d’identifier les problèmes systémiques
Ne pas suivre les actions issues du postmortem

Cadre de triage

Classification de sévérité, prévention des cascades, protocoles de communication et chemins d’escalade pour incidents production. À utiliser pendant les incidents actifs ou lors de la mise en place de procédures de réponse aux incidents.

Classification de sévérité (P0-P3)

P0 -- Critique

Définition : Panne complète de service, perte active de données ou faille sécurité affectant tous les utilisateurs.

Attribut	Exigence
Temps de réponse	< 5 minutes
Incident commander	Requis (senior engineer ou SRE)
Cadence de communication	Toutes les 15 minutes aux parties prenantes
War room	Ouverte immédiatement
Escalade	VP/Director notifié sous 15 minutes
Postmortem	Requis sous 48 heures

Exemples :

Base de données production injoignable
Service d’authentification complètement down
Corruption ou perte active de données
Faille sécurité avec exfiltration confirmée
Traitement des paiements arrêté

P1 -- Élevé

Définition : Fonctionnalité majeure cassée ou dégradation significative affectant un large sous-ensemble d’utilisateurs.

Attribut	Exigence
Temps de réponse	< 30 minutes
Incident commander	Requis
Cadence de communication	Toutes les 30 minutes aux parties prenantes
War room	Ouverte si non résolu sous 30 minutes
Escalade	Manager notifié sous 30 minutes
Postmortem	Requis sous 1 semaine

Exemples :

Paiements échouant pour une région
Recherche retournant des erreurs pour 20 %+ des requêtes
Latence API 10x au-dessus de la normale
Crash de l’app mobile au lancement pour une version OS précise

P2 -- Moyen

Définition : Performance dégradée ou perte partielle de fonctionnalité avec contournements disponibles.

Attribut	Exigence
Temps de réponse	< 4 heures
Incident commander	Optionnel (l’astreinte gère)
Cadence de communication	Update au début et à la résolution
War room	Non requise
Escalade	Si non résolu après 8 heures
Postmortem	Recommandé

Exemples :

Latence élevée (2-3x normale) sur endpoints non critiques
Traitement de jobs background retardé
Intégration tierce non critique down
Génération de rapports lente mais fonctionnelle

P3 -- Faible

Définition : Problème mineur avec impact utilisateur minimal. Un contournement existe ou le problème est cosmétique.

Attribut	Exigence
Temps de réponse	Jour ouvré suivant
Incident commander	Non requis
Cadence de communication	Update ticket à la résolution
War room	Non requise
Escalade	Non requise
Postmortem	Non requis

Exemples :

Glitch de rendu UI dans un edge case
Cron non critique échoué (réessaiera)
Chargement lent d’un dashboard interne
Erreur de logging mineure sans impact fonctionnalité

Arbre de décision de sévérité

Is data being lost or corrupted?
├─ Yes → P0
└─ No
   Is there a security breach?
   ├─ Yes → P0
   └─ No
      Is the primary service completely down?
      ├─ Yes → P0
      └─ No
         Is a major feature broken for many users?
         ├─ Yes → P1
         └─ No
            Is performance significantly degraded?
            ├─ Yes → P2
            └─ No → P3

Prévention des cascades

Circuit Breakers

Arrêter automatiquement les appels à une dépendance défaillante pour prévenir une panne en cascade.

Checklist d’implémentation :

Chaque dépendance externe a un circuit breaker
Les seuils d’échec sont réglés par dépendance (pas one-size-fits-all)
L’état OPEN retourne un fallback utile (données cache, réponse dégradée, erreur)
Les probes HALF-OPEN sont légers (health check, pas requête complète)
L’état du circuit breaker est observable (métriques, dashboard)
Des alertes se déclenchent quand un circuit breaker s’ouvre

Template de configuration :

Dependency: [service name]
Failure threshold: [N] failures in [T] seconds
Reset timeout: [T] seconds
Fallback: [cached response | error message | degraded mode]

Isolation Bulkhead

Partitionner les ressources pour qu’une panne dans une zone ne puisse pas épuiser les ressources d’une autre.

Patterns :

Isolation thread pool : pools de threads séparés par dépendance
Isolation connection pool : pools dédiés par service downstream
Isolation process : workloads critiques et non critiques dans des processus séparés
Isolation infrastructure : clusters séparés pour workloads critiques vs batch

Checklist :

Les dépendances du chemin critique ont des pools de ressources dédiés
Le travail background non critique ne peut pas affamer les requêtes critiques
Les limites sont définies par pool (max connections, max threads)
L’épuisement de pool déclenche des alertes, pas de file silencieuse

Load Shedding

Abandonner intentionnellement du travail basse priorité pour préserver la capacité du trafic haute priorité.

Niveaux de priorité :

Priorité	Type de trafic	Shedding quand
Critique	Health checks, authentification	Jamais
Haute	Requêtes utilisateur cœur	> 95% capacité
Moyenne	Fonctionnalités secondaires, analytics	> 80% capacité
Basse	Jobs background, prefetch	> 70% capacité

Implémentation :

Utiliser headers de priorité de requête ou classification par path
Retourner 503 avec header Retry-After pour les requêtes shed
Suivre le taux de shedding comme métrique (shedding > 0 est une alerte)

Stratégies de dégradation gracieuse

Stratégie	Description	Exemple
Feature flags	Désactiver des fonctionnalités non critiques	Couper les recommandations pendant une charge élevée
Fallback cache	Servir des données stale	Montrer des résultats de recherche cache quand le service search est down
Mode lecture seule	Désactiver les écritures	Permettre navigation mais pas achat pendant panne paiements
Fallback statique	Servir du contenu pré-généré	Montrer une landing page statique quand le CMS est down
Queue and retry	Accepter mais différer le traitement	Accepter commandes, traiter quand le backend récupère

Protocoles de communication

Updates de page de statut

Template d’entrée de page de statut :

[TIMESTAMP] - [STATUS: Investigating | Identified | Monitoring | Resolved]

Impact: [Brief description of user-visible impact]
Current status: [What we know and what we're doing]
Next update: [When to expect the next update]

Cadence d’update :

P0 : toutes les 15 minutes jusqu à résolution
P1 : toutes les 30 minutes jusqu à résolution
P2 : au début et à la résolution
P3 : seulement à la résolution

Template de notification parties prenantes

Subject: [P0/P1] [Service] - [Brief impact description]

Severity: P[0-3]
Start time: [ISO 8601 timestamp]
Impact: [Who is affected and how]
Current status: [What we know]
Actions taken: [What we've done so far]
ETA: [If known, otherwise "investigating"]
Next update: [When]
Incident commander: [Name]
War room: [Link/channel]

Règles de communication interne

Une source de vérité : tous les updates passent par le canal incident, pas par DM
Faits, pas spéculation : partagez ce que vous savez, signalez ce que vous suspectez
Timestamp partout : chaque action et observation reçoit un timestamp
Pas de blâme : concentrez-vous sur ce qui s’est passé, pas sur qui l’a causé
Handoffs clairs : lors d’une rotation, transmettez explicitement le contexte

Chemins d’escalade

Déclencheurs d’escalade

Condition	Action
P0 non acquitté en 5 min	Pager l’astreinte backup
P0/P1 non mitigé en 30 min	Escalader au manager engineering
P0 non résolu en 1 heure	Escalader au VP/Director
Toute sévérité affectant le revenu	Notifier finance et parties prenantes business
Incident sécurité confirmé	Notifier équipe sécurité et juridique
Fuite de données suspectée	Invoquer le plan de réponse fuite de données

Checklist d’escalade

Astreinte primaire pagée et acquittée
Si pas d’acquittement en 5 min, astreinte secondaire pagée
Incident commander assigné
Leads d’équipes pertinents notifiés
Page de statut mise à jour
Support client briefé avec talking points
Parties prenantes exécutives notifiées (P0/P1 seulement)

Responsabilités d’astreinte

Pendant l’incident :

Acquitter le page sous 5 minutes
Évaluer la sévérité et ouvrir le canal incident
Démarrer l’investigation et documenter les découvertes en temps réel
Coordonner avec les autres équipes si nécessaire
Fournir les updates de statut à la cadence requise

Après l’incident :

S’assurer que le monitoring confirme la résolution
Rédiger la timeline incident
Planifier le postmortem si requis
Mettre à jour les runbooks avec les nouveaux apprentissages
Transmettre à la prochaine astreinte si le shift finit pendant l’incident

Disponible en : English Français 한국어 Português Türkçe

Compétence IAGérer l’incidentOpérations

Classez les incidents, coordonnez les updates et transformez la réponse en travail de suivi. — Claude Skill

Une compétence Claude pour Claude Code par NickCrew — exécuter /incident-response dans Claude·Mis à jour le 13 juin 2026·vmain@1d565c1

Compatible avecChatGPT

ClaudeClaude CodeCodex / Codex CLI

Cursor

Gemini

Classe la sévérité pour que l’équipe sache s’il s’agit d’un P0, P1, P2 ou P3.
Définit qui possède l’incident, à quelle fréquence informer les personnes et quel canal fait foi.
Transforme notes Slack, tickets, alertes et retours clients dispersés en updates de statut sûrs pour les clients.
Sépare confinement immédiat, communication client, coordination interne et suivi post-incident.
Crée des actions postmortem avec owners, échéances et contrôles de prévention après résolution.

VousAujourd'hui

Support, engineering et leadership discutent l’incident dans des canaux dispersés pendant que les clients reçoivent des updates tardifs ou incohérents.

Avec /incident-response

Lancez /incident-response pour classer la sévérité, assigner un owner, fixer la cadence d’update, rédiger les statuts et capturer la trace postmortem.

1 Coller les faits et la timeline2 Classer sévérité et impact3 Rédiger updates et actions4 Transformer la timeline en suivi postmortem

Pour qui

Responsable support

Transformer les faits d’incident en sévérité claire, updates clients, chemins d’escalade et actions de suivi.

Voir les compétences de ce rôle

Chef de projet

Coordonner owners, timeline, prochains updates et actions post-incident entre équipes.

Voir les compétences de ce rôle

Ce qu'il fait

Update d’incident actif

Transforme des faits d’incident dispersés en update clair pour clients, support et leadership.

Sévérité et ownership

Décide de la gravité de l’incident, de qui coordonne et de l’heure du prochain update.

Préparation du postmortem

Convertit la timeline de réponse en cause racine, facteurs contributifs et actions concrètes.

Fonctionnement

Collecte symptômes, impact utilisateur, services touchés, timeline, owner actuel et retours clients.

Classe la sévérité et choisit la cadence de communication.

Sépare le confinement immédiat du travail plus profond sur la cause racine.

Rédige des updates client, support et leadership indiquant ce qui est connu, inconnu et quand arrivera le prochain update.

Enregistre la timeline d’incident et le tracker d’actions pendant que les faits évoluent.

Après résolution, produit une trame de postmortem sans blâme avec actions de suivi précises.

Options d'entrée

Symptômes et impact

Ce que vivent les utilisateurs, combien sont touchés et si données, revenu ou sécurité sont concernés.

Exemple

Ce que l’utilisateur colle

09:04 le support signale des échecs de checkout chez 18 clients.
09:07 le dashboard paiements montre des erreurs d’autorisation carte en hausse de 32 %.
09:10 engineering soupçonne le déploiement de la nouvelle règle anti-fraude.
09:14 Sales indique que deux essais entreprise sont bloqués.
Impact : le checkout échoue pour les utilisateurs Safari aux US/UE. Pas de perte de données. Contournement : réessayer sur Chrome fonctionne pour certains utilisateurs.
Canaux actuels : #support-urgent, #payments-eng, tickets Zendesk, bug Jira PAY-1842.
Besoin : sévérité, update client, owner, update interne, prochaines actions et notes postmortem.

Résultat utile

Lecture de l’incident

Classer en P1 : un parcours critique pour le revenu est dégradé pour un segment utilisateur significatif, sans panne totale, problème sécurité ni perte de données. Traiter le checkout Safari comme l’expérience client touchée, pas comme “tous les paiements down”.

Commandement incident

Incident commander : Support Lead jusqu à ce que Payments Engineering nomme un lead technique. Source de vérité : #inc-checkout-errors. Ticket lié : PAY-1842. Cadence d’update : toutes les 30 minutes jusqu à mitigation, puis toutes les 60 minutes jusqu à résolution. Prochain update externe dû à 09:45 UTC.

Update sûr pour les clients

Nous investiguons des erreurs de checkout élevées touchant certains utilisateurs Safari aux États-Unis et dans l’UE. Certains clients peuvent finaliser le checkout dans un autre navigateur pendant que nous isolons la cause. Nous partagerons le prochain update d’ici 09:45 UTC.

Update interne parties prenantes

Impact : 18 clients signalés plus deux essais entreprise bloqués. Déclencheur suspecté : déploiement de règle anti-fraude. L’hypothèse actuelle n’est pas confirmée. Payments Engineering vérifie les échecs d’autorisation spécifiques au navigateur et prépare un rollback si la règle est impliquée.

Tracker d’actions

Maintenant : mettre en pause ou rollback le déploiement de la règle anti-fraude. Owner : Payments Engineering.
Maintenant : lier tous les tickets Zendesk à PAY-1842. Owner : Support.
Ensuite : suivre le succès checkout par navigateur et région. Owner : Analytics/Payments.
Ensuite : préparer une réponse support sauvegardée avec contournement et heure du prochain update. Owner : Support Lead.

Graine de postmortem

Questions : pourquoi le déploiement a-t-il atteint les utilisateurs Safari sans monitoring checkout spécifique au navigateur ? Pourquoi Sales a-t-il reçu des retours d’essais avant que l’équipe ait un update de statut ? Les actions de suivi doivent inclure alertes checkout segmentées, mise à jour de checklist de rollout et instructions de liaison d’incidents pour le support.

Revue humaine

Confirmer la sévérité, le wording légal/conformité et si le contournement peut être publié avant tout update client.

Métriques améliorées

Temps de cycle des tickets

Aide support et engineering à faire avancer plus vite les incidents urgents via ownership et prochaines actions.

Opérations

Hygiène des tickets

Transforme les notes d’incident en bugs, actions de suivi, owners et échéances clairs.

Opérations

Compatible avec

Slack

manuel

Utiliser canaux incident, updates et notes des responders comme source de timeline.

Jira

manuel

Suivre les actions de suivi incident, bugs et tâches postmortem.

Zendesk

manuel

Utiliser retours clients et tickets support pour comprendre l’impact utilisateur.

Envie d'utiliser Réponse aux incidents ?

Choisissez comment commencer.

Exécuter dans Claude Code

Gratuit. Open source.

Installez et exécutez cette compétence localement sur votre ordinateur.

Installer Claude Code

Ouvrez un terminal sur votre ordinateur et collez cette commande :

Installer la compétence

Cela télécharge la compétence avec tous ses fichiers sur votre ordinateur :

Ajoutez -g à la fin pour le rendre disponible dans tous vos projets.

Lancez-le

Démarrez Claude Code, puis tapez la commande :

puis

Voir la source sur GitHub

Utiliser sur ElasticFlow

Fonctionnalités d'équipe et de collaboration

Exécutez les compétences depuis votre navigateur. Partagez les résultats, gérez les accès, collaborez avec votre équipe. Sans terminal.

Essai gratuit de 14 jours. Annulez à tout moment.

Voir sur GitHub

Réponse aux incidents

Gestion structurée des incidents depuis la détection jusqu au postmortem, avec patterns de résilience pour prévenir et contenir les défaillances en cascade.

Quand l’utiliser

Incident production en cours (panne, dégradation, perte de données)
Conception de circuit breakers, bulkheads ou stratégies de fallback
Conduite ou planification d’exercices de chaos engineering
Rédaction ou revue de documents postmortem
Mise en place de procédures d’astreinte et de chemins d’escalade

À éviter quand :

Le problème est un bug de développement sans impact production
Vous concevez une architecture système générale (utilisez plutôt system-design)

Référence rapide

Sujet	Charger la référence
Cadre de triage	`skills/incident-response/references/triage-framework.md`
Patterns postmortem	`skills/incident-response/references/postmortem-patterns.md`

Workflow de réponse aux incidents

Phase 1 : Détecter

Une alerte se déclenche ou un rapport utilisateur arrive
Confirmer que le problème est réel (pas un faux positif)
Identifier les services affectés et le périmètre d’impact utilisateur

Phase 2 : Trier

Classer la sévérité (P0-P3)
Assigner un incident commander
Ouvrir un canal de communication (war room, canal Slack)
Démarrer les updates de page de statut

Phase 3 : Contenir

Arrêter l’hémorragie : rollback, feature flag, déplacement de trafic
Prévenir la cascade : circuit breakers, load shedding, isolation bulkhead
Communiquer : updates parties prenantes toutes les 15 minutes pour P0/P1

Phase 4 : Résoudre

Implémenter le correctif (correctif viable minimal en premier)
Valider en staging si le temps le permet
Déployer avec monitoring et plan de rollback prêts
Confirmer la récupération avec des métriques revenues à la baseline

Phase 5 : Postmortem

Documenter la timeline dans les 48 heures
Mener une revue sans blâme avec tous les participants
Identifier cause racine et facteurs contributifs
Assigner les actions avec owners et échéances
Mettre à jour runbooks et alerting à partir des leçons apprises

Cadre de sévérité

Niveau	Impact	Temps de réponse	Exemples
P0	Panne complète, perte de données, faille sécurité	Immédiat (< 5 min)	Service down, corruption de données, fuite d’identifiants
P1	Fonction majeure cassée, impact utilisateur significatif	< 30 min	Traitement des paiements échoué, auth cassée pour une région
P2	Performance dégradée, perte partielle de fonctionnalité	< 4 heures	Latence élevée, fonctionnalité non critique indisponible
P3	Problème mineur, contournement disponible	Jour ouvré suivant	Bug UI, génération de rapport lente, erreur cosmétique

Sortie

Timeline d’incident et classification de sévérité
Actions de confinement prises
Document postmortem avec actions
Runbooks et règles d’alerting mis à jour

Erreurs courantes

Sauter la classification de sévérité et traiter tout comme P0
Faire des changements sans plan de rollback
Oublier de communiquer le statut aux parties prenantes
Écrire des postmortems qui attribuent la faute au lieu d’identifier les problèmes systémiques
Ne pas suivre les actions issues du postmortem

Documents de référence

Patterns postmortem

Structure de postmortem sans blâme

Principes cœur

Pas de blâme : se concentrer sur systèmes, processus et conditions -- pas sur les individus
Supposer la bonne intention : chaque personne impliquée faisait de son mieux avec les informations disponibles
Apprendre, ne pas punir : l’objectif est la prévention, pas la responsabilité individuelle
Partager largement : les postmortems sont un apprentissage organisationnel, pas une honte d’équipe

Template de document postmortem

# Incident Postmortem: [Title]

**Date:** [Incident date]
**Severity:** P[0-3]
**Duration:** [Start time] to [End time] ([total duration])
**Incident Commander:** [Name]
**Author:** [Name]
**Status:** [Draft | Review | Final]

## Summary

[1-2 sentence description of what happened and the user impact]

## Impact

- **Users affected:** [Number or percentage]
- **Duration:** [How long users experienced the issue]
- **Revenue impact:** [If applicable]
- **Data impact:** [Any data loss or corruption]
- **SLA impact:** [Any SLA violations]

## Timeline

All times in [timezone].

| Time | Event |
|------|-------|
| HH:MM | [First signal / alert fired] |
| HH:MM | [On-call acknowledged] |
| HH:MM | [Severity classified as P_] |
| HH:MM | [Key investigation finding] |
| HH:MM | [Mitigation applied] |
| HH:MM | [Issue confirmed resolved] |
| HH:MM | [Monitoring confirmed stable] |

## Root Cause

[Detailed description of the root cause. What condition or change led to the failure?]

## Contributing Factors

- [Factor 1: e.g., missing monitoring for this failure mode]
- [Factor 2: e.g., deployment during high-traffic period]
- [Factor 3: e.g., no automated rollback configured]

## What Went Well

- [Thing 1: e.g., alert fired within 2 minutes of impact]
- [Thing 2: e.g., team coordinated effectively in war room]
- [Thing 3: e.g., rollback was smooth and fast]

## What Went Poorly

- [Thing 1: e.g., took 20 minutes to identify the failing service]
- [Thing 2: e.g., no runbook existed for this failure mode]
- [Thing 3: e.g., status page was not updated for 30 minutes]

## Action Items

| ID | Action | Owner | Priority | Due Date | Status |
|----|--------|-------|----------|----------|--------|
| 1 | [Action description] | [Name] | P1 | [Date] | Open |
| 2 | [Action description] | [Name] | P2 | [Date] | Open |

## Lessons Learned

[Key takeaways that should inform future design, process, or tooling decisions]

Facilitation de réunion postmortem

Avant la réunion :

Rédiger le document postmortem et le partager 24 heures à l’avance
Tous les participants relisent la timeline pour exactitude
L’incident commander prépare l’analyse de cause racine

Pendant la réunion (60-90 min) :

Revue timeline (15 min) : parcourir les événements, corriger les erreurs, combler les gaps
Discussion cause racine (20 min) : appliquer 5 Whys ou analyse fishbone
Facteurs contributifs (15 min) : qu’est-ce qui a aggravé l’incident ou rendu la résolution plus difficile ?
Ce qui a bien fonctionné (10 min) : renforcer les pratiques efficaces
Actions (20 min) : définir des actions concrètes, assignables et time-bounded

Après la réunion :

Finaliser le document sous 24 heures
Le distribuer à l’organisation élargie
Entrer les actions dans le système de suivi
Planifier une revue de suivi pour l’achèvement des actions

Techniques d’analyse de cause racine

5 Whys

Demander "pourquoi" de façon répétée pour dépasser les symptômes et atteindre la cause sous-jacente.

Exemple :

Problem: Users received duplicate order confirmation emails.

Why 1: The email service sent the confirmation twice.
Why 2: The order completion event was published twice.
Why 3: The order service retried after a timeout.
Why 4: The message broker acknowledged slowly under load.
Why 5: The broker's disk was 95% full, causing write delays.

Root cause: No disk usage monitoring or alerting on the message broker.
Action: Add disk usage alerting at 80% threshold + auto-scaling.

Guidelines :

Arrêtez-vous quand vous atteignez une cause systémique corrigeable (processus, tooling, design)
Ne vous arrêtez pas à "human error" -- demandez pourquoi le système a permis l’erreur
Certains incidents ont plusieurs causes racines; lancez 5 Whys pour chaque branche
Les réponses doivent être factuelles, pas spéculatives

Diagramme fishbone (Ishikawa)

Catégoriser les facteurs contributifs selon des dimensions standard.

                    ┌─ People: On-call unfamiliar with service
                    ├─ Process: No rollback runbook existed
Duplicate emails ───├─ Technology: No idempotency on email sends
                    ├─ Environment: Broker disk at 95%
                    ├─ Monitoring: No disk usage alerts
                    └─ External: Upstream traffic spike

Catégories standard :

People : lacunes de connaissance, staffing, communication
Process : runbooks manquants, procédures floues, goulots d’approbation
Technology : bugs, fonctionnalités manquantes, gaps d’architecture
Environment : infrastructure, capacité, configuration
Monitoring : alertes manquantes, seuils incorrects, gaps d’observabilité
External : pannes tierces, pics de trafic, attaques

Fault Tree Analysis

Remonter depuis la panne pour identifier toutes les causes possibles.

Top event: Service outage
├── AND: Load balancer failure
│   ├── OR: Config error
│   └── OR: Health check misconfigured
└── AND: No failover triggered
    ├── OR: Failover not configured
    └── OR: Failover health check also failed

Quand l’utiliser : incidents complexes avec plusieurs défaillances interactives où 5 Whys est insuffisant.

Suivi des actions

Critères de qualité des actions

Chaque action doit être :

Spécifique : description claire de quoi faire (pas "improve monitoring")
Assignable : un owner, pas une équipe
Time-bounded : date d’échéance, pas "quand on aura le temps"
Vérifiable : définition claire du done
Priorisée : P1 (avant la prochaine rotation d’astreinte), P2 (ce sprint), P3 (ce trimestre)

Catégories d’actions

Catégorie	Description	Exemples
Détection	Améliorer la capacité à remarquer le problème	Ajouter alerte, améliorer dashboard
Prévention	Empêcher le problème de se produire	Corriger bug, ajouter validation, améliorer architecture
Mitigation	Réduire l’impact quand cela arrive	Ajouter circuit breaker, améliorer rollback, écrire runbook
Processus	Améliorer la réponse d’équipe	Mettre à jour procédures d’astreinte, conduire formation

Tracking et suivi

Entrer toutes les actions immédiatement dans l’issue tracker de l’équipe
Taguer avec postmortem et l’ID incident pour traçabilité
Revoir chaque semaine les actions postmortem ouvertes en standup équipe
Escalader les P1 en retard au manager engineering
Fermer les actions seulement quand l’achèvement est vérifié (pas juste "code merged")

Anti-patterns d’actions

Anti-pattern	Problème	Alternative préférable
"Be more careful"	Pas actionnable	Automatiser le contrôle
"Improve monitoring"	Trop vague	"Add alert for X metric when > Y for Z minutes"
"No owner assigned"	Ne sera pas fait	Assigner une personne précise
"Due: TBD"	Sera dépriorisé	Fixer une date concrète
"Add more tests"	Non borné	"Add regression test for this specific failure mode"

Patterns de chaos engineering

Injection de fautes

Introduire volontairement des pannes pour vérifier la résilience.

Types de fautes courants :

Faute	Outil/Méthode	Valide
Tuer instance service	Process kill, pod delete	Auto-restart, health checks
Latence réseau	tc netem, Toxiproxy	Gestion timeout, circuit breakers
Partition réseau	iptables, DNS override	Failover, gestion split-brain
Disque plein	fallocate, dd	Dégradation gracieuse, alerting
Épuisement CPU	stress-ng	Autoscaling, load shedding
Défaillance dépendance	Mock retournant 500s	Chemins fallback, gestion erreur
Décalage horloge	chrony offset	Logique dépendante du temps

Checklist d’injection de fautes

Hypothèse définie : "We believe [X] will happen when [fault]"
Blast radius limité (instance unique, canary, staging)
Mécanisme de rollback prêt (kill switch de l’expérience)
Monitoring en place pour observer l’effet
L’équipe sait que l’expérience est en cours
Critères d’arrêt définis (stop si impact utilisateur réel dépasse N%)

Game Days

Exercices structurés où les équipes pratiquent la réponse incident face à des pannes simulées.

Template de planification Game Day :

## Game Day: [Title]

**Date:** [Date and time]
**Duration:** [Expected duration]
**Facilitator:** [Name]
**Participants:** [Team members]

### Scenario
[Description of the simulated incident]

### Objectives
- [ ] Validate alerting detects the failure within [N] minutes
- [ ] Validate team can triage to correct severity
- [ ] Validate mitigation can be applied within [N] minutes
- [ ] Validate communication protocols are followed

### Ground Rules
- This is practice, not evaluation
- Facilitator controls the scenario progression
- Anyone can call "stop" if real production impact is detected
- Document all observations in real time

### Debrief Questions
1. Did alerts fire as expected?
2. Was the right team engaged quickly enough?
3. Were runbooks adequate?
4. What would we do differently in a real incident?

Cadence game day :

Trimestrielle pour les services critiques
Après changements d’architecture majeurs
Lors de l’onboarding de nouveaux ingénieurs d’astreinte
Après tout incident P0 (tester les correctifs)

Méthodologie de test de résilience

Niveaux de maturité résilience

Niveau	Description	Activités
1 - Réactif	Corriger les pannes après coup	Postmortems, monitoring basique
2 - Aware	Savoir où les pannes peuvent arriver	Analyse modes de défaillance, registre risques
3 - Proactif	Tester les pannes avant qu’elles arrivent	Expériences chaos en staging
4 - Continu	Valider régulièrement la résilience en production	Chaos automatisé, game days
5 - Anti-fragile	Les systèmes s’améliorent par la panne	Boucles feedback, auto-remediation

Checklist de test de résilience

Pour chaque service critique, valider :

Défaillance instance unique : le service récupère quand une instance meurt
Timeout dépendance : le service gère les dépendances lentes gracieusement
Panne dépendance : le service se dégrade (ne crash pas) quand une dépendance est down
Partition réseau : le service gère les scénarios split-brain
Pic de charge : le service shed la charge ou scale sous 3x trafic normal
Disque plein : le service alerte et se dégrade avant de crasher
Erreur configuration : le service fail fast avec erreur claire sur mauvaise config
Rollback : la version précédente peut être déployée sous 5 minutes
Corruption données : la restauration backup a été testée dans le dernier trimestre

Hypothèse steady-state

Avant toute expérience chaos, définir ce que "normal" signifie :

Steady state:
- Request success rate > 99.9%
- p99 latency < 200ms
- Error rate < 0.1%
- No alerts firing

Experiment: Kill 1 of 3 service instances

Hypothesis: Steady state metrics remain within 10% of baseline
            within 60 seconds of the fault injection.

Abort if: Error rate > 5% for more than 30 seconds.

réponse aux incidents
panne
postmortem
triage
incident
réponse

Réponse aux incidents

Gestion structurée des incidents depuis la détection jusqu au postmortem, avec patterns de résilience pour prévenir et contenir les défaillances en cascade.

Quand l’utiliser

Incident production en cours (panne, dégradation, perte de données)
Conception de circuit breakers, bulkheads ou stratégies de fallback
Conduite ou planification d’exercices de chaos engineering
Rédaction ou revue de documents postmortem
Mise en place de procédures d’astreinte et de chemins d’escalade

À éviter quand :

Le problème est un bug de développement sans impact production
Vous concevez une architecture système générale (utilisez plutôt system-design)

Référence rapide

Sujet	Charger la référence
Cadre de triage	`skills/incident-response/references/triage-framework.md`
Patterns postmortem	`skills/incident-response/references/postmortem-patterns.md`

Workflow de réponse aux incidents

Phase 1 : Détecter

Une alerte se déclenche ou un rapport utilisateur arrive
Confirmer que le problème est réel (pas un faux positif)
Identifier les services affectés et le périmètre d’impact utilisateur

Phase 2 : Trier

Classer la sévérité (P0-P3)
Assigner un incident commander
Ouvrir un canal de communication (war room, canal Slack)
Démarrer les updates de page de statut

Phase 3 : Contenir

Arrêter l’hémorragie : rollback, feature flag, déplacement de trafic
Prévenir la cascade : circuit breakers, load shedding, isolation bulkhead
Communiquer : updates parties prenantes toutes les 15 minutes pour P0/P1

Phase 4 : Résoudre

Implémenter le correctif (correctif viable minimal en premier)
Valider en staging si le temps le permet
Déployer avec monitoring et plan de rollback prêts
Confirmer la récupération avec des métriques revenues à la baseline

Phase 5 : Postmortem

Documenter la timeline dans les 48 heures
Mener une revue sans blâme avec tous les participants
Identifier cause racine et facteurs contributifs
Assigner les actions avec owners et échéances
Mettre à jour runbooks et alerting à partir des leçons apprises

Cadre de sévérité

Niveau	Impact	Temps de réponse	Exemples
P0	Panne complète, perte de données, faille sécurité	Immédiat (< 5 min)	Service down, corruption de données, fuite d’identifiants
P1	Fonction majeure cassée, impact utilisateur significatif	< 30 min	Traitement des paiements échoué, auth cassée pour une région
P2	Performance dégradée, perte partielle de fonctionnalité	< 4 heures	Latence élevée, fonctionnalité non critique indisponible
P3	Problème mineur, contournement disponible	Jour ouvré suivant	Bug UI, génération de rapport lente, erreur cosmétique

Sortie

Timeline d’incident et classification de sévérité
Actions de confinement prises
Document postmortem avec actions
Runbooks et règles d’alerting mis à jour

Erreurs courantes

Sauter la classification de sévérité et traiter tout comme P0
Faire des changements sans plan de rollback
Oublier de communiquer le statut aux parties prenantes
Écrire des postmortems qui attribuent la faute au lieu d’identifier les problèmes systémiques
Ne pas suivre les actions issues du postmortem

Cadre de triage

Classification de sévérité (P0-P3)

P0 -- Critique

Définition : Panne complète de service, perte active de données ou faille sécurité affectant tous les utilisateurs.

Attribut	Exigence
Temps de réponse	< 5 minutes
Incident commander	Requis (senior engineer ou SRE)
Cadence de communication	Toutes les 15 minutes aux parties prenantes
War room	Ouverte immédiatement
Escalade	VP/Director notifié sous 15 minutes
Postmortem	Requis sous 48 heures

Exemples :

Base de données production injoignable
Service d’authentification complètement down
Corruption ou perte active de données
Faille sécurité avec exfiltration confirmée
Traitement des paiements arrêté

P1 -- Élevé

Définition : Fonctionnalité majeure cassée ou dégradation significative affectant un large sous-ensemble d’utilisateurs.

Attribut	Exigence
Temps de réponse	< 30 minutes
Incident commander	Requis
Cadence de communication	Toutes les 30 minutes aux parties prenantes
War room	Ouverte si non résolu sous 30 minutes
Escalade	Manager notifié sous 30 minutes
Postmortem	Requis sous 1 semaine

Exemples :

Paiements échouant pour une région
Recherche retournant des erreurs pour 20 %+ des requêtes
Latence API 10x au-dessus de la normale
Crash de l’app mobile au lancement pour une version OS précise

P2 -- Moyen

Définition : Performance dégradée ou perte partielle de fonctionnalité avec contournements disponibles.

Attribut	Exigence
Temps de réponse	< 4 heures
Incident commander	Optionnel (l’astreinte gère)
Cadence de communication	Update au début et à la résolution
War room	Non requise
Escalade	Si non résolu après 8 heures
Postmortem	Recommandé

Exemples :

Latence élevée (2-3x normale) sur endpoints non critiques
Traitement de jobs background retardé
Intégration tierce non critique down
Génération de rapports lente mais fonctionnelle

P3 -- Faible

Définition : Problème mineur avec impact utilisateur minimal. Un contournement existe ou le problème est cosmétique.

Attribut	Exigence
Temps de réponse	Jour ouvré suivant
Incident commander	Non requis
Cadence de communication	Update ticket à la résolution
War room	Non requise
Escalade	Non requise
Postmortem	Non requis

Exemples :

Glitch de rendu UI dans un edge case
Cron non critique échoué (réessaiera)
Chargement lent d’un dashboard interne
Erreur de logging mineure sans impact fonctionnalité

Arbre de décision de sévérité

Is data being lost or corrupted?
├─ Yes → P0
└─ No
   Is there a security breach?
   ├─ Yes → P0
   └─ No
      Is the primary service completely down?
      ├─ Yes → P0
      └─ No
         Is a major feature broken for many users?
         ├─ Yes → P1
         └─ No
            Is performance significantly degraded?
            ├─ Yes → P2
            └─ No → P3

Prévention des cascades

Circuit Breakers

Arrêter automatiquement les appels à une dépendance défaillante pour prévenir une panne en cascade.

Checklist d’implémentation :

Chaque dépendance externe a un circuit breaker
Les seuils d’échec sont réglés par dépendance (pas one-size-fits-all)
L’état OPEN retourne un fallback utile (données cache, réponse dégradée, erreur)
Les probes HALF-OPEN sont légers (health check, pas requête complète)
L’état du circuit breaker est observable (métriques, dashboard)
Des alertes se déclenchent quand un circuit breaker s’ouvre

Template de configuration :

Dependency: [service name]
Failure threshold: [N] failures in [T] seconds
Reset timeout: [T] seconds
Fallback: [cached response | error message | degraded mode]

Isolation Bulkhead

Partitionner les ressources pour qu’une panne dans une zone ne puisse pas épuiser les ressources d’une autre.

Patterns :

Isolation thread pool : pools de threads séparés par dépendance
Isolation connection pool : pools dédiés par service downstream
Isolation process : workloads critiques et non critiques dans des processus séparés
Isolation infrastructure : clusters séparés pour workloads critiques vs batch

Checklist :

Les dépendances du chemin critique ont des pools de ressources dédiés
Le travail background non critique ne peut pas affamer les requêtes critiques
Les limites sont définies par pool (max connections, max threads)
L’épuisement de pool déclenche des alertes, pas de file silencieuse

Load Shedding

Abandonner intentionnellement du travail basse priorité pour préserver la capacité du trafic haute priorité.

Niveaux de priorité :

Priorité	Type de trafic	Shedding quand
Critique	Health checks, authentification	Jamais
Haute	Requêtes utilisateur cœur	> 95% capacité
Moyenne	Fonctionnalités secondaires, analytics	> 80% capacité
Basse	Jobs background, prefetch	> 70% capacité

Implémentation :

Utiliser headers de priorité de requête ou classification par path
Retourner 503 avec header Retry-After pour les requêtes shed
Suivre le taux de shedding comme métrique (shedding > 0 est une alerte)

Stratégies de dégradation gracieuse

Stratégie	Description	Exemple
Feature flags	Désactiver des fonctionnalités non critiques	Couper les recommandations pendant une charge élevée
Fallback cache	Servir des données stale	Montrer des résultats de recherche cache quand le service search est down
Mode lecture seule	Désactiver les écritures	Permettre navigation mais pas achat pendant panne paiements
Fallback statique	Servir du contenu pré-généré	Montrer une landing page statique quand le CMS est down
Queue and retry	Accepter mais différer le traitement	Accepter commandes, traiter quand le backend récupère

Protocoles de communication

Updates de page de statut

Template d’entrée de page de statut :

[TIMESTAMP] - [STATUS: Investigating | Identified | Monitoring | Resolved]

Impact: [Brief description of user-visible impact]
Current status: [What we know and what we're doing]
Next update: [When to expect the next update]

Cadence d’update :

P0 : toutes les 15 minutes jusqu à résolution
P1 : toutes les 30 minutes jusqu à résolution
P2 : au début et à la résolution
P3 : seulement à la résolution

Template de notification parties prenantes

Subject: [P0/P1] [Service] - [Brief impact description]

Severity: P[0-3]
Start time: [ISO 8601 timestamp]
Impact: [Who is affected and how]
Current status: [What we know]
Actions taken: [What we've done so far]
ETA: [If known, otherwise "investigating"]
Next update: [When]
Incident commander: [Name]
War room: [Link/channel]

Règles de communication interne

Une source de vérité : tous les updates passent par le canal incident, pas par DM
Faits, pas spéculation : partagez ce que vous savez, signalez ce que vous suspectez
Timestamp partout : chaque action et observation reçoit un timestamp
Pas de blâme : concentrez-vous sur ce qui s’est passé, pas sur qui l’a causé
Handoffs clairs : lors d’une rotation, transmettez explicitement le contexte

Chemins d’escalade

Déclencheurs d’escalade

Condition	Action
P0 non acquitté en 5 min	Pager l’astreinte backup
P0/P1 non mitigé en 30 min	Escalader au manager engineering
P0 non résolu en 1 heure	Escalader au VP/Director
Toute sévérité affectant le revenu	Notifier finance et parties prenantes business
Incident sécurité confirmé	Notifier équipe sécurité et juridique
Fuite de données suspectée	Invoquer le plan de réponse fuite de données

Checklist d’escalade

Astreinte primaire pagée et acquittée
Si pas d’acquittement en 5 min, astreinte secondaire pagée
Incident commander assigné
Leads d’équipes pertinents notifiés
Page de statut mise à jour
Support client briefé avec talking points
Parties prenantes exécutives notifiées (P0/P1 seulement)

Responsabilités d’astreinte

Pendant l’incident :

Acquitter le page sous 5 minutes
Évaluer la sévérité et ouvrir le canal incident
Démarrer l’investigation et documenter les découvertes en temps réel
Coordonner avec les autres équipes si nécessaire
Fournir les updates de statut à la cadence requise

Après l’incident :

S’assurer que le monitoring confirme la résolution
Rédiger la timeline incident
Planifier le postmortem si requis
Mettre à jour les runbooks avec les nouveaux apprentissages
Transmettre à la prochaine astreinte si le shift finit pendant l’incident

Classez les incidents, coordonnez les updates et transformez la réponse en travail de suivi. — Claude Skill

Pour qui

Ce qu'il fait

Fonctionnement

Options d'entrée

Exemple

Métriques améliorées

Compatible avec

Envie d'utiliser Réponse aux incidents ?

Instructions de la compétence

Réponse aux incidents

Quand l’utiliser

Référence rapide

Workflow de réponse aux incidents

Phase 1 : Détecter

Phase 2 : Trier

Phase 3 : Contenir

Phase 4 : Résoudre

Phase 5 : Postmortem

Cadre de sévérité

Sortie

Erreurs courantes

Documents de référence

Patterns postmortem

Structure de postmortem sans blâme

Principes cœur

Template de document postmortem

Facilitation de réunion postmortem

Techniques d’analyse de cause racine

5 Whys

Diagramme fishbone (Ishikawa)

Fault Tree Analysis

Suivi des actions

Critères de qualité des actions

Catégories d’actions

Tracking et suivi

Anti-patterns d’actions

Patterns de chaos engineering

Injection de fautes

Checklist d’injection de fautes

Game Days

Méthodologie de test de résilience

Niveaux de maturité résilience

Checklist de test de résilience

Hypothèse steady-state

Réponse aux incidents

Quand l’utiliser

Référence rapide

Workflow de réponse aux incidents

Phase 1 : Détecter

Phase 2 : Trier

Phase 3 : Contenir

Phase 4 : Résoudre

Phase 5 : Postmortem

Cadre de sévérité

Sortie

Erreurs courantes

Cadre de triage

Classification de sévérité (P0-P3)

P0 -- Critique

P1 -- Élevé

P2 -- Moyen

P3 -- Faible

Arbre de décision de sévérité

Prévention des cascades

Circuit Breakers

Isolation Bulkhead

Load Shedding

Stratégies de dégradation gracieuse

Protocoles de communication

Updates de page de statut

Template de notification parties prenantes

Règles de communication interne

Chemins d’escalade

Déclencheurs d’escalade

Checklist d’escalade

Responsabilités d’astreinte

Classez les incidents, coordonnez les updates et transformez la réponse en travail de suivi. — Claude Skill

Pour qui

Ce qu'il fait