Decide whether an experiment deve ship, stop, ou keep running. — Claude Skill
Um Skill Claude para Claude Code por Pawel Huryn — executar /ab-test-analysis no Claude·Atualizado em 18 de jun. de 2026·vphuryn/pm-skills@ab-test-analysis
Lê resultados de experiência, tamanho de amostra, mudanças de conversão, métricas guardrail e contexto de negócio para recomendar lançar, parar ou continuar.
- Explains experiment results in plain language instead de only reporting a p-value ou dashboard screenshot.
- verifica primary métrica, sample size, segment differences, e guardrail métricas antes recommending a decisão.
- Separates meaningful lift a partir de noise, novelty effects, broken tracking, ou mixed segment behavior.
- Returns a decisão memo com evidência, risco, próximo test idea, e what a human deve confirm.
A growth marketer screenshots o experiment dashboard, says o test is up, e debates confiança in a meeting.
Run /ab-test-analysis com o result table e contexto. o skill returns a decisão, evidência, riscos, e follow-up test.
Para quem é
transformar experiment results em claro lançar, stop, ou continue decisões.
Ver skills para esta funçãoUnderstand experiment impacto on utilizador behavior, produto risco, e próximo iteration.
Ver skills para esta funçãoAjuda Analytics Engineer a transformar contexto disperso em decisões, próximos passos e evidência clara.
Ver skills para esta funçãoO que faz
transformar Optimizely, Amplitude, ou GA results na decisão memo.
verificar whether a conversão lift came com revenue, suporte, speed, ou retenção risco.
encontrar tracking, segment, sample size, ou timing problems antes trusting o result.
Como funciona
Share o experiment goal, variants, dates, traffic, sample size, e métrica results.
Add guardrail métricas such as churn, revenue, refund taxa, suporte tickets, ou página speed if disponível.
o skill interprets lift, confiança, prático significance, e business risco.
It recomenda ship, stop, keep running, ou re-run com a cleaner design.
Opções de entrada
Hypothesis, variants, dates, traffic split, audiência, e success métrica.
Exemplo
Hypothesis: changing CTA a partir de 'Start trial' para 'criar o seu workspace' increases trial starts. Duration: 21 days Traffic split: 50/50 Control: 18,420 visitors, 1,105 trial starts, revenue per visitor $3.12 Variant: 18,390 visitors, 1,236 trial starts, revenue per visitor $3.20 Guardrails: checkout error taxa, página load time, paid conversão depois 7 days.
**Hypothesis:** Workspace-oriented CTA increases trial starts by making o próximo step clearer. **Duration:** 21 days | **Sample:** 18,420 control / 18,390 variant **Setup verificar:** full business cycles covered; traffic split is balanced; guardrails disponível.
| métrica | Control | Variant | Lift | p-value | Significant? | |---|---:|---:|---:|---:|---| | Trial start taxa | 6.0% | 6.7% | +12.0% | 0.018 | Yes | | Revenue per visitor | $3.12 | $3.20 | +2.6% | 0.41 | No | | Checkout error taxa | 1.1% | 1.2% | +0.1 pp | 0.62 | No | | página load p75 | 2.1s | 2.2s | +0.1s | - | No concern |
**Ship it para 100%.** Primary métrica has statistically significant positive lift e guardrails did não degrade. Treat revenue lift as directional only because it is não significant yet.
1. Roll out o variant CTA. 2. monitorizar paid conversão para one more cohort window. 3. Add a follow-up test on o onboarding step depois trial start. 4. Document that this test improves trial starts, não proven revenue yet.
Métricas que melhora
Funciona com
Usado como fonte de dados ou contexto de Google Sheets para produzir um resultado mais completo e verificável.
usar experiment results, variants, confiança, e traffic allocation.
verificar produto behavior, ativação, retenção, e segment impacto.
usar traffic, conversão, e aquisição contexto.
Em qualquer lugar
Paste the notes, exports, screenshots, or summaries you already have. The skill works without a connected system.
Connect the relevant support, analytics, CRM, or data tool when you want fresher source evidence.
Quer usar Análise de Teste A/B?
Escolha como começar.
Instale e execute este skill localmente no seu computador.
Abra um terminal no seu computador e cole este comando:
Isto descarrega o skill com todos os ficheiros para o seu computador:
Adicione -g no fim para o tornar disponível em todos os seus projetos.
Inicie o Claude Code, depois escreva o comando:
A/B Test Analysis
Evaluate A/B test results com statistical rigor e translate findings em claro produto decisões.
contexto
você are analyzing A/B test results para $ARGUMENTS.
If o utilizador provides dados files (CSV, Excel, ou analytics exports), ler e analyze them directly. gerar Python scripts para statistical calculations when needed.
Instructions
- Understand o experiment:
- What was o hypothesis?
- What was changed (o variant)?
- What is o primary métrica? qualquer guardrail métricas?
- How long did o test run?
- What is o traffic split?
- validar o test setup:
- Sample size: Is o sample large enough para o expected effect size?
- usar o formula: n = (Z²α/2 × 2 × p × (1-p)) / MDE²
- assinalar if o test is underpowered (<80% power)
- Duration: Did o test run para at least 1-2 full business cycles?
- Randomization: qualquer evidência de sample ratio mismatch (SRM)?
- Novelty/primacy effects: Was there enough time para wash out initial behavior changes?
- Calculate statistical significance:
- conversão taxa para control e variant
- Relative lift: (variant - control) / control × 100
- p-value: Using a two-tailed z-test ou chi-squared test
- confiança interval: 95% CI para o difference
- Statistical significance: Is p < 0.05?
- prático significance: Is o lift meaningful para o business?
If o utilizador provides raw dados, gerar e run a Python script para calculate these.
- verificar guardrail métricas:
- Did qualquer guardrail métricas (revenue, engagement, página load time) degrade?
- A winning primary métrica com degraded guardrails may não be a true win
- Interpret results:
| resultado | recomendação |
|---|---|
| Significant positive lift, no guardrail issues | Ship it — roll out para 100% |
| Significant positive lift, guardrail concerns | Investigate — understand trade-offs antes shipping |
| não significant, positive tendência | Extend o test — precisar de more dados ou larger effect |
| não significant, flat | Stop o test — no meaningful difference detected |
| Significant negative lift | Don't ship — revert para control, analyze why |
- Provide o analysis summary:
A/B Test Results: [Test nomear]
Hypothesis: [What we expected] Duration: [X days] | Sample: [N control / M variant]
| métrica | Control | Variant | Lift | p-value | Significant? |
|---|---|---|---|---|---|
| [Primary] | X% | Y% | +Z% | 0.0X | Yes/No |
| [Guardrail] | ... | ... | ... | ... | ... |
recomendação: [Ship / Extend / Stop / Investigate] Reasoning: [Why] Próximos passos: [What para do]
Think step by step. Save as markdown. gerar Python scripts para calculations if raw dados is provided.
---
### Further Reading
- [A/B Testing 101 + Examples](¤KEEP0¤)
- [Testing produto Ideas: o Ultimate Validation Experiments Library](¤KEEP0¤)
- [Are você Tracking o Right métricas?](¤KEEP0¤)
Documentos de referência
name: ab-test-analysis description: "Analyze A/B test results com statistical significance, sample size validation, confiança intervals, e ship/extend/stop recomendações. usar when evaluating experiment results, checking if a test reached significance, interpreting split test dados, ou deciding whether para ship a variant."
A/B Test Analysis
Evaluate A/B test results com statistical rigor e translate findings em claro produto decisões.
contexto
você are analyzing A/B test results para $ARGUMENTS.
If o utilizador provides dados files (CSV, Excel, ou analytics exports), ler e analyze them directly. gerar Python scripts para statistical calculations when needed.
Instructions
- Understand o experiment:
- What was o hypothesis?
- What was changed (o variant)?
- What is o primary métrica? qualquer guardrail métricas?
- How long did o test run?
- What is o traffic split?
- validar o test setup:
- Sample size: Is o sample large enough para o expected effect size?
- usar o formula: n = (Z²α/2 × 2 × p × (1-p)) / MDE²
- assinalar if o test is underpowered (<80% power)
- Duration: Did o test run para at least 1-2 full business cycles?
- Randomization: qualquer evidência de sample ratio mismatch (SRM)?
- Novelty/primacy effects: Was there enough time para wash out initial behavior changes?
- Calculate statistical significance:
- conversão taxa para control e variant
- Relative lift: (variant - control) / control × 100
- p-value: Using a two-tailed z-test ou chi-squared test
- confiança interval: 95% CI para o difference
- Statistical significance: Is p < 0.05?
- prático significance: Is o lift meaningful para o business?
If o utilizador provides raw dados, gerar e run a Python script para calculate these.
- verificar guardrail métricas:
- Did qualquer guardrail métricas (revenue, engagement, página load time) degrade?
- A winning primary métrica com degraded guardrails may não be a true win
- Interpret results:
| resultado | recomendação |
|---|---|
| Significant positive lift, no guardrail issues | Ship it — roll out para 100% |
| Significant positive lift, guardrail concerns | Investigate — understand trade-offs antes shipping |
| não significant, positive tendência | Extend o test — precisar de more dados ou larger effect |
| não significant, flat | Stop o test — no meaningful difference detected |
| Significant negative lift | Don't ship — revert para control, analyze why |
- Provide o analysis summary:
A/B Test Results: [Test nomear]
Hypothesis: [What we expected] Duration: [X days] | Sample: [N control / M variant]
| métrica | Control | Variant | Lift | p-value | Significant? |
|---|---|---|---|---|---|
| [Primary] | X% | Y% | +Z% | 0.0X | Yes/No |
| [Guardrail] | ... | ... | ... | ... | ... |
recomendação: [Ship / Extend / Stop / Investigate] Reasoning: [Why] Próximos passos: [What para do]
Think step by step. Save as markdown. gerar Python scripts para calculations if raw dados is provided.
---
### Further Reading
- [A/B Testing 101 + Examples](¤KEEP0¤)
- [Testing produto Ideas: o Ultimate Validation Experiments Library](¤KEEP0¤)
- [Are você Tracking o Right métricas?](¤KEEP0¤)
fonte marketplace página: ¤KEEP0¤
Install command: npx skills add phuryn/pm-skills@ab-test-analysis