Disponível em: English Français 한국어 Português

Skill de IAAnálise de Teste A/BMarketing

Decide whether an experiment deve ship, stop, ou keep running. — Claude Skill

Name: Análise de Teste A/B
Author: Pawel Huryn

Um Skill Claude para Claude Code por Pawel Huryn — executar /ab-test-analysis no Claude·Atualizado em 18 de jun. de 2026·vphuryn/pm-skills@ab-test-analysis

Compatível comChatGPT

ClaudeClaude CodeClaude DesktopCodex / Codex CLI

Cursor

GeminiHermes (via Continue / Cline)

OpenClaw

Windsurf

Lê resultados de experiência, tamanho de amostra, mudanças de conversão, métricas guardrail e contexto de negócio para recomendar lançar, parar ou continuar.

Explains experiment results in plain language instead de only reporting a p-value ou dashboard screenshot.
verifica primary métrica, sample size, segment differences, e guardrail métricas antes recommending a decisão.
Separates meaningful lift a partir de noise, novelty effects, broken tracking, ou mixed segment behavior.
Returns a decisão memo com evidência, risco, próximo test idea, e what a human deve confirm.

VocêHoje

A growth marketer screenshots o experiment dashboard, says o test is up, e debates confiança in a meeting.

Com /ab-test-analysis

Run /ab-test-analysis com o result table e contexto. o skill returns a decisão, evidência, riscos, e follow-up test.

1 Paste result table2 verificar guardrails3 Interpret decisão risco4 Write ship/stop/continue memo

Para quem é

Growth Marketer

transformar experiment results em claro lançar, stop, ou continue decisões.

Ver skills para esta função

Product Manager

Understand experiment impacto on utilizador behavior, produto risco, e próximo iteration.

Ver skills para esta função

Analytics Engineer

Ajuda Analytics Engineer a transformar contexto disperso em decisões, próximos passos e evidência clara.

Ver skills para esta função

O que faz

Growth experiment readout

transformar Optimizely, Amplitude, ou GA results na decisão memo.

Guardrail review

verificar whether a conversão lift came com revenue, suporte, speed, ou retenção risco.

Experiment design critique

encontrar tracking, segment, sample size, ou timing problems antes trusting o result.

Como funciona

Share o experiment goal, variants, dates, traffic, sample size, e métrica results.

Add guardrail métricas such as churn, revenue, refund taxa, suporte tickets, ou página speed if disponível.

o skill interprets lift, confiança, prático significance, e business risco.

It recomenda ship, stop, keep running, ou re-run com a cleaner design.

Opções de entrada

Experiment setup

Hypothesis, variants, dates, traffic split, audiência, e success métrica.

Exemplo

Experiment results

Hypothesis: changing CTA a partir de 'Start trial' para 'criar o seu workspace' increases trial starts.
Duration: 21 days
Traffic split: 50/50
Control: 18,420 visitors, 1,105 trial starts, revenue per visitor $3.12
Variant: 18,390 visitors, 1,236 trial starts, revenue per visitor $3.20
Guardrails: checkout error taxa, página load time, paid conversão depois 7 days.

A/B test result summary

A/B Test Results: pricing CTA

**Hypothesis:** Workspace-oriented CTA increases trial starts by making o próximo step clearer.
**Duration:** 21 days | **Sample:** 18,420 control / 18,390 variant
**Setup verificar:** full business cycles covered; traffic split is balanced; guardrails disponível.

Metric table

| métrica | Control | Variant | Lift | p-value | Significant? |
|---|---:|---:|---:|---:|---|
| Trial start taxa | 6.0% | 6.7% | +12.0% | 0.018 | Yes |
| Revenue per visitor | $3.12 | $3.20 | +2.6% | 0.41 | No |
| Checkout error taxa | 1.1% | 1.2% | +0.1 pp | 0.62 | No |
| página load p75 | 2.1s | 2.2s | +0.1s | - | No concern |

Recommendation

**Ship it para 100%.** Primary métrica has statistically significant positive lift e guardrails did não degrade. Treat revenue lift as directional only because it is não significant yet.

Próximos passos

1. Roll out o variant CTA.
2. monitorizar paid conversão para one more cohort window.
3. Add a follow-up test on o onboarding step depois trial start.
4. Document that this test improves trial starts, não proven revenue yet.

Métricas que melhora

Taxa de conversão

+5-20%

Marketing

Significância estatística

decisão risco reduced

Marketing

Confiança na métrica

+20-40%

Marketing

Funciona com

Google Sheets

manual

Usado como fonte de dados ou contexto de Google Sheets para produzir um resultado mais completo e verificável.

Optimizely

manual

usar experiment results, variants, confiança, e traffic allocation.

Amplitude

manual

verificar produto behavior, ativação, retenção, e segment impacto.

google-analytics

manual

usar traffic, conversão, e aquisição contexto.

Em qualquer lugar

Autónomo

Sem configuração necessária

Paste the notes, exports, screenshots, or summaries you already have. The skill works without a connected system.

Ligado

CRM + ferramentas integrados

Connect the relevant support, analytics, CRM, or data tool when you want fresher source evidence.

Quer usar Análise de Teste A/B?

Escolha como começar.

Executar no Claude Code

Gratuito. Código aberto.

Instale e execute este skill localmente no seu computador.

Instalar o Claude Code

Abra um terminal no seu computador e cole este comando:

Instalar o skill

Isto descarrega o skill com todos os ficheiros para o seu computador:

Adicione -g no fim para o tornar disponível em todos os seus projetos.

Execute

Inicie o Claude Code, depois escreva o comando:

depois

Ver código no GitHub

Usar no ElasticFlow

Funcionalidades de equipa e colaboração

Execute skills a partir do seu navegador. Partilhe resultados, gira acessos, colabore com a sua equipa. Sem terminal.

Teste grátis de 14 dias. Cancele a qualquer momento.

Ver no GitHub

A/B Test Analysis

Evaluate A/B test results com statistical rigor e translate findings em claro produto decisões.

contexto

você are analyzing A/B test results para $ARGUMENTS.

If o utilizador provides dados files (CSV, Excel, ou analytics exports), ler e analyze them directly. gerar Python scripts para statistical calculations when needed.

Instructions

Understand o experiment:

What was o hypothesis?
What was changed (o variant)?
What is o primary métrica? qualquer guardrail métricas?
How long did o test run?
What is o traffic split?

validar o test setup:

Sample size: Is o sample large enough para o expected effect size?
usar o formula: n = (Z²α/2 × 2 × p × (1-p)) / MDE²
assinalar if o test is underpowered (<80% power)
Duration: Did o test run para at least 1-2 full business cycles?
Randomization: qualquer evidência de sample ratio mismatch (SRM)?
Novelty/primacy effects: Was there enough time para wash out initial behavior changes?

Calculate statistical significance:

conversão taxa para control e variant
Relative lift: (variant - control) / control × 100
p-value: Using a two-tailed z-test ou chi-squared test
confiança interval: 95% CI para o difference
Statistical significance: Is p < 0.05?
prático significance: Is o lift meaningful para o business?

If o utilizador provides raw dados, gerar e run a Python script para calculate these.

verificar guardrail métricas:

Did qualquer guardrail métricas (revenue, engagement, página load time) degrade?
A winning primary métrica com degraded guardrails may não be a true win

Interpret results:

resultado	recomendação
Significant positive lift, no guardrail issues	Ship it — roll out para 100%
Significant positive lift, guardrail concerns	Investigate — understand trade-offs antes shipping
não significant, positive tendência	Extend o test — precisar de more dados ou larger effect
não significant, flat	Stop o test — no meaningful difference detected
Significant negative lift	Don't ship — revert para control, analyze why

Provide o analysis summary:

A/B Test Results: [Test nomear]

Hypothesis: [What we expected] Duration: [X days] | Sample: [N control / M variant]

métrica	Control	Variant	Lift	p-value	Significant?
[Primary]	X%	Y%	+Z%	0.0X	Yes/No
[Guardrail]	...	...	...	...	...

recomendação: [Ship / Extend / Stop / Investigate] Reasoning: [Why] Próximos passos: [What para do]


Think step by step. Save as markdown. gerar Python scripts para calculations if raw dados is provided.

---

### Further Reading

- [A/B Testing 101 + Examples](¤KEEP0¤)
- [Testing produto Ideas: o Ultimate Validation Experiments Library](¤KEEP0¤)
- [Are você Tracking o Right métricas?](¤KEEP0¤)

Documentos de referência

name: ab-test-analysis description: "Analyze A/B test results com statistical significance, sample size validation, confiança intervals, e ship/extend/stop recomendações. usar when evaluating experiment results, checking if a test reached significance, interpreting split test dados, ou deciding whether para ship a variant."

A/B Test Analysis

Evaluate A/B test results com statistical rigor e translate findings em claro produto decisões.

contexto

você are analyzing A/B test results para $ARGUMENTS.

If o utilizador provides dados files (CSV, Excel, ou analytics exports), ler e analyze them directly. gerar Python scripts para statistical calculations when needed.

Instructions

Understand o experiment:

What was o hypothesis?
What was changed (o variant)?
What is o primary métrica? qualquer guardrail métricas?
How long did o test run?
What is o traffic split?

validar o test setup:

Sample size: Is o sample large enough para o expected effect size?
usar o formula: n = (Z²α/2 × 2 × p × (1-p)) / MDE²
assinalar if o test is underpowered (<80% power)
Duration: Did o test run para at least 1-2 full business cycles?
Randomization: qualquer evidência de sample ratio mismatch (SRM)?
Novelty/primacy effects: Was there enough time para wash out initial behavior changes?

Calculate statistical significance:

conversão taxa para control e variant
Relative lift: (variant - control) / control × 100
p-value: Using a two-tailed z-test ou chi-squared test
confiança interval: 95% CI para o difference
Statistical significance: Is p < 0.05?
prático significance: Is o lift meaningful para o business?

If o utilizador provides raw dados, gerar e run a Python script para calculate these.

verificar guardrail métricas:

Did qualquer guardrail métricas (revenue, engagement, página load time) degrade?
A winning primary métrica com degraded guardrails may não be a true win

Interpret results:

resultado	recomendação
Significant positive lift, no guardrail issues	Ship it — roll out para 100%
Significant positive lift, guardrail concerns	Investigate — understand trade-offs antes shipping
não significant, positive tendência	Extend o test — precisar de more dados ou larger effect
não significant, flat	Stop o test — no meaningful difference detected
Significant negative lift	Don't ship — revert para control, analyze why

Provide o analysis summary:

A/B Test Results: [Test nomear]

Hypothesis: [What we expected] Duration: [X days] | Sample: [N control / M variant]

métrica	Control	Variant	Lift	p-value	Significant?
[Primary]	X%	Y%	+Z%	0.0X	Yes/No
[Guardrail]	...	...	...	...	...

recomendação: [Ship / Extend / Stop / Investigate] Reasoning: [Why] Próximos passos: [What para do]


Think step by step. Save as markdown. gerar Python scripts para calculations if raw dados is provided.

---

### Further Reading

- [A/B Testing 101 + Examples](¤KEEP0¤)
- [Testing produto Ideas: o Ultimate Validation Experiments Library](¤KEEP0¤)
- [Are você Tracking o Right métricas?](¤KEEP0¤)

fonte marketplace página: ¤KEEP0¤

Install command: npx skills add phuryn/pm-skills@ab-test-analysis

O que faz

Growth experiment readout

transformar Optimizely, Amplitude, ou GA results na decisão memo.

Guardrail review

verificar whether a conversão lift came com revenue, suporte, speed, ou retenção risco.

Experiment design critique

encontrar tracking, segment, sample size, ou timing problems antes trusting o result.

Como funciona

Share o experiment goal, variants, dates, traffic, sample size, e métrica results.

Add guardrail métricas such as churn, revenue, refund taxa, suporte tickets, ou página speed if disponível.

o skill interprets lift, confiança, prático significance, e business risco.

It recomenda ship, stop, keep running, ou re-run com a cleaner design.

Exemplo

Experiment results

Hypothesis: changing CTA a partir de 'Start trial' para 'criar o seu workspace' increases trial starts.
Duration: 21 days
Traffic split: 50/50
Control: 18,420 visitors, 1,105 trial starts, revenue per visitor $3.12
Variant: 18,390 visitors, 1,236 trial starts, revenue per visitor $3.20
Guardrails: checkout error taxa, página load time, paid conversão depois 7 days.

A/B test result summary

A/B Test Results: pricing CTA

**Hypothesis:** Workspace-oriented CTA increases trial starts by making o próximo step clearer.
**Duration:** 21 days | **Sample:** 18,420 control / 18,390 variant
**Setup verificar:** full business cycles covered; traffic split is balanced; guardrails disponível.

Metric table

| métrica | Control | Variant | Lift | p-value | Significant? |
|---|---:|---:|---:|---:|---|
| Trial start taxa | 6.0% | 6.7% | +12.0% | 0.018 | Yes |
| Revenue per visitor | $3.12 | $3.20 | +2.6% | 0.41 | No |
| Checkout error taxa | 1.1% | 1.2% | +0.1 pp | 0.62 | No |
| página load p75 | 2.1s | 2.2s | +0.1s | - | No concern |

Recommendation

**Ship it para 100%.** Primary métrica has statistically significant positive lift e guardrails did não degrade. Treat revenue lift as directional only because it is não significant yet.

Próximos passos

1. Roll out o variant CTA.
2. monitorizar paid conversão para one more cohort window.
3. Add a follow-up test on o onboarding step depois trial start.
4. Document that this test improves trial starts, não proven revenue yet.

resultado

recomendação

Significant positive lift, no guardrail issues

Ship it — roll out para 100%

Significant positive lift, guardrail concerns

Investigate — understand trade-offs antes shipping

não significant, positive tendência

Extend o test — precisar de more dados ou larger effect

não significant, flat

Stop o test — no meaningful difference detected

Significant negative lift

Don't ship — revert para control, analyze why

métrica

Control

Variant

Lift

p-value

Significant?

[Primary]

+Z%

0.0X

Yes/No

[Guardrail]

...

Think step by step. Save as markdown. gerar Python scripts para calculations if raw dados is provided. --- ### Further Reading - [A/B Testing 101 + Examples](¤KEEP0¤) - [Testing produto Ideas: o Ultimate Validation Experiments Library](¤KEEP0¤) - [Are você Tracking o Right métricas?](¤KEEP0¤)

resultado

recomendação

Significant positive lift, no guardrail issues

Ship it — roll out para 100%

Significant positive lift, guardrail concerns

Investigate — understand trade-offs antes shipping

não significant, positive tendência

Extend o test — precisar de more dados ou larger effect

não significant, flat

Stop o test — no meaningful difference detected

Significant negative lift

Don't ship — revert para control, analyze why

métrica

Control

Variant

Lift

p-value

Significant?

[Primary]

+Z%

0.0X

Yes/No

[Guardrail]

...

Decide whether an experiment deve ship, stop, ou keep running. — Claude Skill

Para quem é

O que faz

Como funciona

Opções de entrada

Exemplo

Métricas que melhora

Funciona com

Em qualquer lugar

Quer usar Análise de Teste A/B?

Instruções do skill

A/B Test Analysis

contexto

Instructions

A/B Test Results: [Test nomear]

Documentos de referência

A/B Test Analysis

contexto

Instructions

A/B Test Results: [Test nomear]

Decide whether an experiment deve ship, stop, ou keep running. — Claude Skill

Para quem é

O que faz

Como funciona

Opções de entrada

Exemplo

Métricas que melhora

Funciona com

Em qualquer lugar

Quer usar Análise de Teste A/B?

Instruções do skill

A/B Test Analysis

contexto

Instructions

A/B Test Results: [Test nomear]

Documentos de referência

A/B Test Analysis

contexto

Instructions

A/B Test Results: [Test nomear]