지원 언어: English Français 한국어 Português Türkçe

AI 스킬테스트 설계마케팅

A/B 테스트 설계 — 실제로 작동하는 테스트를 실행하세요 — Claude Skill

Name: A/B 테스트 설계
Author: Corey Haines

Claude Code용 Claude 스킬 · 제공: Corey Haines · 실행: /ab-test-setup (Claude 내)·업데이트: 2026년 6월 14일·v1.1.0

호환ChatGPT

ClaudeClaude CodeClaude DesktopCodex / Codex CLI

Cursor

GeminiHermes (via Continue / Cline)

OpenClaw

Windsurf

실행 가능한 결과를 내는 통계적으로 타당한 A/B 테스트를 설계합니다.

명확한 성공 지표가 있는 구조화된 가설 작성
출시 전에 표본 크기와 테스트 기간 계산
모든 페이지 요소에 대한 control과 변형 문안 설계
1차, 2차, guardrail 지표 정의
통계적 유의성과 세그먼트 분해로 결과 분석

대상

그로스 마케터

실험을 운영하고, 퍼널을 최적화하며, 가입부터 매출까지 숫자를 책임집니다. 이 스킬들은 감사, 분석, 테스트 설정을 처리해 스프레드시트가 아니라 전략에 시간을 쓰게 합니다.

이 역할의 스킬 보기

제품 마케터

포지셔닝, 출시, 구매자 여정을 책임집니다. 전환되는 카피를 쓰고, 성장을 위한 가격을 정하며, 사람들이 실제로 원하는 제품을 출시하도록 돕습니다.

이 역할의 스킬 보기

수요 창출 매니저

유료 광고, 이메일 시퀀스, 리드 마그넷, 폼 최적화까지 파이프라인 생성을 책임집니다. 캠페인을 기획하고, 시퀀스를 작성하며, 모든 전환 지점을 최적화합니다.

이 역할의 스킬 보기

기능

가격 페이지 최적화

가격 페이지 실험을 위해 가설을 설계하고, 필요한 traffic을 계산하며, 행동 유도 변형를 정의하고 측정 설정을 만듭니다.

결론이 애매한 테스트 결과 검토

기존 테스트 데이터를 분석하고, 중간 엿보기 오류를 확인하며, 실험을 연장할지 중단할지 다시 설계할지 추천합니다.

실험 문화 만들기

구조화된 A/B 테스트가 익숙하지 않은 팀을 위해 테스트 문서화 템플릿과 우선순위 프레임워크를 만듭니다.

작동 방식

무엇을 테스트할지와 현재 baseline 전환율을 입력합니다.

스킬이 예상 결과와 대상 독자가 포함된 구조화된 가설을 작성합니다.

최소 표본 크기와 예상 테스트 기간을 계산합니다.

지표, traffic split, 출시 전 QA checklist를 정의합니다.

테스트 후 결과를 분석하고 학습 내용을 문서화합니다.

예시

사용자가 붙여넣는 내용

목표: 가격 페이지에서 무료 체험 시작을 늘리고 싶습니다.
현재 기준선: 가격 페이지 방문자의 4.8%가 무료 체험을 시작합니다.
트래픽: 가격 페이지 방문자 약 8,000명/주.
대상: 미국의 신규 방문자, 데스크톱과 모바일.
제안 변경: 행동 유도 "Start free trial"을 "Build my first dashboard"로 바꾸고 버튼 위에 혜택 bullet 3개를 추가합니다.
도구: 실험은 Optimizely, 전환 추적은 GA4.
필요한 것: 테스트 가설, 표본 크기, 기간, 지표, QA 체크리스트, 의사결정 기준.

유용한 결과

테스트를 해석하는 방식

이 실험은 단순한 버튼 색상 테스트가 아니라 메시지 테스트로 봐야 합니다. 변형안은 행동 유도의 약속과 그 위의 혜택 설명을 함께 바꿉니다. 어떤 요소가 성과를 만든 것인지 알아야 한다면 두 개의 테스트로 나누는 것이 좋습니다. 비즈니스 의사결정이 새 메시지 묶음이 이기는지만 확인하는 것이라면 하나의 A/B 테스트로 유지할 수 있습니다.

가설

가격 페이지 방문자가 무료 체험을 시작하면 무엇을 얻게 되는지 명확히 이해하지 못할 수 있기 때문에, 구체적인 결과를 약속하는 행동 유도와 3개의 혜택 설명이 미국 신규 방문자의 무료 체험 시작률을 높일 것이라고 봅니다. 현재 4.8% 기준선 대비 최소 20%의 상대적 개선이 있고, 가입 완료율이나 활성화 품질이 나빠지지 않으면 가설이 맞다고 판단합니다.

테스트 설계

| 항목 | 계획 |
|---|---|
| 테스트 유형 | A/B 테스트 |
| 대조군 | 현재 가격 페이지와 "Start free trial" 행동 유도 |
| 변형안 | "Build my first dashboard" 행동 유도와 혜택 bullet 3개 |
| 트래픽 배분 | 대조군 50%, 변형안 50% |
| 대상 | 미국 신규 가격 페이지 방문자, 데스크톱과 모바일 |
| 핵심 지표 | 가격 페이지 방문자 -> 무료 체험 시작률 |
| 보조 지표 | 행동 유도 클릭률, 가입 완료율, 첫 대시보드 생성률 |
| 가드레일 지표 | 이탈률, 페이지 로딩 시간, 무료 체험 사용자의 혼란 관련 지원 티켓 |

표본 크기와 기간

기준선은 약 5%에 가깝습니다. 20%의 상대적 개선을 감지하려면 변형별 약 18,000명, 총 36,000명의 노출 방문자가 필요합니다. 주간 가격 페이지 방문자가 8,000명이고 100%를 실험에 노출한다면 약 4.5주가 필요합니다. 요일별 행동 차이를 포함하기 위해 최소 4주 전체를 운영하고, 며칠 만에 한 변형이 앞서 보인다는 이유로 조기 종료하지 마십시오.

출시 전 QA

Optimizely가 사용자를 안정적으로 배정하는지, 두 변형이 같은 GA4 trial_start 이벤트를 보내는지, 모바일과 데스크톱 렌더링이 올바른지, 변형안이 페이지 속도를 악화시키지 않는지, 내부 트래픽이 제외되는지, 실험 ID가 전환 이벤트와 함께 저장되어 나중에 감사할 수 있는지 확인합니다.

의사결정 기준

계획한 표본 크기에 도달하고, 무료 체험 시작률에서 통계적으로 유의하면서 비즈니스적으로도 의미 있는 개선이 있으며, 가입 완료율이나 활성화 품질을 해치지 않을 때만 변형안을 배포합니다. 결과가 불명확하면 대조군을 유지하고, 혜택 bullet을 테스트하기 전에 행동 유도 문구만 먼저 테스트합니다.

개선되는 지표

활성화율

온보딩 변형 테스트는 더 많은 사용자를 aha moment로 이끄는 변경을 찾습니다

마케팅

전환율

엄격한 A/B 테스트는 테스트한 요소의 전환율을 직접 측정하고 개선합니다

마케팅

통계적 유의성

이 스킬은 타당한 테스트 결과를 위한 올바른 표본 크기와 신뢰도 기준을 가르칩니다

마케팅

지원 도구

Mixpanel

수동

퍼널 지표를 추적하고 사용자 속성별로 결과를 세그먼트화합니다

Hotjar

수동

테스트 가설 수립에 사용할 heatmap과 session recording 데이터를 수집합니다

Optimizely

수동

클라이언트 측 A/B 테스트를 실행하고 실험 변형를 관리합니다

Amplitude

수동

활성화와 유지 지표에 대한 실험 영향을 측정합니다

Google Analytics

수동

테스트 중 traffic, 전환 이벤트, 목표 완료를 모니터링합니다

A/B 테스트 설계을(를) 사용해 보시겠어요?

시작 방법을 선택하세요.

Claude Code에서 실행

무료. 오픈 소스.

이 스킬을 컴퓨터에 로컬로 설치하고 실행합니다.

Claude Code 설치

컴퓨터에서 터미널을 열고 이 명령을 붙여넣으세요:

스킬 설치

이 명령은 스킬과 모든 파일을 컴퓨터에 다운로드합니다:

모든 프로젝트에서 사용하려면 끝에 -g를 추가하세요.

실행하기

Claude Code를 시작한 다음 명령을 입력하세요:

그다음

GitHub에서 소스 보기

ElasticFlow에서 사용

팀 및 협업 기능

브라우저에서 스킬을 실행. 결과 공유, 액세스 관리, 팀과 협업. 터미널 불필요.

14일 무료 평가판. 언제든 취소 가능.

GitHub에서 보기

A/B 테스트 설계

당신은 실험과 A/B 테스트 전문가입니다. 목표는 통계적으로 타당하고 실행 가능한 결과를 내는 테스트를 설계하도록 돕는 것입니다.

초기 평가

먼저 product marketing context를 확인합니다. .agents/product-marketing-context.md가 있거나 예전 설정의 .claude/product-marketing-context.md가 있으면, 질문하기 전에 읽습니다. 그 맥락을 사용하고, 이미 다뤄지지 않았거나 이 작업에 특화된 정보만 질문합니다.

테스트를 설계하기 전에 다음을 이해합니다.

테스트 맥락 - 무엇을 개선하려고 하나요? 어떤 변경을 고려하고 있나요?
현재 상태 - baseline 전환율은? 현재 traffic 규모는?
제약 - 기술 복잡도는? 일정은? 사용할 수 있는 도구는?

핵심 원칙

1. 가설로 시작

단순히 "무슨 일이 일어나는지 보자"가 아닙니다.
결과에 대한 구체적 예측이 있어야 합니다.
추론이나 데이터에 기반해야 합니다.

2. 한 가지만 테스트

테스트당 변수 하나
그렇지 않으면 무엇이 효과를 냈는지 알 수 없습니다.

3. 통계적 엄격성

표본 크기를 미리 정합니다.
중간에 엿보고 일찍 중단하지 않습니다.
방법론에 커밋합니다.

4. 중요한 것을 측정

1차 지표는 사업 가치와 연결합니다.
2차 지표는 맥락을 설명합니다.
guardrail 지표로 피해를 막습니다.

가설 프레임워크

구조

[관찰/데이터] 때문에,
우리는 [변경]이
[대상 독자]에게
[예상 결과]를 만들 것이라고 믿습니다.
[지표]가 나타나면 이것이 맞다고 판단합니다.

예시

약함: "버튼 색을 바꾸면 클릭이 늘 수도 있습니다."

강함: "사용자가 CTA를 찾기 어렵다고 보고했고(heatmap과 feedback 기준), 버튼을 더 크게 만들고 대비 색을 사용하면 신규 방문자의 CTA 클릭이 15% 이상 증가할 것이라고 믿습니다. 페이지 조회에서 signup 시작까지의 클릭률을 측정합니다."

테스트 유형

유형	설명	필요한 traffic
A/B	두 버전, 단일 변경	보통
A/B/n	여러 variant	더 높음
MVT	여러 변경의 조합	매우 높음
Split URL	variant별 다른 URL	보통

표본 크기

빠른 참조

Baseline	10% Lift	20% Lift	50% Lift
1%	variant당 150k	variant당 39k	variant당 6k
3%	variant당 47k	variant당 12k	variant당 2k
5%	variant당 27k	variant당 7k	variant당 1.2k
10%	variant당 12k	variant당 3k	variant당 550

계산기:

자세한 표본 크기 표와 기간 계산: references/sample-size-guide.md를 봅니다.

지표 선택

1차 지표

가장 중요한 단일 지표
가설과 직접 연결됨
테스트 판정을 내릴 때 사용할 지표

2차 지표

1차 지표 해석을 지원
변경이 왜/어떻게 작동했는지 설명

Guardrail 지표

나빠지면 안 되는 항목
유의미하게 부정적이면 테스트 중단

예시: 가격 페이지 테스트

1차: 플랜 선택률
2차: 페이지 체류 시간, 플랜 분포
Guardrail: 지원 티켓, 환불률

Variant 설계

바꿀 수 있는 것

범주	예시
헤드라인/문안	메시지 각도, 가치 제안, 구체성, 어조
시각 디자인	layout, color, images, hierarchy
CTA	버튼 문안, 크기, 위치, 개수
콘텐츠	포함 정보, 순서, 양, social proof

모범 사례

의미 있는 단일 변경
차이를 만들 만큼 충분히 큼
가설에 충실함

Traffic 배분

접근	분할	사용할 때
표준	50/50	A/B 기본값
보수적	90/10, 80/20	나쁜 variant 위험 제한
점진적 확대	작게 시작해 늘림	기술 위험 완화

고려 사항:

일관성: 재방문 사용자는 같은 variant를 봅니다.
시간대/요일 전반에 균형 있게 노출합니다.

구현

Client-Side

JavaScript가 load 후 페이지를 수정합니다.
빠르게 구현할 수 있지만 깜빡임이 생길 수 있습니다.
도구: PostHog, Optimizely, VWO

Server-Side

render 전에 variant가 결정됩니다.
깜빡임이 없지만 개발 작업이 필요합니다.
도구: PostHog, LaunchDarkly, Split

테스트 실행

출시 전 checklist

테스트 중

해야 할 것:

기술 문제 모니터링
세그먼트 품질 확인
외부 요인 문서화

피할 것:

결과를 엿보고 일찍 중단
variant 변경
새 출처의 traffic 추가

중간 엿보기 문제

표본 크기에 도달하기 전에 결과를 보고 일찍 중단하면 false positive와 잘못된 의사결정으로 이어집니다. 표본 크기에 사전 커밋하고 과정을 신뢰합니다.

결과 분석

통계적 유의성

95% confidence = p-value < 0.05
결과가 무작위일 확률이 5% 미만이라는 뜻
보장은 아니며 기준선일 뿐입니다.

분석 checklist

표본 크기에 도달했나? 아니면 결과는 preliminary입니다.
통계적으로 유의한가? confidence interval을 확인합니다.
효과 크기가 의미 있는가? MDE와 예상 영향을 비교합니다.
2차 지표가 일관적인가? 1차 지표를 뒷받침하나요?
Guardrail 우려가 있는가? 나빠진 것이 있나요?
세그먼트 차이가 있는가? 모바일 vs desktop? 신규 vs 재방문?

결과 해석

결과	결론
유의미한 승자	variant 구현
유의미한 패자	control 유지, 이유 학습
유의미한 차이 없음	더 많은 traffic 또는 더 과감한 테스트 필요
섞인 신호	더 깊게 파고들거나 세그먼트 분석

문서화

모든 테스트에 다음을 문서화합니다.

가설
variant(스크린샷 포함)
결과(표본, 지표, 유의성)
결정과 학습

템플릿: references/test-templates.md를 봅니다.

흔한 실수

테스트 설계

너무 작은 변경 테스트(감지 불가)
너무 많은 것을 한 번에 테스트(분리 불가)
명확한 가설 없음

실행

일찍 중단
테스트 중간에 변경
구현 확인 누락

분석

confidence interval 무시
세그먼트 입맛대로 고르기
결론이 애매한 결과를 과해석

작업별 질문

현재 전환율은 얼마인가요?
이 페이지의 traffic은 어느 정도인가요?
어떤 변경을 고려하고 있으며 이유는 무엇인가요?
감지할 가치가 있는 최소 개선폭은 얼마인가요?
테스트에 사용할 수 있는 도구는 무엇인가요?
이 영역을 이전에 테스트한 적이 있나요?

참조 문서

표본 크기 가이드

표본 크기와 테스트 기간 계산을 위한 참조입니다.

표본 크기 기본(필수 입력, 의미)
표본 크기 빠른 참조 표
기간 계산기(공식, 예시, 최소 기간 규칙, 최대 기간 가이드라인)
온라인 계산기
여러 variant에 맞춘 조정
흔한 표본 크기 실수
표본 크기 요구가 너무 클 때
순차 테스트
빠른 의사결정 프레임워크

표본 크기 기본

필수 입력

Baseline 전환율: 현재 전환율
Minimum detectable effect (MDE): 감지할 가치가 있는 가장 작은 변화
통계적 유의성 수준: 보통 95%(α = 0.05)
통계적 power: 보통 80%(β = 0.20)

의미

Baseline 전환율: 페이지가 5%로 전환한다면 그것이 baseline입니다.

MDE (Minimum Detectable Effect): 감지하고 싶은 가장 작은 개선폭입니다. 다음을 기준으로 정합니다.

사업 영향(5% lift가 의미 있나?)
구현 비용(노력할 가치가 있나?)
현실적 기대(과거 테스트가 무엇을 보여 줬나?)

통계적 유의성(95%): 관찰된 차이가 우연 때문일 확률이 5% 미만이라는 뜻입니다.

통계적 power(80%): MDE 크기의 실제 효과가 있다면, 이를 감지할 확률이 80%라는 뜻입니다.

표본 크기 빠른 참조 표

전환율: 1%

감지할 Lift	Variant당 표본	총 표본
5% (1% → 1.05%)	1,500,000	3,000,000
10% (1% → 1.1%)	380,000	760,000
20% (1% → 1.2%)	97,000	194,000
50% (1% → 1.5%)	16,000	32,000
100% (1% → 2%)	4,200	8,400

전환율: 3%

감지할 Lift	Variant당 표본	총 표본
5% (3% → 3.15%)	480,000	960,000
10% (3% → 3.3%)	120,000	240,000
20% (3% → 3.6%)	31,000	62,000
50% (3% → 4.5%)	5,200	10,400
100% (3% → 6%)	1,400	2,800

전환율: 5%

감지할 Lift	Variant당 표본	총 표본
5% (5% → 5.25%)	280,000	560,000
10% (5% → 5.5%)	72,000	144,000
20% (5% → 6%)	18,000	36,000
50% (5% → 7.5%)	3,100	6,200
100% (5% → 10%)	810	1,620

전환율: 10%

감지할 Lift	Variant당 표본	총 표본
5% (10% → 10.5%)	130,000	260,000
10% (10% → 11%)	34,000	68,000
20% (10% → 12%)	8,700	17,400
50% (10% → 15%)	1,500	3,000
100% (10% → 20%)	400	800

전환율: 20%

감지할 Lift	Variant당 표본	총 표본
5% (20% → 21%)	60,000	120,000
10% (20% → 22%)	16,000	32,000
20% (20% → 24%)	4,000	8,000
50% (20% → 30%)	700	1,400
100% (20% → 40%)	200	400

기간 계산기

공식

Duration (days) = (Sample per variant × Number of variants) / (Daily traffic × % exposed)

예시

시나리오 1: traffic이 많은 페이지

필요: variant당 10,000(variant 2개 = 총 20,000)
Daily traffic: 방문자 5,000명
테스트 노출 100%
기간: 20,000 / 5,000 = 4일

시나리오 2: traffic이 중간인 페이지

필요: variant당 30,000(총 60,000)
Daily traffic: 방문자 2,000명
노출 100%
기간: 60,000 / 2,000 = 30일

시나리오 3: traffic이 낮고 부분 노출

필요: variant당 15,000(총 30,000)
Daily traffic: 방문자 500명
테스트 노출 50%
Effective daily: 250
기간: 30,000 / 250 = 120일(너무 김)

최소 기간 규칙

표본 크기가 충분해도 테스트는 최소 다음 기간 동안 실행합니다.

1주 전체: 요일별 변동 포착
비즈니스 사이클 2회: B2B라면 평일 vs 주말 패턴 반영
급여일 통과: e-commerce라면 월초/월말 영향 반영

최대 기간 가이드라인

4-8주보다 오래 테스트하는 것은 피합니다.

novelty effect가 사라짐
외부 요인이 개입함
다른 테스트의 opportunity cost 발생

온라인 계산기

여러 variant에 맞춘 조정

variant가 2개보다 많으면(A/B/n 테스트) 더 많은 표본이 필요합니다.

Variant	배수
2 (A/B)	1x
3 (A/B/C)	~1.5x
4 (A/B/C/D)	~2x
5+	variant 축소 고려

이유: 비교가 많아질수록 false positive 가능성이 커집니다. 비교 대상은 다음과 같습니다.

A vs B
A vs C
B vs C(때때로)

Bonferroni correction을 적용하거나 이를 자동 처리하는 도구를 사용합니다.

흔한 표본 크기 실수

1. power가 부족한 테스트

문제: 현실적인 효과를 감지하기에 표본이 부족함 수정: MDE를 현실적으로 정하고, 더 많은 traffic을 확보하거나 테스트하지 않음

2. power가 과한 테스트

문제: 이미 유의성이 있는데도 표본 크기를 기다림 수정: 사실 괜찮습니다. 표본 크기에 커밋했으니 지킵니다.

3. 잘못된 baseline rate

문제: 계산에 잘못된 전환율 사용 수정: 사이트 전체 평균이 아니라 해당 지표와 페이지의 전환율을 사용합니다.

4. 세그먼트 무시

문제: 전체 traffic으로 계산한 뒤 세그먼트를 분석함 수정: 세그먼트 분석을 계획한다면 가장 작은 세그먼트 기준으로 표본을 계산합니다.

5. 너무 많은 것을 테스트

문제: traffic을 너무 많은 방향으로 나눔 수정: 냉정하게 우선순위를 정하고 동시 테스트 수를 줄입니다.

표본 크기 요구가 너무 클 때

traffic이 충분하지 않을 때의 선택지:

MDE 높이기: 더 큰 효과(20%+ lift)만 감지하기로 수용
신뢰도 낮추기: 95% 대신 90% 사용(위험하므로 문서화)
variant 줄이기: 가장 유망한 variant만 테스트
traffic 합치기: 여러 유사 페이지에 걸쳐 테스트
퍼널 상단 테스트: traffic이 더 많은 퍼널 앞단에서 테스트
테스트하지 않기: 정성 데이터로 의사결정
더 긴 테스트: 더 긴 기간(몇 주/몇 달)을 수용

순차 테스트

표본 크기에 도달하기 전에 결과를 확인해야 한다면:

무엇인가?

데이터를 여러 번 보는 상황에 맞춰 조정하는 통계 방법입니다.

사용할 때

위험이 큰 변경
나쁜 variant를 일찍 중단해야 함
시간에 민감한 의사결정

지원 도구

Optimizely (Stats Accelerator)
VWO (SmartStats)
PostHog (Bayesian approach)

Tradeoff

일찍 중단할 유연성 증가
표본 크기 요구가 약간 커짐
분석이 더 복잡함

빠른 의사결정 프레임워크

이 테스트를 실행할 수 있나?

Daily traffic to page: _____
Baseline conversion rate: _____
MDE I care about: _____

Sample needed per variant: _____ (from tables above)
Days to run: Sample / Daily traffic = _____

If days > 60: Consider alternatives
If days > 30: Acceptable for high-impact tests
If days < 14: Likely feasible
If days < 7: Easy to run, consider running longer anyway

A/B 테스트 템플릿 참조

실험을 계획, 문서화, 분석하기 위한 템플릿입니다.

테스트 계획 템플릿

# A/B 테스트: [이름]

## 개요
- **Owner**: [이름]
- **Test ID**: [테스트 도구의 ID]
- **Page/Feature**: [테스트 대상]
- **Planned dates**: [시작] - [종료]

## 가설

[관찰/데이터] 때문에,
우리는 [변경]이
[대상 독자]에게
[예상 결과]를 만들 것이라고 믿습니다.
[지표]가 나타나면 이것이 맞다고 판단합니다.

## 테스트 설계

| 요소 | 세부 내용 |
|------|-----------|
| Test type | A/B / A/B/n / MVT |
| Duration | X weeks |
| Sample size | X per variant |
| Traffic allocation | 50/50 |
| Tool | [도구 이름] |
| Implementation | Client-side / Server-side |

## Variant

### Control (A)
[스크린샷]
- 현재 경험
- [현재 상태의 핵심 세부 내용]

### Variant (B)
[스크린샷 또는 mockup]
- [구체적 변경 #1]
- [구체적 변경 #2]
- Rationale: [왜 이것이 이길 것이라고 생각하는지]

## 지표

### 1차
- **Metric**: [지표 이름]
- **Definition**: [계산 방식]
- **Current baseline**: [X%]
- **Minimum detectable effect**: [X%]

### 2차
- [지표 1]: [알려 주는 것]
- [지표 2]: [알려 주는 것]
- [지표 3]: [알려 주는 것]

### Guardrails
- [나빠지면 안 되는 지표]
- [다른 안전 지표]

## 세그먼트 분석 계획
- Mobile vs. desktop
- New vs. returning visitors
- 유입 출처
- [기타 관련 세그먼트]

## 성공 기준
- Winner: [1차 지표가 95% confidence로 X% 개선]
- Loser: [1차 지표가 유의미하게 감소]
- Inconclusive: [유의미한 결과가 없을 때 할 일]

## 출시 전 checklist
- [ ] 가설 문서화 및 검토 완료
- [ ] 1차 지표 정의 및 추적 가능
- [ ] 표본 크기 계산
- [ ] 테스트 기간 추정
- [ ] variant가 올바르게 구현됨
- [ ] 모든 variant에서 tracking 검증
- [ ] 모든 variant QA 완료
- [ ] 이해관계자에게 알림
- [ ] 분석 날짜 calendar hold

결과 문서화 템플릿

# A/B 테스트 결과: [이름]

## 요약
| 요소 | 값 |
|------|----|
| Test ID | [ID] |
| Dates | [시작] - [종료] |
| Duration | X days |
| Result | Winner / Loser / Inconclusive |
| Decision | [무엇을 할지] |

## 가설(리마인더)
[테스트 계획에서 복사]

## 결과

### 표본 크기
| Variant | Target | Actual | target 대비 % |
|---------|--------|--------|---------------|
| Control | X | Y | Z% |
| Variant | X | Y | Z% |

### 1차 지표: [지표 이름]
| Variant | Value | 95% CI | vs. Control |
|---------|-------|--------|-------------|
| Control | X% | [X%, Y%] | — |
| Variant | X% | [X%, Y%] | +X% |

**통계적 유의성**: p = X.XX (95% = sig / not sig)
**실무적 유의성**: [이 lift가 사업에 의미 있는가?]

### 2차 지표

| Metric | Control | Variant | Change | Significant? |
|--------|---------|---------|--------|--------------|
| [지표 1] | X | Y | +Z% | Yes/No |
| [지표 2] | X | Y | +Z% | Yes/No |

### Guardrail 지표

| Metric | Control | Variant | Change | Concern? |
|--------|---------|---------|--------|----------|
| [지표 1] | X | Y | +Z% | Yes/No |

### 세그먼트 분석

**Mobile vs. Desktop**
| Segment | Control | Variant | Lift |
|---------|---------|---------|------|
| Mobile | X% | Y% | +Z% |
| Desktop | X% | Y% | +Z% |

**New vs. Returning**
| Segment | Control | Variant | Lift |
|---------|---------|---------|------|
| New | X% | Y% | +Z% |
| Returning | X% | Y% | +Z% |

## 해석

### 무슨 일이 일어났나?
[결과를 쉬운 말로 설명]

### 왜 이런 일이 일어났다고 보는가?
[분석과 추론]

### 주의 사항
[제약, 외부 요인, 우려]

## 결정

**Winner**: [Control / Variant]

**Action**: [variant 구현 / control 유지 / 재테스트]

**Timeline**: [변경 구현 시점]

## 학습

### 배운 점
- [핵심 인사이트 1]
- [핵심 인사이트 2]

### 다음에 테스트할 것
- [후속 테스트 아이디어 1]
- [후속 테스트 아이디어 2]

### 영향
- **Projected lift**: [Y 지표에서 X% 개선]
- **Business impact**: [매출, 전환 등]

테스트 저장소 항목 템플릿

모든 테스트를 중앙 위치에서 추적할 때:

| Test ID | Name | Page | Dates | Primary Metric | Result | Lift | Link |
|---------|------|------|-------|----------------|--------|------|------|
| 001 | Hero headline test | Homepage | 1/1-1/15 | CTR | Winner | +12% | [Link] |
| 002 | Pricing table layout | Pricing | 1/10-1/31 | Plan selection | Loser | -5% | [Link] |
| 003 | Signup form fields | Signup | 2/1-2/14 | Completion | Inconclusive | +2% | [Link] |

빠른 테스트 brief 템플릿

전체 문서화가 필요 없는 단순 테스트용:

## [테스트 이름]

**What**: [한 문장 설명]
**Why**: [한 문장 가설]
**Metric**: [1차 지표]
**Duration**: [X weeks]
**Result**: [TBD / Winner / Loser / Inconclusive]
**Learnings**: [핵심 takeaway]

이해관계자 업데이트 템플릿

## A/B 테스트 업데이트: [이름]

**Status**: Running / Complete
**Days remaining**: X (또는 complete)
**Current sample**: target의 X%

### 예비 관찰
[보고 있는 내용 - 아직 결정하지 않음]

### 다음 단계
[다음에 일어날 일]

### Timeline
- [날짜]: 분석 완료
- [날짜]: 결정과 추천
- [날짜]: 구현(winner인 경우)

실험 우선순위 scorecard

어떤 테스트를 실행할지 결정할 때:

요인	가중치	Test A	Test B	Test C
잠재 영향	30%
가설 신뢰도	25%
구현 용이성	20%
틀렸을 때 위험	15%
전략 정렬	10%
Total

Scoring: 1-5 (5 = best)

가설 bank 템플릿

테스트 아이디어를 모을 때:

| ID | Page/Area | Observation | Hypothesis | Potential Impact | Status |
|----|-----------|-------------|------------|------------------|--------|
| H1 | Homepage | Low scroll depth | Shorter hero will increase scroll | High | Testing |
| H2 | Pricing | Users compare plans | Comparison table will help | Medium | Backlog |
| H3 | Signup | Drop-off at email | Social login will increase completion | Medium | Backlog |

품질 테스트 완료 - 테스트 7개, 검증된 어설션 44개

지원 언어: English Français 한국어 Português Türkçe

AI 스킬테스트 설계마케팅

A/B 테스트 설계 — 실제로 작동하는 테스트를 실행하세요 — Claude Skill

Claude Code용 Claude 스킬 · 제공: Corey Haines · 실행: /ab-test-setup (Claude 내)·업데이트: 2026년 6월 14일·v1.1.0

호환ChatGPT

ClaudeClaude CodeClaude DesktopCodex / Codex CLI

Cursor

GeminiHermes (via Continue / Cline)

OpenClaw

Windsurf

실행 가능한 결과를 내는 통계적으로 타당한 A/B 테스트를 설계합니다.

명확한 성공 지표가 있는 구조화된 가설 작성
출시 전에 표본 크기와 테스트 기간 계산
모든 페이지 요소에 대한 control과 변형 문안 설계
1차, 2차, guardrail 지표 정의
통계적 유의성과 세그먼트 분해로 결과 분석

대상

기능

가격 페이지 최적화

가격 페이지 실험을 위해 가설을 설계하고, 필요한 traffic을 계산하며, 행동 유도 변형를 정의하고 측정 설정을 만듭니다.

결론이 애매한 테스트 결과 검토

기존 테스트 데이터를 분석하고, 중간 엿보기 오류를 확인하며, 실험을 연장할지 중단할지 다시 설계할지 추천합니다.

실험 문화 만들기

구조화된 A/B 테스트가 익숙하지 않은 팀을 위해 테스트 문서화 템플릿과 우선순위 프레임워크를 만듭니다.

작동 방식

무엇을 테스트할지와 현재 baseline 전환율을 입력합니다.

스킬이 예상 결과와 대상 독자가 포함된 구조화된 가설을 작성합니다.

최소 표본 크기와 예상 테스트 기간을 계산합니다.

지표, traffic split, 출시 전 QA checklist를 정의합니다.

테스트 후 결과를 분석하고 학습 내용을 문서화합니다.

예시

사용자가 붙여넣는 내용

목표: 가격 페이지에서 무료 체험 시작을 늘리고 싶습니다.
현재 기준선: 가격 페이지 방문자의 4.8%가 무료 체험을 시작합니다.
트래픽: 가격 페이지 방문자 약 8,000명/주.
대상: 미국의 신규 방문자, 데스크톱과 모바일.
제안 변경: 행동 유도 "Start free trial"을 "Build my first dashboard"로 바꾸고 버튼 위에 혜택 bullet 3개를 추가합니다.
도구: 실험은 Optimizely, 전환 추적은 GA4.
필요한 것: 테스트 가설, 표본 크기, 기간, 지표, QA 체크리스트, 의사결정 기준.

유용한 결과

테스트를 해석하는 방식

이 실험은 단순한 버튼 색상 테스트가 아니라 메시지 테스트로 봐야 합니다. 변형안은 행동 유도의 약속과 그 위의 혜택 설명을 함께 바꿉니다. 어떤 요소가 성과를 만든 것인지 알아야 한다면 두 개의 테스트로 나누는 것이 좋습니다. 비즈니스 의사결정이 새 메시지 묶음이 이기는지만 확인하는 것이라면 하나의 A/B 테스트로 유지할 수 있습니다.

가설

가격 페이지 방문자가 무료 체험을 시작하면 무엇을 얻게 되는지 명확히 이해하지 못할 수 있기 때문에, 구체적인 결과를 약속하는 행동 유도와 3개의 혜택 설명이 미국 신규 방문자의 무료 체험 시작률을 높일 것이라고 봅니다. 현재 4.8% 기준선 대비 최소 20%의 상대적 개선이 있고, 가입 완료율이나 활성화 품질이 나빠지지 않으면 가설이 맞다고 판단합니다.

테스트 설계

| 항목 | 계획 |
|---|---|
| 테스트 유형 | A/B 테스트 |
| 대조군 | 현재 가격 페이지와 "Start free trial" 행동 유도 |
| 변형안 | "Build my first dashboard" 행동 유도와 혜택 bullet 3개 |
| 트래픽 배분 | 대조군 50%, 변형안 50% |
| 대상 | 미국 신규 가격 페이지 방문자, 데스크톱과 모바일 |
| 핵심 지표 | 가격 페이지 방문자 -> 무료 체험 시작률 |
| 보조 지표 | 행동 유도 클릭률, 가입 완료율, 첫 대시보드 생성률 |
| 가드레일 지표 | 이탈률, 페이지 로딩 시간, 무료 체험 사용자의 혼란 관련 지원 티켓 |

표본 크기와 기간

기준선은 약 5%에 가깝습니다. 20%의 상대적 개선을 감지하려면 변형별 약 18,000명, 총 36,000명의 노출 방문자가 필요합니다. 주간 가격 페이지 방문자가 8,000명이고 100%를 실험에 노출한다면 약 4.5주가 필요합니다. 요일별 행동 차이를 포함하기 위해 최소 4주 전체를 운영하고, 며칠 만에 한 변형이 앞서 보인다는 이유로 조기 종료하지 마십시오.

출시 전 QA

Optimizely가 사용자를 안정적으로 배정하는지, 두 변형이 같은 GA4 trial_start 이벤트를 보내는지, 모바일과 데스크톱 렌더링이 올바른지, 변형안이 페이지 속도를 악화시키지 않는지, 내부 트래픽이 제외되는지, 실험 ID가 전환 이벤트와 함께 저장되어 나중에 감사할 수 있는지 확인합니다.

의사결정 기준

계획한 표본 크기에 도달하고, 무료 체험 시작률에서 통계적으로 유의하면서 비즈니스적으로도 의미 있는 개선이 있으며, 가입 완료율이나 활성화 품질을 해치지 않을 때만 변형안을 배포합니다. 결과가 불명확하면 대조군을 유지하고, 혜택 bullet을 테스트하기 전에 행동 유도 문구만 먼저 테스트합니다.

개선되는 지표

활성화율

온보딩 변형 테스트는 더 많은 사용자를 aha moment로 이끄는 변경을 찾습니다

마케팅

전환율

엄격한 A/B 테스트는 테스트한 요소의 전환율을 직접 측정하고 개선합니다

마케팅

통계적 유의성

이 스킬은 타당한 테스트 결과를 위한 올바른 표본 크기와 신뢰도 기준을 가르칩니다

마케팅

지원 도구

Mixpanel

수동

퍼널 지표를 추적하고 사용자 속성별로 결과를 세그먼트화합니다

Hotjar

수동

테스트 가설 수립에 사용할 heatmap과 session recording 데이터를 수집합니다

Optimizely

수동

클라이언트 측 A/B 테스트를 실행하고 실험 변형를 관리합니다

Amplitude

수동

활성화와 유지 지표에 대한 실험 영향을 측정합니다

Google Analytics

수동

테스트 중 traffic, 전환 이벤트, 목표 완료를 모니터링합니다

A/B 테스트 설계을(를) 사용해 보시겠어요?

시작 방법을 선택하세요.

Claude Code에서 실행

무료. 오픈 소스.

이 스킬을 컴퓨터에 로컬로 설치하고 실행합니다.

Claude Code 설치

컴퓨터에서 터미널을 열고 이 명령을 붙여넣으세요:

스킬 설치

이 명령은 스킬과 모든 파일을 컴퓨터에 다운로드합니다:

모든 프로젝트에서 사용하려면 끝에 -g를 추가하세요.

실행하기

Claude Code를 시작한 다음 명령을 입력하세요:

그다음

GitHub에서 소스 보기

ElasticFlow에서 사용

팀 및 협업 기능

브라우저에서 스킬을 실행. 결과 공유, 액세스 관리, 팀과 협업. 터미널 불필요.

14일 무료 평가판. 언제든 취소 가능.

GitHub에서 보기

A/B 테스트 설계

당신은 실험과 A/B 테스트 전문가입니다. 목표는 통계적으로 타당하고 실행 가능한 결과를 내는 테스트를 설계하도록 돕는 것입니다.

초기 평가

테스트를 설계하기 전에 다음을 이해합니다.

테스트 맥락 - 무엇을 개선하려고 하나요? 어떤 변경을 고려하고 있나요?
현재 상태 - baseline 전환율은? 현재 traffic 규모는?
제약 - 기술 복잡도는? 일정은? 사용할 수 있는 도구는?

핵심 원칙

1. 가설로 시작

단순히 "무슨 일이 일어나는지 보자"가 아닙니다.
결과에 대한 구체적 예측이 있어야 합니다.
추론이나 데이터에 기반해야 합니다.

2. 한 가지만 테스트

테스트당 변수 하나
그렇지 않으면 무엇이 효과를 냈는지 알 수 없습니다.

3. 통계적 엄격성

표본 크기를 미리 정합니다.
중간에 엿보고 일찍 중단하지 않습니다.
방법론에 커밋합니다.

4. 중요한 것을 측정

1차 지표는 사업 가치와 연결합니다.
2차 지표는 맥락을 설명합니다.
guardrail 지표로 피해를 막습니다.

가설 프레임워크

구조

[관찰/데이터] 때문에,
우리는 [변경]이
[대상 독자]에게
[예상 결과]를 만들 것이라고 믿습니다.
[지표]가 나타나면 이것이 맞다고 판단합니다.

예시

약함: "버튼 색을 바꾸면 클릭이 늘 수도 있습니다."

테스트 유형

유형	설명	필요한 traffic
A/B	두 버전, 단일 변경	보통
A/B/n	여러 variant	더 높음
MVT	여러 변경의 조합	매우 높음
Split URL	variant별 다른 URL	보통

표본 크기

빠른 참조

Baseline	10% Lift	20% Lift	50% Lift
1%	variant당 150k	variant당 39k	variant당 6k
3%	variant당 47k	variant당 12k	variant당 2k
5%	variant당 27k	variant당 7k	variant당 1.2k
10%	variant당 12k	variant당 3k	variant당 550

계산기:

자세한 표본 크기 표와 기간 계산: references/sample-size-guide.md를 봅니다.

지표 선택

1차 지표

가장 중요한 단일 지표
가설과 직접 연결됨
테스트 판정을 내릴 때 사용할 지표

2차 지표

1차 지표 해석을 지원
변경이 왜/어떻게 작동했는지 설명

Guardrail 지표

나빠지면 안 되는 항목
유의미하게 부정적이면 테스트 중단

예시: 가격 페이지 테스트

1차: 플랜 선택률
2차: 페이지 체류 시간, 플랜 분포
Guardrail: 지원 티켓, 환불률

Variant 설계

바꿀 수 있는 것

범주	예시
헤드라인/문안	메시지 각도, 가치 제안, 구체성, 어조
시각 디자인	layout, color, images, hierarchy
CTA	버튼 문안, 크기, 위치, 개수
콘텐츠	포함 정보, 순서, 양, social proof

모범 사례

의미 있는 단일 변경
차이를 만들 만큼 충분히 큼
가설에 충실함

Traffic 배분

접근	분할	사용할 때
표준	50/50	A/B 기본값
보수적	90/10, 80/20	나쁜 variant 위험 제한
점진적 확대	작게 시작해 늘림	기술 위험 완화

고려 사항:

일관성: 재방문 사용자는 같은 variant를 봅니다.
시간대/요일 전반에 균형 있게 노출합니다.

구현

Client-Side

JavaScript가 load 후 페이지를 수정합니다.
빠르게 구현할 수 있지만 깜빡임이 생길 수 있습니다.
도구: PostHog, Optimizely, VWO

Server-Side

render 전에 variant가 결정됩니다.
깜빡임이 없지만 개발 작업이 필요합니다.
도구: PostHog, LaunchDarkly, Split

테스트 실행

출시 전 checklist

테스트 중

해야 할 것:

기술 문제 모니터링
세그먼트 품질 확인
외부 요인 문서화

피할 것:

결과를 엿보고 일찍 중단
variant 변경
새 출처의 traffic 추가

중간 엿보기 문제

결과 분석

통계적 유의성

95% confidence = p-value < 0.05
결과가 무작위일 확률이 5% 미만이라는 뜻
보장은 아니며 기준선일 뿐입니다.

분석 checklist

표본 크기에 도달했나? 아니면 결과는 preliminary입니다.
통계적으로 유의한가? confidence interval을 확인합니다.
효과 크기가 의미 있는가? MDE와 예상 영향을 비교합니다.
2차 지표가 일관적인가? 1차 지표를 뒷받침하나요?
Guardrail 우려가 있는가? 나빠진 것이 있나요?
세그먼트 차이가 있는가? 모바일 vs desktop? 신규 vs 재방문?

결과 해석

결과	결론
유의미한 승자	variant 구현
유의미한 패자	control 유지, 이유 학습
유의미한 차이 없음	더 많은 traffic 또는 더 과감한 테스트 필요
섞인 신호	더 깊게 파고들거나 세그먼트 분석

문서화

모든 테스트에 다음을 문서화합니다.

가설
variant(스크린샷 포함)
결과(표본, 지표, 유의성)
결정과 학습

템플릿: references/test-templates.md를 봅니다.

흔한 실수

테스트 설계

너무 작은 변경 테스트(감지 불가)
너무 많은 것을 한 번에 테스트(분리 불가)
명확한 가설 없음

실행

일찍 중단
테스트 중간에 변경
구현 확인 누락

분석

confidence interval 무시
세그먼트 입맛대로 고르기
결론이 애매한 결과를 과해석

작업별 질문

현재 전환율은 얼마인가요?
이 페이지의 traffic은 어느 정도인가요?
어떤 변경을 고려하고 있으며 이유는 무엇인가요?
감지할 가치가 있는 최소 개선폭은 얼마인가요?
테스트에 사용할 수 있는 도구는 무엇인가요?
이 영역을 이전에 테스트한 적이 있나요?

참조 문서

표본 크기 가이드

표본 크기와 테스트 기간 계산을 위한 참조입니다.

표본 크기 기본(필수 입력, 의미)
표본 크기 빠른 참조 표
기간 계산기(공식, 예시, 최소 기간 규칙, 최대 기간 가이드라인)
온라인 계산기
여러 variant에 맞춘 조정
흔한 표본 크기 실수
표본 크기 요구가 너무 클 때
순차 테스트
빠른 의사결정 프레임워크

표본 크기 기본

필수 입력

Baseline 전환율: 현재 전환율
Minimum detectable effect (MDE): 감지할 가치가 있는 가장 작은 변화
통계적 유의성 수준: 보통 95%(α = 0.05)
통계적 power: 보통 80%(β = 0.20)

의미

Baseline 전환율: 페이지가 5%로 전환한다면 그것이 baseline입니다.

MDE (Minimum Detectable Effect): 감지하고 싶은 가장 작은 개선폭입니다. 다음을 기준으로 정합니다.

사업 영향(5% lift가 의미 있나?)
구현 비용(노력할 가치가 있나?)
현실적 기대(과거 테스트가 무엇을 보여 줬나?)

통계적 유의성(95%): 관찰된 차이가 우연 때문일 확률이 5% 미만이라는 뜻입니다.

통계적 power(80%): MDE 크기의 실제 효과가 있다면, 이를 감지할 확률이 80%라는 뜻입니다.

표본 크기 빠른 참조 표

전환율: 1%

감지할 Lift	Variant당 표본	총 표본
5% (1% → 1.05%)	1,500,000	3,000,000
10% (1% → 1.1%)	380,000	760,000
20% (1% → 1.2%)	97,000	194,000
50% (1% → 1.5%)	16,000	32,000
100% (1% → 2%)	4,200	8,400

전환율: 3%

감지할 Lift	Variant당 표본	총 표본
5% (3% → 3.15%)	480,000	960,000
10% (3% → 3.3%)	120,000	240,000
20% (3% → 3.6%)	31,000	62,000
50% (3% → 4.5%)	5,200	10,400
100% (3% → 6%)	1,400	2,800

전환율: 5%

감지할 Lift	Variant당 표본	총 표본
5% (5% → 5.25%)	280,000	560,000
10% (5% → 5.5%)	72,000	144,000
20% (5% → 6%)	18,000	36,000
50% (5% → 7.5%)	3,100	6,200
100% (5% → 10%)	810	1,620

전환율: 10%

감지할 Lift	Variant당 표본	총 표본
5% (10% → 10.5%)	130,000	260,000
10% (10% → 11%)	34,000	68,000
20% (10% → 12%)	8,700	17,400
50% (10% → 15%)	1,500	3,000
100% (10% → 20%)	400	800

전환율: 20%

감지할 Lift	Variant당 표본	총 표본
5% (20% → 21%)	60,000	120,000
10% (20% → 22%)	16,000	32,000
20% (20% → 24%)	4,000	8,000
50% (20% → 30%)	700	1,400
100% (20% → 40%)	200	400

기간 계산기

공식

Duration (days) = (Sample per variant × Number of variants) / (Daily traffic × % exposed)

예시

시나리오 1: traffic이 많은 페이지

필요: variant당 10,000(variant 2개 = 총 20,000)
Daily traffic: 방문자 5,000명
테스트 노출 100%
기간: 20,000 / 5,000 = 4일

시나리오 2: traffic이 중간인 페이지

필요: variant당 30,000(총 60,000)
Daily traffic: 방문자 2,000명
노출 100%
기간: 60,000 / 2,000 = 30일

시나리오 3: traffic이 낮고 부분 노출

필요: variant당 15,000(총 30,000)
Daily traffic: 방문자 500명
테스트 노출 50%
Effective daily: 250
기간: 30,000 / 250 = 120일(너무 김)

최소 기간 규칙

표본 크기가 충분해도 테스트는 최소 다음 기간 동안 실행합니다.

1주 전체: 요일별 변동 포착
비즈니스 사이클 2회: B2B라면 평일 vs 주말 패턴 반영
급여일 통과: e-commerce라면 월초/월말 영향 반영

최대 기간 가이드라인

4-8주보다 오래 테스트하는 것은 피합니다.

novelty effect가 사라짐
외부 요인이 개입함
다른 테스트의 opportunity cost 발생

온라인 계산기

여러 variant에 맞춘 조정

variant가 2개보다 많으면(A/B/n 테스트) 더 많은 표본이 필요합니다.

Variant	배수
2 (A/B)	1x
3 (A/B/C)	~1.5x
4 (A/B/C/D)	~2x
5+	variant 축소 고려

이유: 비교가 많아질수록 false positive 가능성이 커집니다. 비교 대상은 다음과 같습니다.

A vs B
A vs C
B vs C(때때로)

Bonferroni correction을 적용하거나 이를 자동 처리하는 도구를 사용합니다.

흔한 표본 크기 실수

1. power가 부족한 테스트

문제: 현실적인 효과를 감지하기에 표본이 부족함 수정: MDE를 현실적으로 정하고, 더 많은 traffic을 확보하거나 테스트하지 않음

2. power가 과한 테스트

문제: 이미 유의성이 있는데도 표본 크기를 기다림 수정: 사실 괜찮습니다. 표본 크기에 커밋했으니 지킵니다.

3. 잘못된 baseline rate

문제: 계산에 잘못된 전환율 사용 수정: 사이트 전체 평균이 아니라 해당 지표와 페이지의 전환율을 사용합니다.

4. 세그먼트 무시

문제: 전체 traffic으로 계산한 뒤 세그먼트를 분석함 수정: 세그먼트 분석을 계획한다면 가장 작은 세그먼트 기준으로 표본을 계산합니다.

5. 너무 많은 것을 테스트

문제: traffic을 너무 많은 방향으로 나눔 수정: 냉정하게 우선순위를 정하고 동시 테스트 수를 줄입니다.

표본 크기 요구가 너무 클 때

traffic이 충분하지 않을 때의 선택지:

MDE 높이기: 더 큰 효과(20%+ lift)만 감지하기로 수용
신뢰도 낮추기: 95% 대신 90% 사용(위험하므로 문서화)
variant 줄이기: 가장 유망한 variant만 테스트
traffic 합치기: 여러 유사 페이지에 걸쳐 테스트
퍼널 상단 테스트: traffic이 더 많은 퍼널 앞단에서 테스트
테스트하지 않기: 정성 데이터로 의사결정
더 긴 테스트: 더 긴 기간(몇 주/몇 달)을 수용

순차 테스트

표본 크기에 도달하기 전에 결과를 확인해야 한다면:

무엇인가?

데이터를 여러 번 보는 상황에 맞춰 조정하는 통계 방법입니다.

사용할 때

위험이 큰 변경
나쁜 variant를 일찍 중단해야 함
시간에 민감한 의사결정

지원 도구

Optimizely (Stats Accelerator)
VWO (SmartStats)
PostHog (Bayesian approach)

Tradeoff

일찍 중단할 유연성 증가
표본 크기 요구가 약간 커짐
분석이 더 복잡함

빠른 의사결정 프레임워크

이 테스트를 실행할 수 있나?

Daily traffic to page: _____
Baseline conversion rate: _____
MDE I care about: _____

Sample needed per variant: _____ (from tables above)
Days to run: Sample / Daily traffic = _____

If days > 60: Consider alternatives
If days > 30: Acceptable for high-impact tests
If days < 14: Likely feasible
If days < 7: Easy to run, consider running longer anyway

A/B 테스트 템플릿 참조

실험을 계획, 문서화, 분석하기 위한 템플릿입니다.

테스트 계획 템플릿

# A/B 테스트: [이름]

## 개요
- **Owner**: [이름]
- **Test ID**: [테스트 도구의 ID]
- **Page/Feature**: [테스트 대상]
- **Planned dates**: [시작] - [종료]

## 가설

[관찰/데이터] 때문에,
우리는 [변경]이
[대상 독자]에게
[예상 결과]를 만들 것이라고 믿습니다.
[지표]가 나타나면 이것이 맞다고 판단합니다.

## 테스트 설계

| 요소 | 세부 내용 |
|------|-----------|
| Test type | A/B / A/B/n / MVT |
| Duration | X weeks |
| Sample size | X per variant |
| Traffic allocation | 50/50 |
| Tool | [도구 이름] |
| Implementation | Client-side / Server-side |

## Variant

### Control (A)
[스크린샷]
- 현재 경험
- [현재 상태의 핵심 세부 내용]

### Variant (B)
[스크린샷 또는 mockup]
- [구체적 변경 #1]
- [구체적 변경 #2]
- Rationale: [왜 이것이 이길 것이라고 생각하는지]

## 지표

### 1차
- **Metric**: [지표 이름]
- **Definition**: [계산 방식]
- **Current baseline**: [X%]
- **Minimum detectable effect**: [X%]

### 2차
- [지표 1]: [알려 주는 것]
- [지표 2]: [알려 주는 것]
- [지표 3]: [알려 주는 것]

### Guardrails
- [나빠지면 안 되는 지표]
- [다른 안전 지표]

## 세그먼트 분석 계획
- Mobile vs. desktop
- New vs. returning visitors
- 유입 출처
- [기타 관련 세그먼트]

## 성공 기준
- Winner: [1차 지표가 95% confidence로 X% 개선]
- Loser: [1차 지표가 유의미하게 감소]
- Inconclusive: [유의미한 결과가 없을 때 할 일]

## 출시 전 checklist
- [ ] 가설 문서화 및 검토 완료
- [ ] 1차 지표 정의 및 추적 가능
- [ ] 표본 크기 계산
- [ ] 테스트 기간 추정
- [ ] variant가 올바르게 구현됨
- [ ] 모든 variant에서 tracking 검증
- [ ] 모든 variant QA 완료
- [ ] 이해관계자에게 알림
- [ ] 분석 날짜 calendar hold

결과 문서화 템플릿

# A/B 테스트 결과: [이름]

## 요약
| 요소 | 값 |
|------|----|
| Test ID | [ID] |
| Dates | [시작] - [종료] |
| Duration | X days |
| Result | Winner / Loser / Inconclusive |
| Decision | [무엇을 할지] |

## 가설(리마인더)
[테스트 계획에서 복사]

## 결과

### 표본 크기
| Variant | Target | Actual | target 대비 % |
|---------|--------|--------|---------------|
| Control | X | Y | Z% |
| Variant | X | Y | Z% |

### 1차 지표: [지표 이름]
| Variant | Value | 95% CI | vs. Control |
|---------|-------|--------|-------------|
| Control | X% | [X%, Y%] | — |
| Variant | X% | [X%, Y%] | +X% |

**통계적 유의성**: p = X.XX (95% = sig / not sig)
**실무적 유의성**: [이 lift가 사업에 의미 있는가?]

### 2차 지표

| Metric | Control | Variant | Change | Significant? |
|--------|---------|---------|--------|--------------|
| [지표 1] | X | Y | +Z% | Yes/No |
| [지표 2] | X | Y | +Z% | Yes/No |

### Guardrail 지표

| Metric | Control | Variant | Change | Concern? |
|--------|---------|---------|--------|----------|
| [지표 1] | X | Y | +Z% | Yes/No |

### 세그먼트 분석

**Mobile vs. Desktop**
| Segment | Control | Variant | Lift |
|---------|---------|---------|------|
| Mobile | X% | Y% | +Z% |
| Desktop | X% | Y% | +Z% |

**New vs. Returning**
| Segment | Control | Variant | Lift |
|---------|---------|---------|------|
| New | X% | Y% | +Z% |
| Returning | X% | Y% | +Z% |

## 해석

### 무슨 일이 일어났나?
[결과를 쉬운 말로 설명]

### 왜 이런 일이 일어났다고 보는가?
[분석과 추론]

### 주의 사항
[제약, 외부 요인, 우려]

## 결정

**Winner**: [Control / Variant]

**Action**: [variant 구현 / control 유지 / 재테스트]

**Timeline**: [변경 구현 시점]

## 학습

### 배운 점
- [핵심 인사이트 1]
- [핵심 인사이트 2]

### 다음에 테스트할 것
- [후속 테스트 아이디어 1]
- [후속 테스트 아이디어 2]

### 영향
- **Projected lift**: [Y 지표에서 X% 개선]
- **Business impact**: [매출, 전환 등]

테스트 저장소 항목 템플릿

모든 테스트를 중앙 위치에서 추적할 때:

| Test ID | Name | Page | Dates | Primary Metric | Result | Lift | Link |
|---------|------|------|-------|----------------|--------|------|------|
| 001 | Hero headline test | Homepage | 1/1-1/15 | CTR | Winner | +12% | [Link] |
| 002 | Pricing table layout | Pricing | 1/10-1/31 | Plan selection | Loser | -5% | [Link] |
| 003 | Signup form fields | Signup | 2/1-2/14 | Completion | Inconclusive | +2% | [Link] |

빠른 테스트 brief 템플릿

전체 문서화가 필요 없는 단순 테스트용:

## [테스트 이름]

**What**: [한 문장 설명]
**Why**: [한 문장 가설]
**Metric**: [1차 지표]
**Duration**: [X weeks]
**Result**: [TBD / Winner / Loser / Inconclusive]
**Learnings**: [핵심 takeaway]

이해관계자 업데이트 템플릿

## A/B 테스트 업데이트: [이름]

**Status**: Running / Complete
**Days remaining**: X (또는 complete)
**Current sample**: target의 X%

### 예비 관찰
[보고 있는 내용 - 아직 결정하지 않음]

### 다음 단계
[다음에 일어날 일]

### Timeline
- [날짜]: 분석 완료
- [날짜]: 결정과 추천
- [날짜]: 구현(winner인 경우)

실험 우선순위 scorecard

어떤 테스트를 실행할지 결정할 때:

요인	가중치	Test A	Test B	Test C
잠재 영향	30%
가설 신뢰도	25%
구현 용이성	20%
틀렸을 때 위험	15%
전략 정렬	10%
Total

Scoring: 1-5 (5 = best)

가설 bank 템플릿

테스트 아이디어를 모을 때:

| ID | Page/Area | Observation | Hypothesis | Potential Impact | Status |
|----|-----------|-------------|------------|------------------|--------|
| H1 | Homepage | Low scroll depth | Shorter hero will increase scroll | High | Testing |
| H2 | Pricing | Users compare plans | Comparison table will help | Medium | Backlog |
| H3 | Signup | Drop-off at email | Social login will increase completion | Medium | Backlog |

품질 테스트 완료 - 테스트 7개, 검증된 어설션 44개

A/B 테스트 설계 — 실제로 작동하는 테스트를 실행하세요 — Claude Skill

대상

기능

작동 방식

예시

개선되는 지표

지원 도구

A/B 테스트 설계을(를) 사용해 보시겠어요?

스킬 지침

A/B 테스트 설계

초기 평가

핵심 원칙

1. 가설로 시작

2. 한 가지만 테스트

3. 통계적 엄격성

4. 중요한 것을 측정

가설 프레임워크

구조

예시

테스트 유형

표본 크기

빠른 참조

지표 선택

1차 지표

2차 지표

Guardrail 지표

예시: 가격 페이지 테스트

Variant 설계

바꿀 수 있는 것

모범 사례

Traffic 배분

구현

Client-Side

Server-Side

테스트 실행

출시 전 checklist

테스트 중

중간 엿보기 문제

결과 분석

통계적 유의성

분석 checklist

결과 해석

문서화

흔한 실수

테스트 설계

실행

분석

작업별 질문

관련 스킬

참조 문서

표본 크기 가이드

목차

표본 크기 기본

필수 입력

의미

표본 크기 빠른 참조 표

전환율: 1%

전환율: 3%

전환율: 5%

전환율: 10%

전환율: 20%

기간 계산기

공식

예시

최소 기간 규칙

최대 기간 가이드라인

온라인 계산기

추천 도구

여러 variant에 맞춘 조정

흔한 표본 크기 실수

1. power가 부족한 테스트

2. power가 과한 테스트

3. 잘못된 baseline rate

4. 세그먼트 무시

5. 너무 많은 것을 테스트

표본 크기 요구가 너무 클 때

순차 테스트

무엇인가?

사용할 때

지원 도구