A/B 테스트 설계 — 실제로 작동하는 테스트를 실행하세요 — Claude Skill
Claude Code용 Claude 스킬 · 제공: Corey Haines · 실행: /ab-test-setup (Claude 내)·업데이트: 2026년 6월 14일·v1.1.0
실행 가능한 결과를 내는 통계적으로 타당한 A/B 테스트를 설계합니다.
- 명확한 성공 지표가 있는 구조화된 가설 작성
- 출시 전에 표본 크기와 테스트 기간 계산
- 모든 페이지 요소에 대한 control과 변형 문안 설계
- 1차, 2차, guardrail 지표 정의
- 통계적 유의성과 세그먼트 분해로 결과 분석
대상
실험을 운영하고, 퍼널을 최적화하며, 가입부터 매출까지 숫자를 책임집니다. 이 스킬들은 감사, 분석, 테스트 설정을 처리해 스프레드시트가 아니라 전략에 시간을 쓰게 합니다.
이 역할의 스킬 보기포지셔닝, 출시, 구매자 여정을 책임집니다. 전환되는 카피를 쓰고, 성장을 위한 가격을 정하며, 사람들이 실제로 원하는 제품을 출시하도록 돕습니다.
이 역할의 스킬 보기유료 광고, 이메일 시퀀스, 리드 마그넷, 폼 최적화까지 파이프라인 생성을 책임집니다. 캠페인을 기획하고, 시퀀스를 작성하며, 모든 전환 지점을 최적화합니다.
이 역할의 스킬 보기기능
가격 페이지 실험을 위해 가설을 설계하고, 필요한 traffic을 계산하며, 행동 유도 변형를 정의하고 측정 설정을 만듭니다.
기존 테스트 데이터를 분석하고, 중간 엿보기 오류를 확인하며, 실험을 연장할지 중단할지 다시 설계할지 추천합니다.
구조화된 A/B 테스트가 익숙하지 않은 팀을 위해 테스트 문서화 템플릿과 우선순위 프레임워크를 만듭니다.
작동 방식
무엇을 테스트할지와 현재 baseline 전환율을 입력합니다.
스킬이 예상 결과와 대상 독자가 포함된 구조화된 가설을 작성합니다.
최소 표본 크기와 예상 테스트 기간을 계산합니다.
지표, traffic split, 출시 전 QA checklist를 정의합니다.
테스트 후 결과를 분석하고 학습 내용을 문서화합니다.
예시
목표: 가격 페이지에서 무료 체험 시작을 늘리고 싶습니다. 현재 기준선: 가격 페이지 방문자의 4.8%가 무료 체험을 시작합니다. 트래픽: 가격 페이지 방문자 약 8,000명/주. 대상: 미국의 신규 방문자, 데스크톱과 모바일. 제안 변경: 행동 유도 "Start free trial"을 "Build my first dashboard"로 바꾸고 버튼 위에 혜택 bullet 3개를 추가합니다. 도구: 실험은 Optimizely, 전환 추적은 GA4. 필요한 것: 테스트 가설, 표본 크기, 기간, 지표, QA 체크리스트, 의사결정 기준.
이 실험은 단순한 버튼 색상 테스트가 아니라 메시지 테스트로 봐야 합니다. 변형안은 행동 유도의 약속과 그 위의 혜택 설명을 함께 바꿉니다. 어떤 요소가 성과를 만든 것인지 알아야 한다면 두 개의 테스트로 나누는 것이 좋습니다. 비즈니스 의사결정이 새 메시지 묶음이 이기는지만 확인하는 것이라면 하나의 A/B 테스트로 유지할 수 있습니다.
가격 페이지 방문자가 무료 체험을 시작하면 무엇을 얻게 되는지 명확히 이해하지 못할 수 있기 때문에, 구체적인 결과를 약속하는 행동 유도와 3개의 혜택 설명이 미국 신규 방문자의 무료 체험 시작률을 높일 것이라고 봅니다. 현재 4.8% 기준선 대비 최소 20%의 상대적 개선이 있고, 가입 완료율이나 활성화 품질이 나빠지지 않으면 가설이 맞다고 판단합니다.
| 항목 | 계획 | |---|---| | 테스트 유형 | A/B 테스트 | | 대조군 | 현재 가격 페이지와 "Start free trial" 행동 유도 | | 변형안 | "Build my first dashboard" 행동 유도와 혜택 bullet 3개 | | 트래픽 배분 | 대조군 50%, 변형안 50% | | 대상 | 미국 신규 가격 페이지 방문자, 데스크톱과 모바일 | | 핵심 지표 | 가격 페이지 방문자 -> 무료 체험 시작률 | | 보조 지표 | 행동 유도 클릭률, 가입 완료율, 첫 대시보드 생성률 | | 가드레일 지표 | 이탈률, 페이지 로딩 시간, 무료 체험 사용자의 혼란 관련 지원 티켓 |
기준선은 약 5%에 가깝습니다. 20%의 상대적 개선을 감지하려면 변형별 약 18,000명, 총 36,000명의 노출 방문자가 필요합니다. 주간 가격 페이지 방문자가 8,000명이고 100%를 실험에 노출한다면 약 4.5주가 필요합니다. 요일별 행동 차이를 포함하기 위해 최소 4주 전체를 운영하고, 며칠 만에 한 변형이 앞서 보인다는 이유로 조기 종료하지 마십시오.
Optimizely가 사용자를 안정적으로 배정하는지, 두 변형이 같은 GA4 trial_start 이벤트를 보내는지, 모바일과 데스크톱 렌더링이 올바른지, 변형안이 페이지 속도를 악화시키지 않는지, 내부 트래픽이 제외되는지, 실험 ID가 전환 이벤트와 함께 저장되어 나중에 감사할 수 있는지 확인합니다.
계획한 표본 크기에 도달하고, 무료 체험 시작률에서 통계적으로 유의하면서 비즈니스적으로도 의미 있는 개선이 있으며, 가입 완료율이나 활성화 품질을 해치지 않을 때만 변형안을 배포합니다. 결과가 불명확하면 대조군을 유지하고, 혜택 bullet을 테스트하기 전에 행동 유도 문구만 먼저 테스트합니다.
개선되는 지표
지원 도구
A/B 테스트 설계을(를) 사용해 보시겠어요?
시작 방법을 선택하세요.
이 스킬을 컴퓨터에 로컬로 설치하고 실행합니다.
컴퓨터에서 터미널을 열고 이 명령을 붙여넣으세요:
이 명령은 스킬과 모든 파일을 컴퓨터에 다운로드합니다:
모든 프로젝트에서 사용하려면 끝에 -g를 추가하세요.
Claude Code를 시작한 다음 명령을 입력하세요:
A/B 테스트 설계
당신은 실험과 A/B 테스트 전문가입니다. 목표는 통계적으로 타당하고 실행 가능한 결과를 내는 테스트를 설계하도록 돕는 것입니다.
초기 평가
먼저 product marketing context를 확인합니다.
.agents/product-marketing-context.md가 있거나 예전 설정의 .claude/product-marketing-context.md가 있으면, 질문하기 전에 읽습니다. 그 맥락을 사용하고, 이미 다뤄지지 않았거나 이 작업에 특화된 정보만 질문합니다.
테스트를 설계하기 전에 다음을 이해합니다.
- 테스트 맥락 - 무엇을 개선하려고 하나요? 어떤 변경을 고려하고 있나요?
- 현재 상태 - baseline 전환율은? 현재 traffic 규모는?
- 제약 - 기술 복잡도는? 일정은? 사용할 수 있는 도구는?
핵심 원칙
1. 가설로 시작
- 단순히 "무슨 일이 일어나는지 보자"가 아닙니다.
- 결과에 대한 구체적 예측이 있어야 합니다.
- 추론이나 데이터에 기반해야 합니다.
2. 한 가지만 테스트
- 테스트당 변수 하나
- 그렇지 않으면 무엇이 효과를 냈는지 알 수 없습니다.
3. 통계적 엄격성
- 표본 크기를 미리 정합니다.
- 중간에 엿보고 일찍 중단하지 않습니다.
- 방법론에 커밋합니다.
4. 중요한 것을 측정
- 1차 지표는 사업 가치와 연결합니다.
- 2차 지표는 맥락을 설명합니다.
- guardrail 지표로 피해를 막습니다.
가설 프레임워크
구조
[관찰/데이터] 때문에,
우리는 [변경]이
[대상 독자]에게
[예상 결과]를 만들 것이라고 믿습니다.
[지표]가 나타나면 이것이 맞다고 판단합니다.
예시
약함: "버튼 색을 바꾸면 클릭이 늘 수도 있습니다."
강함: "사용자가 CTA를 찾기 어렵다고 보고했고(heatmap과 feedback 기준), 버튼을 더 크게 만들고 대비 색을 사용하면 신규 방문자의 CTA 클릭이 15% 이상 증가할 것이라고 믿습니다. 페이지 조회에서 signup 시작까지의 클릭률을 측정합니다."
테스트 유형
| 유형 | 설명 | 필요한 traffic |
|---|---|---|
| A/B | 두 버전, 단일 변경 | 보통 |
| A/B/n | 여러 variant | 더 높음 |
| MVT | 여러 변경의 조합 | 매우 높음 |
| Split URL | variant별 다른 URL | 보통 |
표본 크기
빠른 참조
| Baseline | 10% Lift | 20% Lift | 50% Lift |
|---|---|---|---|
| 1% | variant당 150k | variant당 39k | variant당 6k |
| 3% | variant당 47k | variant당 12k | variant당 2k |
| 5% | variant당 27k | variant당 7k | variant당 1.2k |
| 10% | variant당 12k | variant당 3k | variant당 550 |
계산기:
자세한 표본 크기 표와 기간 계산: references/sample-size-guide.md를 봅니다.
지표 선택
1차 지표
- 가장 중요한 단일 지표
- 가설과 직접 연결됨
- 테스트 판정을 내릴 때 사용할 지표
2차 지표
- 1차 지표 해석을 지원
- 변경이 왜/어떻게 작동했는지 설명
Guardrail 지표
- 나빠지면 안 되는 항목
- 유의미하게 부정적이면 테스트 중단
예시: 가격 페이지 테스트
- 1차: 플랜 선택률
- 2차: 페이지 체류 시간, 플랜 분포
- Guardrail: 지원 티켓, 환불률
Variant 설계
바꿀 수 있는 것
| 범주 | 예시 |
|---|---|
| 헤드라인/문안 | 메시지 각도, 가치 제안, 구체성, 어조 |
| 시각 디자인 | layout, color, images, hierarchy |
| CTA | 버튼 문안, 크기, 위치, 개수 |
| 콘텐츠 | 포함 정보, 순서, 양, social proof |
모범 사례
- 의미 있는 단일 변경
- 차이를 만들 만큼 충분히 큼
- 가설에 충실함
Traffic 배분
| 접근 | 분할 | 사용할 때 |
|---|---|---|
| 표준 | 50/50 | A/B 기본값 |
| 보수적 | 90/10, 80/20 | 나쁜 variant 위험 제한 |
| 점진적 확대 | 작게 시작해 늘림 | 기술 위험 완화 |
고려 사항:
- 일관성: 재방문 사용자는 같은 variant를 봅니다.
- 시간대/요일 전반에 균형 있게 노출합니다.
구현
Client-Side
- JavaScript가 load 후 페이지를 수정합니다.
- 빠르게 구현할 수 있지만 깜빡임이 생길 수 있습니다.
- 도구: PostHog, Optimizely, VWO
Server-Side
- render 전에 variant가 결정됩니다.
- 깜빡임이 없지만 개발 작업이 필요합니다.
- 도구: PostHog, LaunchDarkly, Split
테스트 실행
출시 전 checklist
- 가설 문서화
- 1차 지표 정의
- 표본 크기 계산
- variant가 올바르게 구현됨
- tracking 검증
- 모든 variant QA 완료
테스트 중
해야 할 것:
- 기술 문제 모니터링
- 세그먼트 품질 확인
- 외부 요인 문서화
피할 것:
- 결과를 엿보고 일찍 중단
- variant 변경
- 새 출처의 traffic 추가
중간 엿보기 문제
표본 크기에 도달하기 전에 결과를 보고 일찍 중단하면 false positive와 잘못된 의사결정으로 이어집니다. 표본 크기에 사전 커밋하고 과정을 신뢰합니다.
결과 분석
통계적 유의성
- 95% confidence = p-value < 0.05
- 결과가 무작위일 확률이 5% 미만이라는 뜻
- 보장은 아니며 기준선일 뿐입니다.
분석 checklist
- 표본 크기에 도달했나? 아니면 결과는 preliminary입니다.
- 통계적으로 유의한가? confidence interval을 확인합니다.
- 효과 크기가 의미 있는가? MDE와 예상 영향을 비교합니다.
- 2차 지표가 일관적인가? 1차 지표를 뒷받침하나요?
- Guardrail 우려가 있는가? 나빠진 것이 있나요?
- 세그먼트 차이가 있는가? 모바일 vs desktop? 신규 vs 재방문?
결과 해석
| 결과 | 결론 |
|---|---|
| 유의미한 승자 | variant 구현 |
| 유의미한 패자 | control 유지, 이유 학습 |
| 유의미한 차이 없음 | 더 많은 traffic 또는 더 과감한 테스트 필요 |
| 섞인 신호 | 더 깊게 파고들거나 세그먼트 분석 |
문서화
모든 테스트에 다음을 문서화합니다.
- 가설
- variant(스크린샷 포함)
- 결과(표본, 지표, 유의성)
- 결정과 학습
템플릿: references/test-templates.md를 봅니다.
흔한 실수
테스트 설계
- 너무 작은 변경 테스트(감지 불가)
- 너무 많은 것을 한 번에 테스트(분리 불가)
- 명확한 가설 없음
실행
- 일찍 중단
- 테스트 중간에 변경
- 구현 확인 누락
분석
- confidence interval 무시
- 세그먼트 입맛대로 고르기
- 결론이 애매한 결과를 과해석
작업별 질문
- 현재 전환율은 얼마인가요?
- 이 페이지의 traffic은 어느 정도인가요?
- 어떤 변경을 고려하고 있으며 이유는 무엇인가요?
- 감지할 가치가 있는 최소 개선폭은 얼마인가요?
- 테스트에 사용할 수 있는 도구는 무엇인가요?
- 이 영역을 이전에 테스트한 적이 있나요?
관련 스킬
- page-cro: CRO 원칙에 기반한 테스트 아이디어 생성
- analytics-tracking: 테스트 측정 설정
- copywriting: variant 문안 작성
참조 문서
표본 크기 가이드
표본 크기와 테스트 기간 계산을 위한 참조입니다.
목차
- 표본 크기 기본(필수 입력, 의미)
- 표본 크기 빠른 참조 표
- 기간 계산기(공식, 예시, 최소 기간 규칙, 최대 기간 가이드라인)
- 온라인 계산기
- 여러 variant에 맞춘 조정
- 흔한 표본 크기 실수
- 표본 크기 요구가 너무 클 때
- 순차 테스트
- 빠른 의사결정 프레임워크
표본 크기 기본
필수 입력
- Baseline 전환율: 현재 전환율
- Minimum detectable effect (MDE): 감지할 가치가 있는 가장 작은 변화
- 통계적 유의성 수준: 보통 95%(α = 0.05)
- 통계적 power: 보통 80%(β = 0.20)
의미
Baseline 전환율: 페이지가 5%로 전환한다면 그것이 baseline입니다.
MDE (Minimum Detectable Effect): 감지하고 싶은 가장 작은 개선폭입니다. 다음을 기준으로 정합니다.
- 사업 영향(5% lift가 의미 있나?)
- 구현 비용(노력할 가치가 있나?)
- 현실적 기대(과거 테스트가 무엇을 보여 줬나?)
통계적 유의성(95%): 관찰된 차이가 우연 때문일 확률이 5% 미만이라는 뜻입니다.
통계적 power(80%): MDE 크기의 실제 효과가 있다면, 이를 감지할 확률이 80%라는 뜻입니다.
표본 크기 빠른 참조 표
전환율: 1%
| 감지할 Lift | Variant당 표본 | 총 표본 |
|---|---|---|
| 5% (1% → 1.05%) | 1,500,000 | 3,000,000 |
| 10% (1% → 1.1%) | 380,000 | 760,000 |
| 20% (1% → 1.2%) | 97,000 | 194,000 |
| 50% (1% → 1.5%) | 16,000 | 32,000 |
| 100% (1% → 2%) | 4,200 | 8,400 |
전환율: 3%
| 감지할 Lift | Variant당 표본 | 총 표본 |
|---|---|---|
| 5% (3% → 3.15%) | 480,000 | 960,000 |
| 10% (3% → 3.3%) | 120,000 | 240,000 |
| 20% (3% → 3.6%) | 31,000 | 62,000 |
| 50% (3% → 4.5%) | 5,200 | 10,400 |
| 100% (3% → 6%) | 1,400 | 2,800 |
전환율: 5%
| 감지할 Lift | Variant당 표본 | 총 표본 |
|---|---|---|
| 5% (5% → 5.25%) | 280,000 | 560,000 |
| 10% (5% → 5.5%) | 72,000 | 144,000 |
| 20% (5% → 6%) | 18,000 | 36,000 |
| 50% (5% → 7.5%) | 3,100 | 6,200 |
| 100% (5% → 10%) | 810 | 1,620 |
전환율: 10%
| 감지할 Lift | Variant당 표본 | 총 표본 |
|---|---|---|
| 5% (10% → 10.5%) | 130,000 | 260,000 |
| 10% (10% → 11%) | 34,000 | 68,000 |
| 20% (10% → 12%) | 8,700 | 17,400 |
| 50% (10% → 15%) | 1,500 | 3,000 |
| 100% (10% → 20%) | 400 | 800 |
전환율: 20%
| 감지할 Lift | Variant당 표본 | 총 표본 |
|---|---|---|
| 5% (20% → 21%) | 60,000 | 120,000 |
| 10% (20% → 22%) | 16,000 | 32,000 |
| 20% (20% → 24%) | 4,000 | 8,000 |
| 50% (20% → 30%) | 700 | 1,400 |
| 100% (20% → 40%) | 200 | 400 |
기간 계산기
공식
Duration (days) = (Sample per variant × Number of variants) / (Daily traffic × % exposed)
예시
시나리오 1: traffic이 많은 페이지
- 필요: variant당 10,000(variant 2개 = 총 20,000)
- Daily traffic: 방문자 5,000명
- 테스트 노출 100%
- 기간: 20,000 / 5,000 = 4일
시나리오 2: traffic이 중간인 페이지
- 필요: variant당 30,000(총 60,000)
- Daily traffic: 방문자 2,000명
- 노출 100%
- 기간: 60,000 / 2,000 = 30일
시나리오 3: traffic이 낮고 부분 노출
- 필요: variant당 15,000(총 30,000)
- Daily traffic: 방문자 500명
- 테스트 노출 50%
- Effective daily: 250
- 기간: 30,000 / 250 = 120일(너무 김)
최소 기간 규칙
표본 크기가 충분해도 테스트는 최소 다음 기간 동안 실행합니다.
- 1주 전체: 요일별 변동 포착
- 비즈니스 사이클 2회: B2B라면 평일 vs 주말 패턴 반영
- 급여일 통과: e-commerce라면 월초/월말 영향 반영
최대 기간 가이드라인
4-8주보다 오래 테스트하는 것은 피합니다.
- novelty effect가 사라짐
- 외부 요인이 개입함
- 다른 테스트의 opportunity cost 발생
온라인 계산기
추천 도구
Evan Miller's Calculator https://www.evanmiller.org/ab-testing/sample-size.html
- 단순한 interface
- 북마크할 가치 있음
Optimizely's Calculator https://www.optimizely.com/sample-size-calculator/
- 비즈니스 친화적 언어
- 기간 추정
AB Test Guide Calculator https://www.abtestguide.com/calc/
- Bayesian option 포함
- 여러 테스트 유형 지원
VWO Duration Calculator https://vwo.com/tools/ab-test-duration-calculator/
- 기간 중심
- 계획에 좋음
여러 variant에 맞춘 조정
variant가 2개보다 많으면(A/B/n 테스트) 더 많은 표본이 필요합니다.
| Variant | 배수 |
|---|---|
| 2 (A/B) | 1x |
| 3 (A/B/C) | ~1.5x |
| 4 (A/B/C/D) | ~2x |
| 5+ | variant 축소 고려 |
이유: 비교가 많아질수록 false positive 가능성이 커집니다. 비교 대상은 다음과 같습니다.
- A vs B
- A vs C
- B vs C(때때로)
Bonferroni correction을 적용하거나 이를 자동 처리하는 도구를 사용합니다.
흔한 표본 크기 실수
1. power가 부족한 테스트
문제: 현실적인 효과를 감지하기에 표본이 부족함 수정: MDE를 현실적으로 정하고, 더 많은 traffic을 확보하거나 테스트하지 않음
2. power가 과한 테스트
문제: 이미 유의성이 있는데도 표본 크기를 기다림 수정: 사실 괜찮습니다. 표본 크기에 커밋했으니 지킵니다.
3. 잘못된 baseline rate
문제: 계산에 잘못된 전환율 사용 수정: 사이트 전체 평균이 아니라 해당 지표와 페이지의 전환율을 사용합니다.
4. 세그먼트 무시
문제: 전체 traffic으로 계산한 뒤 세그먼트를 분석함 수정: 세그먼트 분석을 계획한다면 가장 작은 세그먼트 기준으로 표본을 계산합니다.
5. 너무 많은 것을 테스트
문제: traffic을 너무 많은 방향으로 나눔 수정: 냉정하게 우선순위를 정하고 동시 테스트 수를 줄입니다.
표본 크기 요구가 너무 클 때
traffic이 충분하지 않을 때의 선택지:
- MDE 높이기: 더 큰 효과(20%+ lift)만 감지하기로 수용
- 신뢰도 낮추기: 95% 대신 90% 사용(위험하므로 문서화)
- variant 줄이기: 가장 유망한 variant만 테스트
- traffic 합치기: 여러 유사 페이지에 걸쳐 테스트
- 퍼널 상단 테스트: traffic이 더 많은 퍼널 앞단에서 테스트
- 테스트하지 않기: 정성 데이터로 의사결정
- 더 긴 테스트: 더 긴 기간(몇 주/몇 달)을 수용
순차 테스트
표본 크기에 도달하기 전에 결과를 확인해야 한다면:
무엇인가?
데이터를 여러 번 보는 상황에 맞춰 조정하는 통계 방법입니다.
사용할 때
- 위험이 큰 변경
- 나쁜 variant를 일찍 중단해야 함
- 시간에 민감한 의사결정
지원 도구
- Optimizely (Stats Accelerator)
- VWO (SmartStats)
- PostHog (Bayesian approach)
Tradeoff
- 일찍 중단할 유연성 증가
- 표본 크기 요구가 약간 커짐
- 분석이 더 복잡함
빠른 의사결정 프레임워크
이 테스트를 실행할 수 있나?
Daily traffic to page: _____
Baseline conversion rate: _____
MDE I care about: _____
Sample needed per variant: _____ (from tables above)
Days to run: Sample / Daily traffic = _____
If days > 60: Consider alternatives
If days > 30: Acceptable for high-impact tests
If days < 14: Likely feasible
If days < 7: Easy to run, consider running longer anyway
A/B 테스트 템플릿 참조
실험을 계획, 문서화, 분석하기 위한 템플릿입니다.
목차
- 테스트 계획 템플릿
- 결과 문서화 템플릿
- 테스트 저장소 항목 템플릿
- 빠른 테스트 brief 템플릿
- 이해관계자 업데이트 템플릿
- 실험 우선순위 scorecard
- 가설 bank 템플릿
테스트 계획 템플릿
# A/B 테스트: [이름]
## 개요
- **Owner**: [이름]
- **Test ID**: [테스트 도구의 ID]
- **Page/Feature**: [테스트 대상]
- **Planned dates**: [시작] - [종료]
## 가설
[관찰/데이터] 때문에,
우리는 [변경]이
[대상 독자]에게
[예상 결과]를 만들 것이라고 믿습니다.
[지표]가 나타나면 이것이 맞다고 판단합니다.
## 테스트 설계
| 요소 | 세부 내용 |
|------|-----------|
| Test type | A/B / A/B/n / MVT |
| Duration | X weeks |
| Sample size | X per variant |
| Traffic allocation | 50/50 |
| Tool | [도구 이름] |
| Implementation | Client-side / Server-side |
## Variant
### Control (A)
[스크린샷]
- 현재 경험
- [현재 상태의 핵심 세부 내용]
### Variant (B)
[스크린샷 또는 mockup]
- [구체적 변경 #1]
- [구체적 변경 #2]
- Rationale: [왜 이것이 이길 것이라고 생각하는지]
## 지표
### 1차
- **Metric**: [지표 이름]
- **Definition**: [계산 방식]
- **Current baseline**: [X%]
- **Minimum detectable effect**: [X%]
### 2차
- [지표 1]: [알려 주는 것]
- [지표 2]: [알려 주는 것]
- [지표 3]: [알려 주는 것]
### Guardrails
- [나빠지면 안 되는 지표]
- [다른 안전 지표]
## 세그먼트 분석 계획
- Mobile vs. desktop
- New vs. returning visitors
- 유입 출처
- [기타 관련 세그먼트]
## 성공 기준
- Winner: [1차 지표가 95% confidence로 X% 개선]
- Loser: [1차 지표가 유의미하게 감소]
- Inconclusive: [유의미한 결과가 없을 때 할 일]
## 출시 전 checklist
- [ ] 가설 문서화 및 검토 완료
- [ ] 1차 지표 정의 및 추적 가능
- [ ] 표본 크기 계산
- [ ] 테스트 기간 추정
- [ ] variant가 올바르게 구현됨
- [ ] 모든 variant에서 tracking 검증
- [ ] 모든 variant QA 완료
- [ ] 이해관계자에게 알림
- [ ] 분석 날짜 calendar hold
결과 문서화 템플릿
# A/B 테스트 결과: [이름]
## 요약
| 요소 | 값 |
|------|----|
| Test ID | [ID] |
| Dates | [시작] - [종료] |
| Duration | X days |
| Result | Winner / Loser / Inconclusive |
| Decision | [무엇을 할지] |
## 가설(리마인더)
[테스트 계획에서 복사]
## 결과
### 표본 크기
| Variant | Target | Actual | target 대비 % |
|---------|--------|--------|---------------|
| Control | X | Y | Z% |
| Variant | X | Y | Z% |
### 1차 지표: [지표 이름]
| Variant | Value | 95% CI | vs. Control |
|---------|-------|--------|-------------|
| Control | X% | [X%, Y%] | — |
| Variant | X% | [X%, Y%] | +X% |
**통계적 유의성**: p = X.XX (95% = sig / not sig)
**실무적 유의성**: [이 lift가 사업에 의미 있는가?]
### 2차 지표
| Metric | Control | Variant | Change | Significant? |
|--------|---------|---------|--------|--------------|
| [지표 1] | X | Y | +Z% | Yes/No |
| [지표 2] | X | Y | +Z% | Yes/No |
### Guardrail 지표
| Metric | Control | Variant | Change | Concern? |
|--------|---------|---------|--------|----------|
| [지표 1] | X | Y | +Z% | Yes/No |
### 세그먼트 분석
**Mobile vs. Desktop**
| Segment | Control | Variant | Lift |
|---------|---------|---------|------|
| Mobile | X% | Y% | +Z% |
| Desktop | X% | Y% | +Z% |
**New vs. Returning**
| Segment | Control | Variant | Lift |
|---------|---------|---------|------|
| New | X% | Y% | +Z% |
| Returning | X% | Y% | +Z% |
## 해석
### 무슨 일이 일어났나?
[결과를 쉬운 말로 설명]
### 왜 이런 일이 일어났다고 보는가?
[분석과 추론]
### 주의 사항
[제약, 외부 요인, 우려]
## 결정
**Winner**: [Control / Variant]
**Action**: [variant 구현 / control 유지 / 재테스트]
**Timeline**: [변경 구현 시점]
## 학습
### 배운 점
- [핵심 인사이트 1]
- [핵심 인사이트 2]
### 다음에 테스트할 것
- [후속 테스트 아이디어 1]
- [후속 테스트 아이디어 2]
### 영향
- **Projected lift**: [Y 지표에서 X% 개선]
- **Business impact**: [매출, 전환 등]
테스트 저장소 항목 템플릿
모든 테스트를 중앙 위치에서 추적할 때:
| Test ID | Name | Page | Dates | Primary Metric | Result | Lift | Link |
|---------|------|------|-------|----------------|--------|------|------|
| 001 | Hero headline test | Homepage | 1/1-1/15 | CTR | Winner | +12% | [Link] |
| 002 | Pricing table layout | Pricing | 1/10-1/31 | Plan selection | Loser | -5% | [Link] |
| 003 | Signup form fields | Signup | 2/1-2/14 | Completion | Inconclusive | +2% | [Link] |
빠른 테스트 brief 템플릿
전체 문서화가 필요 없는 단순 테스트용:
## [테스트 이름]
**What**: [한 문장 설명]
**Why**: [한 문장 가설]
**Metric**: [1차 지표]
**Duration**: [X weeks]
**Result**: [TBD / Winner / Loser / Inconclusive]
**Learnings**: [핵심 takeaway]
이해관계자 업데이트 템플릿
## A/B 테스트 업데이트: [이름]
**Status**: Running / Complete
**Days remaining**: X (또는 complete)
**Current sample**: target의 X%
### 예비 관찰
[보고 있는 내용 - 아직 결정하지 않음]
### 다음 단계
[다음에 일어날 일]
### Timeline
- [날짜]: 분석 완료
- [날짜]: 결정과 추천
- [날짜]: 구현(winner인 경우)
실험 우선순위 scorecard
어떤 테스트를 실행할지 결정할 때:
| 요인 | 가중치 | Test A | Test B | Test C |
|---|---|---|---|---|
| 잠재 영향 | 30% | |||
| 가설 신뢰도 | 25% | |||
| 구현 용이성 | 20% | |||
| 틀렸을 때 위험 | 15% | |||
| 전략 정렬 | 10% | |||
| Total |
Scoring: 1-5 (5 = best)
가설 bank 템플릿
테스트 아이디어를 모을 때:
| ID | Page/Area | Observation | Hypothesis | Potential Impact | Status |
|----|-----------|-------------|------------|------------------|--------|
| H1 | Homepage | Low scroll depth | Shorter hero will increase scroll | High | Testing |
| H2 | Pricing | Users compare plans | Comparison table will help | Medium | Backlog |
| H3 | Signup | Drop-off at email | Social login will increase completion | Medium | Backlog |