ElasticFlow
허브전체 스킬부서별역할별도구별지표별MCP퍼블리셔
메인 사이트로그인회원가입
ElasticFlow

AI 기반 워크플로 자동화로 비즈니스를 혁신하세요. 모든 엔터프라이즈 요구를 위한 통합 플랫폼.

팔로우

플랫폼

  • 기능
  • 장점
  • 사용 사례
  • 워크플로 라이브러리

사용 사례

  • 영업
  • 마케팅
  • 재무·법무
  • 인사

카탈로그

  • 부서
  • 역할
  • 도구
  • 지표
  • 플랫폼

성장

  • 추천 프로그램
  • 파트너

법무

  • 개인정보 처리방침
  • 서비스 약관
  • 쿠키 정책
  • 허용 사용
  • 보안
  • SLA

© 2026 ElasticFlow. 모든 권리 보유.

ElasticFlow
허브전체 스킬부서별역할별도구별지표별MCP퍼블리셔
메인 사이트로그인회원가입
ElasticFlow

AI 기반 워크플로 자동화로 비즈니스를 혁신하세요. 모든 엔터프라이즈 요구를 위한 통합 플랫폼.

팔로우

플랫폼

  • 기능
  • 장점
  • 사용 사례
  • 워크플로 라이브러리

사용 사례

  • 영업
  • 마케팅
  • 재무·법무
  • 인사

카탈로그

  • 부서
  • 역할
  • 도구
  • 지표
  • 플랫폼

성장

  • 추천 프로그램
  • 파트너

법무

  • 개인정보 처리방침
  • 서비스 약관
  • 쿠키 정책
  • 허용 사용
  • 보안
  • SLA

© 2026 ElasticFlow. 모든 권리 보유.

ElasticFlow
허브전체 스킬부서별역할별도구별지표별MCP퍼블리셔
메인 사이트로그인회원가입
  1. 허브
  2. 스킬
  3. A/B 테스트 설계
지원 언어:🇬🇧 English🇫🇷 Français🇰🇷 한국어🇵🇹 Português🇹🇷 Türkçe
AI 스킬테스트 설계마케팅

A/B 테스트 설계 — 실제로 작동하는 테스트를 실행하세요 — Claude Skill

Claude Code용 Claude 스킬 · 제공: Corey Haines · 실행: /ab-test-setup (Claude 내)·업데이트: 2026년 6월 14일·v1.1.0

호환GChatGPTClaudeClaudeCCClaude CodeCDClaude DesktopXCodex / Codex CLICursorCursorGeminiGeminiHHermes (via Continue / Cline)OpenClawOpenClawWindsurfWindsurf

실행 가능한 결과를 내는 통계적으로 타당한 A/B 테스트를 설계합니다.

  • 명확한 성공 지표가 있는 구조화된 가설 작성
  • 출시 전에 표본 크기와 테스트 기간 계산
  • 모든 페이지 요소에 대한 control과 변형 문안 설계
  • 1차, 2차, guardrail 지표 정의
  • 통계적 유의성과 세그먼트 분해로 결과 분석

대상

그로스 마케터

실험을 운영하고, 퍼널을 최적화하며, 가입부터 매출까지 숫자를 책임집니다. 이 스킬들은 감사, 분석, 테스트 설정을 처리해 스프레드시트가 아니라 전략에 시간을 쓰게 합니다.

이 역할의 스킬 보기
제품 마케터

포지셔닝, 출시, 구매자 여정을 책임집니다. 전환되는 카피를 쓰고, 성장을 위한 가격을 정하며, 사람들이 실제로 원하는 제품을 출시하도록 돕습니다.

이 역할의 스킬 보기
수요 창출 매니저

유료 광고, 이메일 시퀀스, 리드 마그넷, 폼 최적화까지 파이프라인 생성을 책임집니다. 캠페인을 기획하고, 시퀀스를 작성하며, 모든 전환 지점을 최적화합니다.

이 역할의 스킬 보기

기능

가격 페이지 최적화

가격 페이지 실험을 위해 가설을 설계하고, 필요한 traffic을 계산하며, 행동 유도 변형를 정의하고 측정 설정을 만듭니다.

결론이 애매한 테스트 결과 검토

기존 테스트 데이터를 분석하고, 중간 엿보기 오류를 확인하며, 실험을 연장할지 중단할지 다시 설계할지 추천합니다.

실험 문화 만들기

구조화된 A/B 테스트가 익숙하지 않은 팀을 위해 테스트 문서화 템플릿과 우선순위 프레임워크를 만듭니다.

작동 방식

1

무엇을 테스트할지와 현재 baseline 전환율을 입력합니다.

2

스킬이 예상 결과와 대상 독자가 포함된 구조화된 가설을 작성합니다.

3

최소 표본 크기와 예상 테스트 기간을 계산합니다.

4

지표, traffic split, 출시 전 QA checklist를 정의합니다.

5

테스트 후 결과를 분석하고 학습 내용을 문서화합니다.

예시

사용자가 붙여넣는 내용
목표: 가격 페이지에서 무료 체험 시작을 늘리고 싶습니다.
현재 기준선: 가격 페이지 방문자의 4.8%가 무료 체험을 시작합니다.
트래픽: 가격 페이지 방문자 약 8,000명/주.
대상: 미국의 신규 방문자, 데스크톱과 모바일.
제안 변경: 행동 유도 "Start free trial"을 "Build my first dashboard"로 바꾸고 버튼 위에 혜택 bullet 3개를 추가합니다.
도구: 실험은 Optimizely, 전환 추적은 GA4.
필요한 것: 테스트 가설, 표본 크기, 기간, 지표, QA 체크리스트, 의사결정 기준.
유용한 결과
테스트를 해석하는 방식
이 실험은 단순한 버튼 색상 테스트가 아니라 메시지 테스트로 봐야 합니다. 변형안은 행동 유도의 약속과 그 위의 혜택 설명을 함께 바꿉니다. 어떤 요소가 성과를 만든 것인지 알아야 한다면 두 개의 테스트로 나누는 것이 좋습니다. 비즈니스 의사결정이 새 메시지 묶음이 이기는지만 확인하는 것이라면 하나의 A/B 테스트로 유지할 수 있습니다.
가설
가격 페이지 방문자가 무료 체험을 시작하면 무엇을 얻게 되는지 명확히 이해하지 못할 수 있기 때문에, 구체적인 결과를 약속하는 행동 유도와 3개의 혜택 설명이 미국 신규 방문자의 무료 체험 시작률을 높일 것이라고 봅니다. 현재 4.8% 기준선 대비 최소 20%의 상대적 개선이 있고, 가입 완료율이나 활성화 품질이 나빠지지 않으면 가설이 맞다고 판단합니다.
테스트 설계
| 항목 | 계획 |
|---|---|
| 테스트 유형 | A/B 테스트 |
| 대조군 | 현재 가격 페이지와 "Start free trial" 행동 유도 |
| 변형안 | "Build my first dashboard" 행동 유도와 혜택 bullet 3개 |
| 트래픽 배분 | 대조군 50%, 변형안 50% |
| 대상 | 미국 신규 가격 페이지 방문자, 데스크톱과 모바일 |
| 핵심 지표 | 가격 페이지 방문자 -> 무료 체험 시작률 |
| 보조 지표 | 행동 유도 클릭률, 가입 완료율, 첫 대시보드 생성률 |
| 가드레일 지표 | 이탈률, 페이지 로딩 시간, 무료 체험 사용자의 혼란 관련 지원 티켓 |
표본 크기와 기간
기준선은 약 5%에 가깝습니다. 20%의 상대적 개선을 감지하려면 변형별 약 18,000명, 총 36,000명의 노출 방문자가 필요합니다. 주간 가격 페이지 방문자가 8,000명이고 100%를 실험에 노출한다면 약 4.5주가 필요합니다. 요일별 행동 차이를 포함하기 위해 최소 4주 전체를 운영하고, 며칠 만에 한 변형이 앞서 보인다는 이유로 조기 종료하지 마십시오.
출시 전 QA
Optimizely가 사용자를 안정적으로 배정하는지, 두 변형이 같은 GA4 trial_start 이벤트를 보내는지, 모바일과 데스크톱 렌더링이 올바른지, 변형안이 페이지 속도를 악화시키지 않는지, 내부 트래픽이 제외되는지, 실험 ID가 전환 이벤트와 함께 저장되어 나중에 감사할 수 있는지 확인합니다.
의사결정 기준
계획한 표본 크기에 도달하고, 무료 체험 시작률에서 통계적으로 유의하면서 비즈니스적으로도 의미 있는 개선이 있으며, 가입 완료율이나 활성화 품질을 해치지 않을 때만 변형안을 배포합니다. 결과가 불명확하면 대조군을 유지하고, 혜택 bullet을 테스트하기 전에 행동 유도 문구만 먼저 테스트합니다.

개선되는 지표

활성화율
온보딩 변형 테스트는 더 많은 사용자를 aha moment로 이끄는 변경을 찾습니다
마케팅
전환율
엄격한 A/B 테스트는 테스트한 요소의 전환율을 직접 측정하고 개선합니다
마케팅
통계적 유의성
이 스킬은 타당한 테스트 결과를 위한 올바른 표본 크기와 신뢰도 기준을 가르칩니다
마케팅

지원 도구

Mixpanel
수동

퍼널 지표를 추적하고 사용자 속성별로 결과를 세그먼트화합니다

Hotjar
수동

테스트 가설 수립에 사용할 heatmap과 session recording 데이터를 수집합니다

Optimizely
수동

클라이언트 측 A/B 테스트를 실행하고 실험 변형를 관리합니다

Amplitude
수동

활성화와 유지 지표에 대한 실험 영향을 측정합니다

Google Analytics
수동

테스트 중 traffic, 전환 이벤트, 목표 완료를 모니터링합니다

유사 스킬

속성 중복에 따라 자동 추천됩니다. 나란히 비교하면 차이가 드러납니다.

전체 4개 비교 →

경쟁사 인텔리전스

제공: Gooseworks
↳텍스트, 도구 접근 권한vs텍스트, API 자격 증명(제공해야 하는 것)·MarkdownvsMarkdown, 이메일(출력 형식)·승인 필요vs없음(사람 검토)

광고 캠페인 분석기

제공: Gooseworks
↳텍스트, 도구 접근 권한vs텍스트, 파일 업로드(제공해야 하는 것)·승인 필요vs없음(사람 검토)·유료 광고, 콘텐츠vs유료 광고(채널)

광고 소재 분석

제공: Gooseworks
↳텍스트, 도구 접근 권한vs텍스트, URL(제공해야 하는 것)·승인 필요vs검토 필요(사람 검토)·내부vs공개(데이터 민감도)
속성 중복 × 차별화로 정렬. A/B 테스트 설계은(는) 각 항목과 15개 이상의 속성을 공유합니다.

A/B 테스트 설계을(를) 사용해 보시겠어요?

시작 방법을 선택하세요.

Claude Code에서 실행
무료. 오픈 소스.

이 스킬을 컴퓨터에 로컬로 설치하고 실행합니다.

1
Claude Code 설치

컴퓨터에서 터미널을 열고 이 명령을 붙여넣으세요:

2
스킬 설치

이 명령은 스킬과 모든 파일을 컴퓨터에 다운로드합니다:

모든 프로젝트에서 사용하려면 끝에 -g를 추가하세요.

3
실행하기

Claude Code를 시작한 다음 명령을 입력하세요:

그다음
GitHub에서 소스 보기
ElasticFlow에서 사용
팀 및 협업 기능

브라우저에서 스킬을 실행. 결과 공유, 액세스 관리, 팀과 협업. 터미널 불필요.

14일 무료 평가판. 언제든 취소 가능.

GitHub에서 보기

A/B 테스트 설계

당신은 실험과 A/B 테스트 전문가입니다. 목표는 통계적으로 타당하고 실행 가능한 결과를 내는 테스트를 설계하도록 돕는 것입니다.

초기 평가

먼저 product marketing context를 확인합니다. .agents/product-marketing-context.md가 있거나 예전 설정의 .claude/product-marketing-context.md가 있으면, 질문하기 전에 읽습니다. 그 맥락을 사용하고, 이미 다뤄지지 않았거나 이 작업에 특화된 정보만 질문합니다.

테스트를 설계하기 전에 다음을 이해합니다.

  1. 테스트 맥락 - 무엇을 개선하려고 하나요? 어떤 변경을 고려하고 있나요?
  2. 현재 상태 - baseline 전환율은? 현재 traffic 규모는?
  3. 제약 - 기술 복잡도는? 일정은? 사용할 수 있는 도구는?

핵심 원칙

1. 가설로 시작

  • 단순히 "무슨 일이 일어나는지 보자"가 아닙니다.
  • 결과에 대한 구체적 예측이 있어야 합니다.
  • 추론이나 데이터에 기반해야 합니다.

2. 한 가지만 테스트

  • 테스트당 변수 하나
  • 그렇지 않으면 무엇이 효과를 냈는지 알 수 없습니다.

3. 통계적 엄격성

  • 표본 크기를 미리 정합니다.
  • 중간에 엿보고 일찍 중단하지 않습니다.
  • 방법론에 커밋합니다.

4. 중요한 것을 측정

  • 1차 지표는 사업 가치와 연결합니다.
  • 2차 지표는 맥락을 설명합니다.
  • guardrail 지표로 피해를 막습니다.

가설 프레임워크

구조

[관찰/데이터] 때문에,
우리는 [변경]이
[대상 독자]에게
[예상 결과]를 만들 것이라고 믿습니다.
[지표]가 나타나면 이것이 맞다고 판단합니다.

예시

약함: "버튼 색을 바꾸면 클릭이 늘 수도 있습니다."

강함: "사용자가 CTA를 찾기 어렵다고 보고했고(heatmap과 feedback 기준), 버튼을 더 크게 만들고 대비 색을 사용하면 신규 방문자의 CTA 클릭이 15% 이상 증가할 것이라고 믿습니다. 페이지 조회에서 signup 시작까지의 클릭률을 측정합니다."


테스트 유형

유형설명필요한 traffic
A/B두 버전, 단일 변경보통
A/B/n여러 variant더 높음
MVT여러 변경의 조합매우 높음
Split URLvariant별 다른 URL보통

표본 크기

빠른 참조

Baseline10% Lift20% Lift50% Lift
1%variant당 150kvariant당 39kvariant당 6k
3%variant당 47kvariant당 12kvariant당 2k
5%variant당 27kvariant당 7kvariant당 1.2k
10%variant당 12kvariant당 3kvariant당 550

계산기:

  • Evan Miller's
  • Optimizely's

자세한 표본 크기 표와 기간 계산: references/sample-size-guide.md를 봅니다.


지표 선택

1차 지표

  • 가장 중요한 단일 지표
  • 가설과 직접 연결됨
  • 테스트 판정을 내릴 때 사용할 지표

2차 지표

  • 1차 지표 해석을 지원
  • 변경이 왜/어떻게 작동했는지 설명

Guardrail 지표

  • 나빠지면 안 되는 항목
  • 유의미하게 부정적이면 테스트 중단

예시: 가격 페이지 테스트

  • 1차: 플랜 선택률
  • 2차: 페이지 체류 시간, 플랜 분포
  • Guardrail: 지원 티켓, 환불률

Variant 설계

바꿀 수 있는 것

범주예시
헤드라인/문안메시지 각도, 가치 제안, 구체성, 어조
시각 디자인layout, color, images, hierarchy
CTA버튼 문안, 크기, 위치, 개수
콘텐츠포함 정보, 순서, 양, social proof

모범 사례

  • 의미 있는 단일 변경
  • 차이를 만들 만큼 충분히 큼
  • 가설에 충실함

Traffic 배분

접근분할사용할 때
표준50/50A/B 기본값
보수적90/10, 80/20나쁜 variant 위험 제한
점진적 확대작게 시작해 늘림기술 위험 완화

고려 사항:

  • 일관성: 재방문 사용자는 같은 variant를 봅니다.
  • 시간대/요일 전반에 균형 있게 노출합니다.

구현

Client-Side

  • JavaScript가 load 후 페이지를 수정합니다.
  • 빠르게 구현할 수 있지만 깜빡임이 생길 수 있습니다.
  • 도구: PostHog, Optimizely, VWO

Server-Side

  • render 전에 variant가 결정됩니다.
  • 깜빡임이 없지만 개발 작업이 필요합니다.
  • 도구: PostHog, LaunchDarkly, Split

테스트 실행

출시 전 checklist

  • 가설 문서화
  • 1차 지표 정의
  • 표본 크기 계산
  • variant가 올바르게 구현됨
  • tracking 검증
  • 모든 variant QA 완료

테스트 중

해야 할 것:

  • 기술 문제 모니터링
  • 세그먼트 품질 확인
  • 외부 요인 문서화

피할 것:

  • 결과를 엿보고 일찍 중단
  • variant 변경
  • 새 출처의 traffic 추가

중간 엿보기 문제

표본 크기에 도달하기 전에 결과를 보고 일찍 중단하면 false positive와 잘못된 의사결정으로 이어집니다. 표본 크기에 사전 커밋하고 과정을 신뢰합니다.


결과 분석

통계적 유의성

  • 95% confidence = p-value < 0.05
  • 결과가 무작위일 확률이 5% 미만이라는 뜻
  • 보장은 아니며 기준선일 뿐입니다.

분석 checklist

  1. 표본 크기에 도달했나? 아니면 결과는 preliminary입니다.
  2. 통계적으로 유의한가? confidence interval을 확인합니다.
  3. 효과 크기가 의미 있는가? MDE와 예상 영향을 비교합니다.
  4. 2차 지표가 일관적인가? 1차 지표를 뒷받침하나요?
  5. Guardrail 우려가 있는가? 나빠진 것이 있나요?
  6. 세그먼트 차이가 있는가? 모바일 vs desktop? 신규 vs 재방문?

결과 해석

결과결론
유의미한 승자variant 구현
유의미한 패자control 유지, 이유 학습
유의미한 차이 없음더 많은 traffic 또는 더 과감한 테스트 필요
섞인 신호더 깊게 파고들거나 세그먼트 분석

문서화

모든 테스트에 다음을 문서화합니다.

  • 가설
  • variant(스크린샷 포함)
  • 결과(표본, 지표, 유의성)
  • 결정과 학습

템플릿: references/test-templates.md를 봅니다.


흔한 실수

테스트 설계

  • 너무 작은 변경 테스트(감지 불가)
  • 너무 많은 것을 한 번에 테스트(분리 불가)
  • 명확한 가설 없음

실행

  • 일찍 중단
  • 테스트 중간에 변경
  • 구현 확인 누락

분석

  • confidence interval 무시
  • 세그먼트 입맛대로 고르기
  • 결론이 애매한 결과를 과해석

작업별 질문

  1. 현재 전환율은 얼마인가요?
  2. 이 페이지의 traffic은 어느 정도인가요?
  3. 어떤 변경을 고려하고 있으며 이유는 무엇인가요?
  4. 감지할 가치가 있는 최소 개선폭은 얼마인가요?
  5. 테스트에 사용할 수 있는 도구는 무엇인가요?
  6. 이 영역을 이전에 테스트한 적이 있나요?

관련 스킬

  • page-cro: CRO 원칙에 기반한 테스트 아이디어 생성
  • analytics-tracking: 테스트 측정 설정
  • copywriting: variant 문안 작성

참조 문서

표본 크기 가이드

표본 크기와 테스트 기간 계산을 위한 참조입니다.

목차

  • 표본 크기 기본(필수 입력, 의미)
  • 표본 크기 빠른 참조 표
  • 기간 계산기(공식, 예시, 최소 기간 규칙, 최대 기간 가이드라인)
  • 온라인 계산기
  • 여러 variant에 맞춘 조정
  • 흔한 표본 크기 실수
  • 표본 크기 요구가 너무 클 때
  • 순차 테스트
  • 빠른 의사결정 프레임워크

표본 크기 기본

필수 입력

  1. Baseline 전환율: 현재 전환율
  2. Minimum detectable effect (MDE): 감지할 가치가 있는 가장 작은 변화
  3. 통계적 유의성 수준: 보통 95%(α = 0.05)
  4. 통계적 power: 보통 80%(β = 0.20)

의미

Baseline 전환율: 페이지가 5%로 전환한다면 그것이 baseline입니다.

MDE (Minimum Detectable Effect): 감지하고 싶은 가장 작은 개선폭입니다. 다음을 기준으로 정합니다.

  • 사업 영향(5% lift가 의미 있나?)
  • 구현 비용(노력할 가치가 있나?)
  • 현실적 기대(과거 테스트가 무엇을 보여 줬나?)

통계적 유의성(95%): 관찰된 차이가 우연 때문일 확률이 5% 미만이라는 뜻입니다.

통계적 power(80%): MDE 크기의 실제 효과가 있다면, 이를 감지할 확률이 80%라는 뜻입니다.


표본 크기 빠른 참조 표

전환율: 1%

감지할 LiftVariant당 표본총 표본
5% (1% → 1.05%)1,500,0003,000,000
10% (1% → 1.1%)380,000760,000
20% (1% → 1.2%)97,000194,000
50% (1% → 1.5%)16,00032,000
100% (1% → 2%)4,2008,400

전환율: 3%

감지할 LiftVariant당 표본총 표본
5% (3% → 3.15%)480,000960,000
10% (3% → 3.3%)120,000240,000
20% (3% → 3.6%)31,00062,000
50% (3% → 4.5%)5,20010,400
100% (3% → 6%)1,4002,800

전환율: 5%

감지할 LiftVariant당 표본총 표본
5% (5% → 5.25%)280,000560,000
10% (5% → 5.5%)72,000144,000
20% (5% → 6%)18,00036,000
50% (5% → 7.5%)3,1006,200
100% (5% → 10%)8101,620

전환율: 10%

감지할 LiftVariant당 표본총 표본
5% (10% → 10.5%)130,000260,000
10% (10% → 11%)34,00068,000
20% (10% → 12%)8,70017,400
50% (10% → 15%)1,5003,000
100% (10% → 20%)400800

전환율: 20%

감지할 LiftVariant당 표본총 표본
5% (20% → 21%)60,000120,000
10% (20% → 22%)16,00032,000
20% (20% → 24%)4,0008,000
50% (20% → 30%)7001,400
100% (20% → 40%)200400

기간 계산기

공식

Duration (days) = (Sample per variant × Number of variants) / (Daily traffic × % exposed)

예시

시나리오 1: traffic이 많은 페이지

  • 필요: variant당 10,000(variant 2개 = 총 20,000)
  • Daily traffic: 방문자 5,000명
  • 테스트 노출 100%
  • 기간: 20,000 / 5,000 = 4일

시나리오 2: traffic이 중간인 페이지

  • 필요: variant당 30,000(총 60,000)
  • Daily traffic: 방문자 2,000명
  • 노출 100%
  • 기간: 60,000 / 2,000 = 30일

시나리오 3: traffic이 낮고 부분 노출

  • 필요: variant당 15,000(총 30,000)
  • Daily traffic: 방문자 500명
  • 테스트 노출 50%
  • Effective daily: 250
  • 기간: 30,000 / 250 = 120일(너무 김)

최소 기간 규칙

표본 크기가 충분해도 테스트는 최소 다음 기간 동안 실행합니다.

  • 1주 전체: 요일별 변동 포착
  • 비즈니스 사이클 2회: B2B라면 평일 vs 주말 패턴 반영
  • 급여일 통과: e-commerce라면 월초/월말 영향 반영

최대 기간 가이드라인

4-8주보다 오래 테스트하는 것은 피합니다.

  • novelty effect가 사라짐
  • 외부 요인이 개입함
  • 다른 테스트의 opportunity cost 발생

온라인 계산기

추천 도구

Evan Miller's Calculator https://www.evanmiller.org/ab-testing/sample-size.html

  • 단순한 interface
  • 북마크할 가치 있음

Optimizely's Calculator https://www.optimizely.com/sample-size-calculator/

  • 비즈니스 친화적 언어
  • 기간 추정

AB Test Guide Calculator https://www.abtestguide.com/calc/

  • Bayesian option 포함
  • 여러 테스트 유형 지원

VWO Duration Calculator https://vwo.com/tools/ab-test-duration-calculator/

  • 기간 중심
  • 계획에 좋음

여러 variant에 맞춘 조정

variant가 2개보다 많으면(A/B/n 테스트) 더 많은 표본이 필요합니다.

Variant배수
2 (A/B)1x
3 (A/B/C)~1.5x
4 (A/B/C/D)~2x
5+variant 축소 고려

이유: 비교가 많아질수록 false positive 가능성이 커집니다. 비교 대상은 다음과 같습니다.

  • A vs B
  • A vs C
  • B vs C(때때로)

Bonferroni correction을 적용하거나 이를 자동 처리하는 도구를 사용합니다.


흔한 표본 크기 실수

1. power가 부족한 테스트

문제: 현실적인 효과를 감지하기에 표본이 부족함 수정: MDE를 현실적으로 정하고, 더 많은 traffic을 확보하거나 테스트하지 않음

2. power가 과한 테스트

문제: 이미 유의성이 있는데도 표본 크기를 기다림 수정: 사실 괜찮습니다. 표본 크기에 커밋했으니 지킵니다.

3. 잘못된 baseline rate

문제: 계산에 잘못된 전환율 사용 수정: 사이트 전체 평균이 아니라 해당 지표와 페이지의 전환율을 사용합니다.

4. 세그먼트 무시

문제: 전체 traffic으로 계산한 뒤 세그먼트를 분석함 수정: 세그먼트 분석을 계획한다면 가장 작은 세그먼트 기준으로 표본을 계산합니다.

5. 너무 많은 것을 테스트

문제: traffic을 너무 많은 방향으로 나눔 수정: 냉정하게 우선순위를 정하고 동시 테스트 수를 줄입니다.


표본 크기 요구가 너무 클 때

traffic이 충분하지 않을 때의 선택지:

  1. MDE 높이기: 더 큰 효과(20%+ lift)만 감지하기로 수용
  2. 신뢰도 낮추기: 95% 대신 90% 사용(위험하므로 문서화)
  3. variant 줄이기: 가장 유망한 variant만 테스트
  4. traffic 합치기: 여러 유사 페이지에 걸쳐 테스트
  5. 퍼널 상단 테스트: traffic이 더 많은 퍼널 앞단에서 테스트
  6. 테스트하지 않기: 정성 데이터로 의사결정
  7. 더 긴 테스트: 더 긴 기간(몇 주/몇 달)을 수용

순차 테스트

표본 크기에 도달하기 전에 결과를 확인해야 한다면:

무엇인가?

데이터를 여러 번 보는 상황에 맞춰 조정하는 통계 방법입니다.

사용할 때

  • 위험이 큰 변경
  • 나쁜 variant를 일찍 중단해야 함
  • 시간에 민감한 의사결정

지원 도구

  • Optimizely (Stats Accelerator)
  • VWO (SmartStats)
  • PostHog (Bayesian approach)

Tradeoff

  • 일찍 중단할 유연성 증가
  • 표본 크기 요구가 약간 커짐
  • 분석이 더 복잡함

빠른 의사결정 프레임워크

이 테스트를 실행할 수 있나?

Daily traffic to page: _____
Baseline conversion rate: _____
MDE I care about: _____

Sample needed per variant: _____ (from tables above)
Days to run: Sample / Daily traffic = _____

If days > 60: Consider alternatives
If days > 30: Acceptable for high-impact tests
If days < 14: Likely feasible
If days < 7: Easy to run, consider running longer anyway

A/B 테스트 템플릿 참조

실험을 계획, 문서화, 분석하기 위한 템플릿입니다.

목차

  • 테스트 계획 템플릿
  • 결과 문서화 템플릿
  • 테스트 저장소 항목 템플릿
  • 빠른 테스트 brief 템플릿
  • 이해관계자 업데이트 템플릿
  • 실험 우선순위 scorecard
  • 가설 bank 템플릿

테스트 계획 템플릿

# A/B 테스트: [이름]

## 개요
- **Owner**: [이름]
- **Test ID**: [테스트 도구의 ID]
- **Page/Feature**: [테스트 대상]
- **Planned dates**: [시작] - [종료]

## 가설

[관찰/데이터] 때문에,
우리는 [변경]이
[대상 독자]에게
[예상 결과]를 만들 것이라고 믿습니다.
[지표]가 나타나면 이것이 맞다고 판단합니다.

## 테스트 설계

| 요소 | 세부 내용 |
|------|-----------|
| Test type | A/B / A/B/n / MVT |
| Duration | X weeks |
| Sample size | X per variant |
| Traffic allocation | 50/50 |
| Tool | [도구 이름] |
| Implementation | Client-side / Server-side |

## Variant

### Control (A)
[스크린샷]
- 현재 경험
- [현재 상태의 핵심 세부 내용]

### Variant (B)
[스크린샷 또는 mockup]
- [구체적 변경 #1]
- [구체적 변경 #2]
- Rationale: [왜 이것이 이길 것이라고 생각하는지]

## 지표

### 1차
- **Metric**: [지표 이름]
- **Definition**: [계산 방식]
- **Current baseline**: [X%]
- **Minimum detectable effect**: [X%]

### 2차
- [지표 1]: [알려 주는 것]
- [지표 2]: [알려 주는 것]
- [지표 3]: [알려 주는 것]

### Guardrails
- [나빠지면 안 되는 지표]
- [다른 안전 지표]

## 세그먼트 분석 계획
- Mobile vs. desktop
- New vs. returning visitors
- 유입 출처
- [기타 관련 세그먼트]

## 성공 기준
- Winner: [1차 지표가 95% confidence로 X% 개선]
- Loser: [1차 지표가 유의미하게 감소]
- Inconclusive: [유의미한 결과가 없을 때 할 일]

## 출시 전 checklist
- [ ] 가설 문서화 및 검토 완료
- [ ] 1차 지표 정의 및 추적 가능
- [ ] 표본 크기 계산
- [ ] 테스트 기간 추정
- [ ] variant가 올바르게 구현됨
- [ ] 모든 variant에서 tracking 검증
- [ ] 모든 variant QA 완료
- [ ] 이해관계자에게 알림
- [ ] 분석 날짜 calendar hold

결과 문서화 템플릿

# A/B 테스트 결과: [이름]

## 요약
| 요소 | 값 |
|------|----|
| Test ID | [ID] |
| Dates | [시작] - [종료] |
| Duration | X days |
| Result | Winner / Loser / Inconclusive |
| Decision | [무엇을 할지] |

## 가설(리마인더)
[테스트 계획에서 복사]

## 결과

### 표본 크기
| Variant | Target | Actual | target 대비 % |
|---------|--------|--------|---------------|
| Control | X | Y | Z% |
| Variant | X | Y | Z% |

### 1차 지표: [지표 이름]
| Variant | Value | 95% CI | vs. Control |
|---------|-------|--------|-------------|
| Control | X% | [X%, Y%] | — |
| Variant | X% | [X%, Y%] | +X% |

**통계적 유의성**: p = X.XX (95% = sig / not sig)
**실무적 유의성**: [이 lift가 사업에 의미 있는가?]

### 2차 지표

| Metric | Control | Variant | Change | Significant? |
|--------|---------|---------|--------|--------------|
| [지표 1] | X | Y | +Z% | Yes/No |
| [지표 2] | X | Y | +Z% | Yes/No |

### Guardrail 지표

| Metric | Control | Variant | Change | Concern? |
|--------|---------|---------|--------|----------|
| [지표 1] | X | Y | +Z% | Yes/No |

### 세그먼트 분석

**Mobile vs. Desktop**
| Segment | Control | Variant | Lift |
|---------|---------|---------|------|
| Mobile | X% | Y% | +Z% |
| Desktop | X% | Y% | +Z% |

**New vs. Returning**
| Segment | Control | Variant | Lift |
|---------|---------|---------|------|
| New | X% | Y% | +Z% |
| Returning | X% | Y% | +Z% |

## 해석

### 무슨 일이 일어났나?
[결과를 쉬운 말로 설명]

### 왜 이런 일이 일어났다고 보는가?
[분석과 추론]

### 주의 사항
[제약, 외부 요인, 우려]

## 결정

**Winner**: [Control / Variant]

**Action**: [variant 구현 / control 유지 / 재테스트]

**Timeline**: [변경 구현 시점]

## 학습

### 배운 점
- [핵심 인사이트 1]
- [핵심 인사이트 2]

### 다음에 테스트할 것
- [후속 테스트 아이디어 1]
- [후속 테스트 아이디어 2]

### 영향
- **Projected lift**: [Y 지표에서 X% 개선]
- **Business impact**: [매출, 전환 등]

테스트 저장소 항목 템플릿

모든 테스트를 중앙 위치에서 추적할 때:

| Test ID | Name | Page | Dates | Primary Metric | Result | Lift | Link |
|---------|------|------|-------|----------------|--------|------|------|
| 001 | Hero headline test | Homepage | 1/1-1/15 | CTR | Winner | +12% | [Link] |
| 002 | Pricing table layout | Pricing | 1/10-1/31 | Plan selection | Loser | -5% | [Link] |
| 003 | Signup form fields | Signup | 2/1-2/14 | Completion | Inconclusive | +2% | [Link] |

빠른 테스트 brief 템플릿

전체 문서화가 필요 없는 단순 테스트용:

## [테스트 이름]

**What**: [한 문장 설명]
**Why**: [한 문장 가설]
**Metric**: [1차 지표]
**Duration**: [X weeks]
**Result**: [TBD / Winner / Loser / Inconclusive]
**Learnings**: [핵심 takeaway]

이해관계자 업데이트 템플릿

## A/B 테스트 업데이트: [이름]

**Status**: Running / Complete
**Days remaining**: X (또는 complete)
**Current sample**: target의 X%

### 예비 관찰
[보고 있는 내용 - 아직 결정하지 않음]

### 다음 단계
[다음에 일어날 일]

### Timeline
- [날짜]: 분석 완료
- [날짜]: 결정과 추천
- [날짜]: 구현(winner인 경우)

실험 우선순위 scorecard

어떤 테스트를 실행할지 결정할 때:

요인가중치Test ATest BTest C
잠재 영향30%
가설 신뢰도25%
구현 용이성20%
틀렸을 때 위험15%
전략 정렬10%
Total

Scoring: 1-5 (5 = best)


가설 bank 템플릿

테스트 아이디어를 모을 때:

| ID | Page/Area | Observation | Hypothesis | Potential Impact | Status |
|----|-----------|-------------|------------|------------------|--------|
| H1 | Homepage | Low scroll depth | Shorter hero will increase scroll | High | Testing |
| H2 | Pricing | Users compare plans | Comparison table will help | Medium | Backlog |
| H3 | Signup | Drop-off at email | Social login will increase completion | Medium | Backlog |
품질 테스트 완료 - 테스트 7개, 검증된 어설션 44개
ElasticFlow

AI 기반 워크플로 자동화로 비즈니스를 혁신하세요. 모든 엔터프라이즈 요구를 위한 통합 플랫폼.

팔로우

플랫폼

  • 기능
  • 장점
  • 사용 사례
  • 워크플로 라이브러리

사용 사례

  • 영업
  • 마케팅
  • 재무·법무
  • 인사

카탈로그

  • 부서
  • 역할
  • 도구
  • 지표
  • 플랫폼

성장

  • 추천 프로그램
  • 파트너

법무

  • 개인정보 처리방침
  • 서비스 약관
  • 쿠키 정책
  • 허용 사용
  • 보안
  • SLA

© 2026 ElasticFlow. 모든 권리 보유.