2026-04-13 · 4 분 분량

좋은 시뮬레이션의 조건 — 배경자료와 질문 설계 가이드

AI 여론 시뮬레이션의 결과 품질은 입력 품질에 비례합니다. 좋은 배경자료의 3원칙, 피해야 할 입력 5가지, 질문 설계 원칙, 자주 하는 실수까지 실전 체크리스트로 정리했습니다.

AI 여론 시뮬레이션시뮬레이션 입력질문 설계실전 가이드Starling 체크리스트

시뮬레이션을 몇 번 돌려본 뒤 가장 자주 듣는 이야기가 있습니다. "왜 결과가 이상하게 나오죠?"

거의 모든 경우 답은 같습니다. 입력이 부족하거나 오염되었기 때문입니다. 이 글은 그 입력을 어떻게 설계하는지 — 배경자료, 질문, 인구 구성 — 를 정리합니다. 이론보다 체크리스트에 가깝게 읽히도록 썼습니다.

1. 좋은 배경자료의 3원칙

원칙 1 — 사실만 제공합니다

좋은 배경자료는 검증 가능한 사실만을 담습니다. 제품 스펙, 가격, 발표일, 경쟁사 정보, 공개된 시장 데이터. 거기까지가 전부입니다.

판매량·사전예약 수치·출시 후 리뷰·여론조사 결과는 결과를 유출합니다. 모델이 답을 보고 답을 만들면 시뮬레이션은 단순 재생산이 됩니다. 검증 가치가 사라집니다.

원칙 2 — 인구 구성을 비율까지 명시합니다

"일반 소비자 100명"은 나쁜 설정입니다. 모델이 "평균 소비자"라는 흐릿한 추상 개념을 만들어냅니다. 구체적으로 쪼개야 합니다.

좋은 예시:

1년차 (S24 사용자): 얼리어답터 ~15%
2년차 (S23 사용자): 교체 고민 중 ~30%
3년차 (S22 사용자): 교체 시기 ~30%
4년 이상: 성능 저하 체감 ~25%

연령·소득·지역·관심사까지 비율이 명시되면 시뮬레이션이 훨씬 정확해집니다. 타겟 대표성은 결국 비율의 문제입니다.

원칙 3 — 비교 컨텍스트를 충분히 줍니다

소비자는 진공 상태에서 결정하지 않습니다. 경쟁 제품의 스펙·가격을 함께 제공해야 에이전트들이 현실적으로 비교합니다. 정책 시뮬레이션이라면 반대 진영 공약을, 광고 시뮬레이션이라면 경쟁사의 동시 캠페인을 같이 넣으세요.

2. 피해야 할 입력 5가지

판매량·사전예약·가입자 수 — 결과를 유출합니다. 모델이 "이미 잘 팔리는 제품"으로 인식해 과장된 긍정 반응이 나옵니다.
출시 후 리뷰·커뮤니티 반응 — 그 반응을 그대로 재생산합니다.
경쟁사에 대한 주관적 평가 — "X는 과대평가됐다" 같은 표현은 에이전트에게 편향을 주입합니다.
여론조사 수치 — 여론 시뮬레이션에서 특히 치명적입니다. 존재 자체가 답을 알려줍니다.
결론을 암시하는 서술 — "이 제품은 혁신적이다", "이 정책은 반발이 클 것이다" 같은 문장은 결과를 오염시킵니다. 사실과 평가를 분리하세요.

요약 — "시뮬레이션 후에 알게 될 정보"는 절대 입력하지 않습니다.

3. 질문 설계 원칙

단일 질문, 명확한 범위

한 시뮬레이션은 한 질문에 답합니다. "이 제품 반응과 가격 민감도와 경쟁 포지셔닝을 한 번에" 묻고 싶은 유혹이 있지만, 결과가 흐려집니다. 질문 하나씩 쪼개서 돌리는 게 더 정확합니다.

카테고리가 질문을 결정합니다

Starling은 카테고리별로 시뮬레이션 로직이 다릅니다. 질문의 성격에 맞는 카테고리를 먼저 고르고 그 카테고리가 묻는 방식으로 질문을 재구성하세요.

마케팅 반응: "이 제품에 대한 소비자 반응은 어떠한가?"
여론 분석: "이 이슈에 대한 여론 분포는 어떠한가?"
정책 토론: "이 정책의 찬반 구도는 어떠한가?"
위기 대응: "이 발표 이후 여론이 어떻게 흐를 것인가?"
일반: "이 결정에 대해 주변이 어떻게 반응할 것인가?"

좋은 질문 vs 나쁜 질문

❌ 나쁨: "이 제품 좋을까요?" ✅ 좋음: "Galaxy S25에 대한 소비자 반응은 어떠한가? 특히 비판받을 지점은 무엇인가?"

❌ 나쁨: "이 정책 여론 어때요?" ✅ 좋음: "주 4일제 도입 발표에 대한 연령대별·소득층별 여론 분포는 어떠한가? 찬반의 핵심 쟁점은 무엇인가?"

맥락을 좁히고, 보고 싶은 관점을 명시하는 것이 핵심입니다.

4. 실수 TOP 5

실수 1 — "평균 소비자"로 두기

인구 구성을 명시하지 않으면 모델은 학습 데이터 평균에 가까운 흐릿한 집단을 만듭니다. 반드시 구체적 비율을 제공하세요.

실수 2 — 한 번만 돌리고 믿기

LLM 기반 시뮬레이션은 확률적입니다. 단 한 번의 결과는 신뢰할 수 없습니다. 3회 돌려서 비교하는 것이 최소 원칙입니다. 3회가 크게 다르면 입력이 부실하거나 질문이 모호한 것입니다.

실수 3 — 결과를 곧이곧대로 믿기

T2B(구매 의향 상위) 절대값은 실제 구매율과 다릅니다. 설문의 over-claim 경향이 시뮬레이션에도 일부 존재합니다. 방향성(T2B > B2B)에 집중하고 절대값은 실제 구매율의 50~70% 수준으로 보정해 보세요.

실수 4 — 감각적 질문을 던지기

"이 음료의 맛 평가는?" "이 향수의 향 선호도는?" 같은 감각 기반 질문은 AI가 재현하지 못합니다. 감각 영역은 실제 제품 체험이 필요한 영역이며, FGI·사용 테스트의 몫입니다.

실수 5 — 학습 컷오프 이후 사건 입력 누락

태국 2026 총선처럼 모델의 학습 데이터 컷오프 이후 발생한 이벤트는 모델이 맥락을 모릅니다. 이런 경우 사건 타임라인을 배경자료에 충분히 제공해야 합니다. 반대로, 학습 데이터에 이미 들어간 사건은 "이미 답을 아는" 상태일 수 있으므로 검증 목적이라면 컷오프 이후 이벤트를 택하세요.

5. 시작 전 체크리스트

시뮬레이션을 돌리기 전 아래 항목을 점검하세요.

배경자료에 출시 후 정보(판매량·리뷰·여론조사)가 포함되어 있지 않은가
인구 구성이 구체적 비율로 명시되어 있는가
비교 대상(경쟁사·대안)이 포함되어 있는가
주관적 평가 문장("X는 훌륭하다")이 섞여 있지 않은가
질문이 한 가지 주제에만 집중되어 있는가
카테고리 선택이 질문의 성격과 맞는가
감각적 반응(맛·향·촉감)을 묻고 있지는 않은가
최소 3회 반복 실행을 계획하고 있는가
모델 학습 컷오프와 시뮬레이션 이벤트의 시점을 확인했는가

위 9개 중 하나라도 체크되지 않는다면, 돌리기 전에 입력을 보강하시기 바랍니다. 입력에서 아낀 10분이 결과 해석에서 1시간을 잡아먹습니다.

결론

시뮬레이션 결과가 이상하게 나올 때 90%는 입력의 문제입니다. 나머지 10%는 카테고리 선택 또는 질문 설계의 문제입니다. 모델 자체의 한계가 문제인 경우는 생각보다 드뭅니다.

좋은 입력은 다음과 같이 요약됩니다.

사실만 제공 (결과 유출 금지)
비율로 인구 구성 명시
비교 대상 충분히 포함
단일 질문, 카테고리에 맞춤
3회 반복 필수

직접 돌려보고 싶으시다면 무료 체험으로 가입 즉시 크레딧이 충전됩니다.

Starling으로 AI 소비자 조사를 시작해보세요.

무료로 시작하기