2026-04-04 · 5 분 분량
AI 에이전트는 어떻게 사람처럼 의견을 바꾸는가 — Starling의 작동 원리
입력부터 출력까지 5단계로 풀어보는 AI 여론 시뮬레이션의 작동 방식. AI 인격 생성, 소셜미디어 환경에서의 여러 라운드 상호작용, 의견 흐름 추적, 그리고 정확도 검증까지.
지난 글에서는 "수십 명의 AI에게 먼저 보여주면 결과를 미리 알 수 있다"는 가능성을 다뤘습니다(1편 보기). 자연스러운 다음 질문은 "그게 정말로 어떻게 가능한가"입니다.
이번 글은 AI 여론 시뮬레이션의 작동 원리를 단계별로 설명합니다. 입력에서 출력까지의 흐름과, 왜 이 구조가 단순한 설문 자동화와 본질적으로 다른지 보여드립니다.
1. 입력 — 무엇을 주는가
시뮬레이션을 시작하려면 두 가지가 필요합니다.
- 주제와 컨텍스트 — 무엇에 대한 반응을 보고 싶은지
- 인구 구성 — 누구의 반응을 보고 싶은지
예를 들어 갤럭시 S25 출시 전 시뮬레이션의 입력은 이렇게 구성됩니다.
■ 주제
- 라인업: S25 ($799), S25+ ($999), S25 Ultra ($1,299~)
- S24 → S25 스펙 변화 (배터리 동일, 칩셋 +37%)
- 경쟁사 스펙: iPhone 16 Pro Max, OnePlus 13, Xiaomi 15 Ultra
■ 인구 구성
- 1년차 (S24 사용자): 얼리어답터 ~15%
- 2년차 (S23 사용자): 교체 고민 ~30%
- 3년차 (S22 사용자): 교체 시기 ~30%
- 4년 이상: 성능 저하 ~25%
■ 시뮬레이션 질문
"Galaxy S25에 대한 소비자 반응은 어떠한가?"
여기서 핵심은 "결과를 알려주는 정보는 절대 입력하지 않는다"는 점입니다. 사전예약 수치, 판매량, 리뷰는 모델을 오염시킵니다. 모델이 답을 보고 답을 만들면 시뮬레이션은 단순 재생산이 됩니다. 사실 정보만으로 결과를 추론해야 검증 가능한 시뮬레이션이 됩니다.
2. AI 인격을 만든다는 것
각 에이전트는 가상의 한 사람입니다. Starling은 입력된 인구 구성을 바탕으로 N명의 에이전트를 생성합니다. 각 에이전트는 다음 정보를 가집니다.
- 인구통계 — 나이, 성별, 직업, 거주지, 소득
- 성격 — 외향성, 성실성, 개방성 등 Big Five(5요인) 모델 기반
- 배경 — 가치관, 관심사, 과거 경험 단서
이 정보가 모여 "이 사람이라면 어떻게 반응할지"의 기반이 됩니다. 같은 정보가 두 명에게 입력되어도 성격·배경에 따라 반응이 다릅니다. 이것이 "한 명의 평균"이 아니라 "다양한 인격의 분포"를 만드는 핵심입니다.
수십 명의 에이전트는 수십 명의 다른 사람입니다. 어떤 에이전트는 새로운 것에 적극적이고, 어떤 에이전트는 회의적입니다. 어떤 에이전트는 가격에 민감하고, 어떤 에이전트는 브랜드 충성도가 높습니다. 이 다양성이 여론을 만듭니다.
3. 소셜미디어 환경에서의 여러 라운드 상호작용
여기가 핵심입니다. Starling 에이전트들은 단순히 "질문에 답"하지 않습니다. 그들은 실제 소셜미디어와 비슷한 환경에서 시간을 두고 상호작용합니다.
각 라운드에서 에이전트는 다음을 수행합니다.
- 자신의 의견을 포스트로 게시
- 다른 사람의 포스트를 보고 댓글 작성
- 마음에 드는 사람을 팔로우
- 좋아요로 동조 표현
- 추천 시스템이 새로운 게시물을 노출
라운드가 끝날 때마다 에이전트는 본 것을 통합해 자신의 의견을 갱신합니다. 한 명의 강한 주장에 영향받기도 하고, 같은 그룹의 동조를 보고 자신의 입장이 굳어지기도 합니다.
15라운드를 돈다는 것은 소셜미디어에서 며칠을 보내는 것과 같습니다. 그동안 의견이 형성되고, 진영이 갈라지고, 인플루언서가 등장합니다. 여론이 만들어지는 과정 자체가 시뮬레이션됩니다.
4. 의견 변화 — 단순 집계가 아닌 흐름 추적
설문은 한 시점에 측정한 점수를 집계합니다. Starling은 시간에 따른 의견 흐름을 추적합니다.
추적되는 것:
- 감성 변화 곡선 — 라운드별 긍정/부정 비율의 추이
- 영향력 분포 — 어떤 에이전트의 발언이 가장 많이 확산됐는지
- 에코챔버 형성 — 어떤 그룹이 분리되어 같은 의견을 강화하는지
- 분기점 — 의견이 급격히 변한 라운드와 그 트리거
- 바이럴 경로 — 포스트가 어떻게 퍼졌는지 보여주는 네트워크 그래프
이건 단순히 "사람들이 무엇을 말했는지"가 아니라 "여론이 어떻게 만들어졌는지"의 기록입니다. 같은 결정이라도 어느 진영의 어느 인플루언서가 어느 라운드에 무엇을 말했는지에 따라 결과가 갈라집니다. 그 과정 전체를 봐야 결과를 신뢰할 수 있습니다.
5. 출력 — 무엇을 보여주는가
라운드가 모두 끝나면 다음 결과가 나옵니다.
- 감성 분포 — 긍정/부정/중립의 최종 비율
- 구매 의향 / 지지율 — T2B(확실히/아마 산다) vs B2B(절대/아마 안 산다)
- 핵심 비판·관심 토픽 — 반복적으로 언급된 키워드와 그 강도
- 인플루언서 랭킹 — 영향력 상위 에이전트와 그들의 주장
- 여론 흐름 시각화 — 라운드별 변화 그래프
- 실행 권장사항 — 결과 기반의 다음 행동 제안
이 모든 정보가 한 번의 시뮬레이션으로 나옵니다. 설문 한 건으로는 1~2개밖에 얻을 수 없는 것을 한 번에 받는 셈입니다.
6. 검증 — 정말 정확한가
이론은 그럴듯한데 실제로는 어땠을까요? 두 케이스를 1편보다 자세히 보겠습니다.
Galaxy S25 (2025년 1월)
- 조건 — 25명 에이전트, 15라운드, 3회 반복
- 입력 — 스펙·가격·경쟁사·연령별 교체 주기
- 입력하지 않은 것 — 사전예약 수치, 판매량, 리뷰
결과 (3회 평균):
- 감성 분포 — 긍정 51% / 부정 38% / 중립 11%
- 업계 벤치마크 — 긍정 50~60% / 부정 35~45% (스마트폰 카테고리 내부 분석 기준)
- 범위 내 일치
- 핵심 비판 토픽 5개 — 배터리·충전·S펜·RAM·카메라
- 실제 출시 후 리뷰어/커뮤니티 비판 토픽 — 동일
특히 의미 있는 건 사전 시뮬레이션이 실제 출시 후 제기될 비판 지점을 그대로 짚어냈다는 점입니다. 무엇이 비판받을지를 미리 아는 것은 마케팅 측면에서 가장 가치 있는 출력입니다. 광고 메시지를 어떻게 짤지, 어떤 약점을 미리 해명할지 결정할 수 있게 해줍니다.
태국 2026 총선 (2026년 2월)
- 조건 — 사용 모델의 학습 데이터 컷오프(2024년 11월) 이후 발생한 의회 해산·총선이라 모델이 답을 모름
- 입력 — 국경분쟁 타임라인, 정당 공약
- 입력하지 않은 것 — 여론조사 수치, 선거 결과
결과:
- Starling 1위: 품짜이타이 (실제 1위와 동일)
- Starling 2위: 민중당(People's Party) (실제 2위와 동일)
- 여론조사는 1·2위를 거꾸로 예측했지만 시뮬레이션이 정확히 맞췄음
이게 우연이 아닌 이유는 단순합니다. 여론조사는 "현재 여론이 어디 있는가"를 측정합니다. 시뮬레이션은 "여론이 어디로 흐를 것인가"를 시뮬레이션합니다. 미래를 알고 싶은 결정에는 다른 도구가 필요했던 것입니다.
7. 한계 — 솔직하게 짚는 것들
AI 여론 시뮬레이션은 만능이 아닙니다. 잘 못 하는 것:
- 감각적 반응 — 맛, 향, 촉감처럼 직접 경험해야 알 수 있는 영역은 시뮬레이션 불가능
- 법적 구속력 필요 — 의료기기, 금융 상품 등 규제 분야는 검증된 인간 패널 필요
- 모델 자체의 편향 — LLM이 학습한 데이터의 편중이 결과에 반영될 가능성
- 희소·신생 문화권 — 학습 데이터가 부족한 지역이나 세대는 정확도가 떨어짐
그래서 권장은 "AI 시뮬레이션 단독"이 아니라 "AI 시뮬레이션을 1차 스크리닝으로, 필요하면 다른 방법으로 보강"입니다. 결과의 방향성을 잡고, 결정 비용이 큰 영역에서는 추가 검증을 합니다.
직접 돌려보고 싶으시다면 무료 체험으로 가입 즉시 크레딧이 충전됩니다.
Starling으로 AI 소비자 조사를 시작해보세요.
무료로 시작하기