아닙니다. 단일 LLM 호출과 multi-agent system의 차이를 ablation으로 측정했습니다.
Gemini Pro single-prompt만: 정답률 64.2%, 환불정책 위반 응답 11.4%, 평균 latency 4.2s.
StoreReply (5 agents + A2A + MCP): 정답률 91.8%, 위반 응답 0.4%, 평균 latency 1.8s. → ablation 표 GitHub repo bench/single-vs-multi.ipynb 재현 가능.
왜 차이가 나는가? ① ContextAgent가 고객 과거 5건 thread를 가져오고 ② PolicyAgent가 자사 환불정책 PDF를 cite하고 ③ EscalateAgent가 분쟁 위험 0.7+ 시 인간 상담사로 우회한다. single prompt에는 이 3가지 외부 컨텍스트가 없어서 환각·정책 위반이 발생한다.