AI 에이전트 평가는 결국 골든셋으로 돌아온다AI 에이전트를 지속 가능하게 평가하려면 감상평이 아니라 사람이 만든 골든셋과 행동 정답지가 필요하다는 관점을 정리합니다.2026년 5월 24일·26 min read·AI