AI 에이전트 평가는 결국 골든셋으로 돌아온다AI 에이전트를 지속 가능하게 평가하려면 감상평이 아니라 사람이 만든 골든셋과 행동 정답지가 필요하다는 관점을 정리합니다.2026년 5월 24일·26 min read·AI
Chain of Thought는 여전히 유효한가?분류 에이전트의 reasoning 필드를 계기로, Chain of Thought가 지금도 정확도 도구로 유효한지와 관측성 도구로 어떤 의미가 있는지 정리합니다.2026년 5월 10일·8 min read·AI