#LLM

2개의 포스트

AI 에이전트를 지속 가능하게 평가하려면 감상평이 아니라 사람이 만든 골든셋과 행동 정답지가 필요하다는 관점을 정리합니다.

분류 에이전트의 reasoning 필드를 계기로, Chain of Thought가 지금도 정확도 도구로 유효한지와 관측성 도구로 어떤 의미가 있는지 정리합니다.