-
Claude 3.5 Sonnet으로 SWE-bench Verified의 기준을 높이다
Raising the bar on SWE-bench Verified with Claude 3.5 Sonnet Jan 06, 2025
-
AI 에이전트 평가(Evals) 신비 벗기기
Demystifying evals for AI agents Jan 09, 2026