-
Show GN: Claude Code, Codex 스킬이 잘 작동하는지 rubric evaluator로 검증 해보기
<p>내가 작성한 Claude Code, Codex의 스킬이 적절하게 작동하는지, 원하는대로 작동하는지, 불필요하게 만든 것이 아닌지 테스트할 수 있는 방법이 최근에 <a href="https://toss.tech/article/skill-quality-rubric">토스 기술 블로그</a>에 올라왔는데요<br /> 이 …
-
Jqwik 반AI 사건
Jqwik 반AI 사건 | GeekNews
<ul> <li>Jqwik은 JVM에서 <strong>속성 기반 테스트</strong>를 수행하는 테스트 엔진이며, 유지관리자가 <strong>AI 코딩 에이전트 사용에 반대</strong>하는 로그 문구를 추가하며 논란이 커짐</li> <li>유지관리자는 2023년부터 GenAI 기여를 금지하고 <code>.noai</…
-
'배틀쉽' 게임을 활용해 AI 에이전트에게 더 나은 질문법 가르치기
'배틀쉽' 게임을 활용해 AI 에이전트에게 더 나은 질문법 가르치기 | GeekNews
<ul> <li>고전 추리 게임 <strong>배틀쉽</strong>을 자연어 질문·응답 형태로 재구성해, 불확실한 환경에서 AI 에이전트가 <strong>좋은 질문</strong>을 던지는 능력을 측정하는 테스트베드 구축</li> <li>한 명이 숨은 함선 위치를 묻는 <strong>선장(captain)</strong>…