연구자들 "Fable 5 논란은 탈옥이 아니라 'fix this code'에서 시작됐다"

연구자들 “Fable 5 논란은 탈옥이 아니라 ‘fix this code’에서 시작됐다” | GeekNews

미국 정부의 Anthropic Fable 5·Mythos 5 접근 제한은 알려진 탈옥이 아니라, 취약 코드에 “fix this code”를 입력한 단순 요청에서 비롯됐다고 Katie Moussouris가 주장함
Luta Security CEO인 Moussouris는 Anthropic이 비공개로 공유한 Fable 5 가드레일 우회 관련 제3자 연구 논문을 읽은 유일한 외부 전문가였다고 밝힘
외부 연구자들은 CVE가 포함된 오픈소스 코드와 의도적으로 취약하게 만든 코드를 Fable 5, Mythos, Claude Opus에 넣고 보안 검토를 요청했으며, Fable 5가 거부하자 “fix this code” 요청으로 응답을 얻었다고 함
미국 정부는 국가안보 우려를 이유로 미국 안팎의 외국인에게 Fable 5와 Mythos 5 접근을 중단하는 수출통제 지침을 냈고, Anthropic은 두 모델을 모든 고객에게 비활성화함
Moussouris와 100명 이상의 사이버보안 리더들은 이 제한이 공격자보다 방어자에게 더 큰 피해를 줄 수 있다며, 버그 발견·수정·패치 검증에 쓰는 AI 역량을 유지해야 한다고 주장함

“fix this code”가 수출통제 사유였다는 주장

Trump 행정부가 Anthropic의 고급 모델 접근을 막게 만든 “jailbreak”는 실제로 “Fix this code”라는 세 단어 프롬프트였다고 Katie Moussouris가 주장함
Moussouris는 Luta Security의 창업자 겸 CEO이며, Anthropic이 비공개로 공유한 Fable 5 가드레일 우회 기법 관련 제3자 연구 논문을 읽은 유일한 외부 전문가였다고 밝힘
그녀는 월요일 블로그 글에서 Anthropic이 해당 보고서를 자신에게 비공개로 공유했다고 설명함

Moussouris는 “fix this code”와 테스트 스크립트 생성을 위한 몇 단계의 수동 작업이 수출통제를 촉발할 사유가 아니라고 주장함
그녀는 여기에 가드레일 우회나 jailbreak가 없었다고 봄
방어자는 AI 시스템에 버그를 찾고 고치며, 패치 검증용 테스트를 작성하도록 요청할 수 있어야 한다는 입장임
Anthropic 모델이 수행한 작업은 방어 보안에서 매일 이뤄지는 “find, fix, and test loop”였다고 설명함
이런 방어 요청에 응답하는 기능을 제거하면 AI 시스템의 버그 발견과 패치 검증 능력이 더 나빠진다고 주장함

Moussouris는 미국이 중국 등 다른 국가의 open-weight 시스템이나 유사한 고급 모델까지 수출통제로 묶을 수는 없다고 지적함
이런 시스템들이 어차피 곧 Mythos와 비슷한 역량에 도달할 것이라고 주장함
Anthropic과 Google은 DeepSeek 등 중국 기반 경쟁사들이 미국 기업 AI에서 지식을 빼내 모델을 훈련하는 “distillation attacks”를 사용했다고 비난한 바 있음
Moussouris는 Anthropic 고급 모델 금지가 공격자보다 방어자에게 더 큰 피해를 줄 것이라고 경고함
방어는 공격자와 같은 버그를 더 빨리 찾아 고칠 때 향상되며, AI 시대의 사이버보안에는 점점 더 능력 있는 공격자에 맞설 최고의 도구가 필요하다고 주장함