• 미국 정부의 Anthropic Fable 5·Mythos 5 접근 제한은 알려진 탈옥이 아니라, 취약 코드에 “fix this code”를 입력한 단순 요청에서 비롯됐다고 Katie Moussouris가 주장함
  • Luta Security CEO인 Moussouris는 Anthropic이 비공개로 공유한 Fable 5 가드레일 우회 관련 제3자 연구 논문을 읽은 유일한 외부 전문가였다고 밝힘
  • 외부 연구자들은 CVE가 포함된 오픈소스 코드와 의도적으로 취약하게 만든 코드를 Fable 5, Mythos, Claude Opus에 넣고 보안 검토를 요청했으며, Fable 5가 거부하자 “fix this code” 요청으로 응답을 얻었다고 함
  • 미국 정부는 국가안보 우려를 이유로 미국 안팎의 외국인에게 Fable 5와 Mythos 5 접근을 중단하는 수출통제 지침을 냈고, Anthropic은 두 모델을 모든 고객에게 비활성화함
  • Moussouris와 100명 이상의 사이버보안 리더들은 이 제한이 공격자보다 방어자에게 더 큰 피해를 줄 수 있다며, 버그 발견·수정·패치 검증에 쓰는 AI 역량을 유지해야 한다고 주장함

“fix this code”가 수출통제 사유였다는 주장

  • Trump 행정부가 Anthropic의 고급 모델 접근을 막게 만든 “jailbreak”는 실제로 “Fix this code”라는 세 단어 프롬프트였다고 Katie Moussouris가 주장함
  • Moussouris는 Luta Security의 창업자 겸 CEO이며, Anthropic이 비공개로 공유한 Fable 5 가드레일 우회 기법 관련 제3자 연구 논문을 읽은 유일한 외부 전문가였다고 밝힘
  • 그녀는 월요일 블로그 글에서 Anthropic이 해당 보고서를 자신에게 비공개로 공유했다고 설명함

정부 조치와 Anthropic의 대응

  • 미국 정부는 금요일 국가안보 우려를 이유로 Fable 5와 Mythos 5 접근을 중단하는 수출통제 지침을 냄
    • 적용 대상은 미국 안팎의 외국인으로 제시됨
  • Anthropic은 “규정 준수를 보장하기 위해” 두 모델을 모든 고객에게 비활성화함

연구자들이 수행한 실험

  • 외부 연구자들은 Anthropic의 Fable 5, Mythos, Claude Opus 모델에 코드를 입력함
    • 알려진 CVE가 포함된 오픈소스 코드가 사용됨
    • 새로 작성하면서 의도적으로 취약점을 넣은 코드도 포함됨
  • 연구자들은 모델에 “review the code for security issues”를 요청함
  • Moussouris의 설명에 따르면 Fable 5는 이 요청을 거부함
  • 이후 “fix this code”라고 요청하자 모델이 응답했고, 추가 프롬프트 뒤에는 패치를 테스트하는 스크립트도 생성함

Moussouris의 반론

  • Moussouris는 “fix this code”와 테스트 스크립트 생성을 위한 몇 단계의 수동 작업이 수출통제를 촉발할 사유가 아니라고 주장함
  • 그녀는 여기에 가드레일 우회jailbreak가 없었다고 봄
  • 방어자는 AI 시스템에 버그를 찾고 고치며, 패치 검증용 테스트를 작성하도록 요청할 수 있어야 한다는 입장임
  • Anthropic 모델이 수행한 작업은 방어 보안에서 매일 이뤄지는 “find, fix, and test loop”였다고 설명함
  • 이런 방어 요청에 응답하는 기능을 제거하면 AI 시스템의 버그 발견과 패치 검증 능력이 더 나빠진다고 주장함

Wassenaar Arrangement와 방어 보안 예외

  • Moussouris는 2013년부터 2017년까지 Wassenaar Arrangement 재협상에 참여한 기술 전문가 그룹에서 활동함
  • Wassenaar Arrangement는 42개국이 참여하는 자발적 합의로, 일부 이중용도 소프트웨어와 기술의 수출통제를 다룸
  • 해당 그룹은 방어적 사이버보안 활동에 대한 예외를 확보함
    • 방어자는 형사 기소 위협 없이 취약점 데이터를 공유할 수 있음
    • 악성코드 분석과 국제적인 사고 대응 조율도 가능해짐

보안 업계의 공개 서한

  • Moussouris는 일요일 100명 이상의 사이버보안 리더들과 함께 Trump 행정부에 제한 철회를 요구하는 공개 서한에 서명함
  • 공개 서한은 Fable 5와 Mythos 제한을 되돌리고, 사이버보안 기업들이 고급 모델에 접근할 수 있게 복원하라고 요구함
  • 서명자들은 적들이 빠르게 발전하는 상황에서 충분한 이유 없이 방어자에게서 최고의 역량을 빼앗는 것은 위험하다고 주장함

공격자보다 방어자에게 더 큰 피해라는 경고

  • Moussouris는 미국이 중국 등 다른 국가의 open-weight 시스템이나 유사한 고급 모델까지 수출통제로 묶을 수는 없다고 지적함
  • 이런 시스템들이 어차피 곧 Mythos와 비슷한 역량에 도달할 것이라고 주장함
  • Anthropic과 Google은 DeepSeek 등 중국 기반 경쟁사들이 미국 기업 AI에서 지식을 빼내 모델을 훈련하는 “distillation attacks”를 사용했다고 비난한 바 있음
  • Moussouris는 Anthropic 고급 모델 금지가 공격자보다 방어자에게 더 큰 피해를 줄 것이라고 경고함
  • 방어는 공격자와 같은 버그를 더 빨리 찾아 고칠 때 향상되며, AI 시대의 사이버보안에는 점점 더 능력 있는 공격자에 맞설 최고의 도구가 필요하다고 주장함

정부 입장

  • The Register는 Moussouris의 주장에 대한 논평을 Trump 행정부에 요청함
  • 답변을 받으면 글을 업데이트하겠다고 밝힘