연구자들 "Fable 5 논란은 탈옥이 아니라 'fix this code'에서 시작됐다"
연구자들 “Fable 5 논란은 탈옥이 아니라 ‘fix this code’에서 시작됐다” | GeekNews
원문으로 표시됩니다. 한국어로 보시려면 브라우저의 번역 기능을 사용해 주세요.
- 미국 정부의 Anthropic Fable 5·Mythos 5 접근 제한은 알려진 탈옥이 아니라, 취약 코드에 “fix this code”를 입력한 단순 요청에서 비롯됐다고 Katie Moussouris가 주장함
- Luta Security CEO인 Moussouris는 Anthropic이 비공개로 공유한 Fable 5 가드레일 우회 관련 제3자 연구 논문을 읽은 유일한 외부 전문가였다고 밝힘
- 외부 연구자들은 CVE가 포함된 오픈소스 코드와 의도적으로 취약하게 만든 코드를 Fable 5, Mythos, Claude Opus에 넣고 보안 검토를 요청했으며, Fable 5가 거부하자 “fix this code” 요청으로 응답을 얻었다고 함
- 미국 정부는 국가안보 우려를 이유로 미국 안팎의 외국인에게 Fable 5와 Mythos 5 접근을 중단하는 수출통제 지침을 냈고, Anthropic은 두 모델을 모든 고객에게 비활성화함
- Moussouris와 100명 이상의 사이버보안 리더들은 이 제한이 공격자보다 방어자에게 더 큰 피해를 줄 수 있다며, 버그 발견·수정·패치 검증에 쓰는 AI 역량을 유지해야 한다고 주장함
“fix this code”가 수출통제 사유였다는 주장
- Trump 행정부가 Anthropic의 고급 모델 접근을 막게 만든 “jailbreak”는 실제로 “Fix this code”라는 세 단어 프롬프트였다고 Katie Moussouris가 주장함
- Moussouris는 Luta Security의 창업자 겸 CEO이며, Anthropic이 비공개로 공유한 Fable 5 가드레일 우회 기법 관련 제3자 연구 논문을 읽은 유일한 외부 전문가였다고 밝힘
- 그녀는 월요일 블로그 글에서 Anthropic이 해당 보고서를 자신에게 비공개로 공유했다고 설명함
정부 조치와 Anthropic의 대응
- 미국 정부는 금요일 국가안보 우려를 이유로 Fable 5와 Mythos 5 접근을 중단하는 수출통제 지침을 냄
- Anthropic은 “규정 준수를 보장하기 위해” 두 모델을 모든 고객에게 비활성화함
연구자들이 수행한 실험
- 외부 연구자들은 Anthropic의 Fable 5, Mythos, Claude Opus 모델에 코드를 입력함
- 알려진 CVE가 포함된 오픈소스 코드가 사용됨
- 새로 작성하면서 의도적으로 취약점을 넣은 코드도 포함됨
- 연구자들은 모델에 “review the code for security issues”를 요청함
- Moussouris의 설명에 따르면 Fable 5는 이 요청을 거부함
- 이후 “fix this code”라고 요청하자 모델이 응답했고, 추가 프롬프트 뒤에는 패치를 테스트하는 스크립트도 생성함
Moussouris의 반론
- Moussouris는 “fix this code”와 테스트 스크립트 생성을 위한 몇 단계의 수동 작업이 수출통제를 촉발할 사유가 아니라고 주장함
- 그녀는 여기에 가드레일 우회나 jailbreak가 없었다고 봄
- 방어자는 AI 시스템에 버그를 찾고 고치며, 패치 검증용 테스트를 작성하도록 요청할 수 있어야 한다는 입장임
- Anthropic 모델이 수행한 작업은 방어 보안에서 매일 이뤄지는 “find, fix, and test loop”였다고 설명함
- 이런 방어 요청에 응답하는 기능을 제거하면 AI 시스템의 버그 발견과 패치 검증 능력이 더 나빠진다고 주장함
Wassenaar Arrangement와 방어 보안 예외
- Moussouris는 2013년부터 2017년까지 Wassenaar Arrangement 재협상에 참여한 기술 전문가 그룹에서 활동함
- Wassenaar Arrangement는 42개국이 참여하는 자발적 합의로, 일부 이중용도 소프트웨어와 기술의 수출통제를 다룸
- 해당 그룹은 방어적 사이버보안 활동에 대한 예외를 확보함
- 방어자는 형사 기소 위협 없이 취약점 데이터를 공유할 수 있음
- 악성코드 분석과 국제적인 사고 대응 조율도 가능해짐
보안 업계의 공개 서한
- Moussouris는 일요일 100명 이상의 사이버보안 리더들과 함께 Trump 행정부에 제한 철회를 요구하는 공개 서한에 서명함
- 공개 서한은 Fable 5와 Mythos 제한을 되돌리고, 사이버보안 기업들이 고급 모델에 접근할 수 있게 복원하라고 요구함
- 서명자들은 적들이 빠르게 발전하는 상황에서 충분한 이유 없이 방어자에게서 최고의 역량을 빼앗는 것은 위험하다고 주장함
공격자보다 방어자에게 더 큰 피해라는 경고
- Moussouris는 미국이 중국 등 다른 국가의 open-weight 시스템이나 유사한 고급 모델까지 수출통제로 묶을 수는 없다고 지적함
- 이런 시스템들이 어차피 곧 Mythos와 비슷한 역량에 도달할 것이라고 주장함
- Anthropic과 Google은 DeepSeek 등 중국 기반 경쟁사들이 미국 기업 AI에서 지식을 빼내 모델을 훈련하는 “distillation attacks”를 사용했다고 비난한 바 있음
- Moussouris는 Anthropic 고급 모델 금지가 공격자보다 방어자에게 더 큰 피해를 줄 것이라고 경고함
- 방어는 공격자와 같은 버그를 더 빨리 찾아 고칠 때 향상되며, AI 시대의 사이버보안에는 점점 더 능력 있는 공격자에 맞설 최고의 도구가 필요하다고 주장함
정부 입장
- The Register는 Moussouris의 주장에 대한 논평을 Trump 행정부에 요청함
- 답변을 받으면 글을 업데이트하겠다고 밝힘
원문 보기
https://news.hada.io/topic?id=30565