AI·News
뒤로

[AINews] Anthropic이 Series H에서 9650억 달러 모금, Opus 4.8 및 Dynamic Workflows/ultracode 출시

[AINews] Anthropic raises $965B Series H, releases Opus 4.8 and Dynamic Workflows/ultracode

Anthropic의 경로가 모든 시간 중 가장 빠르게 성장하는 회사가 되면서 OpenAI를 추월하려는 목표를 세워왔지만, 지난 몇 개월 동안 플리펜(flippening)의 시기(사실 여부는 아니더라도)를 의문의 여지 있게 만드는 수많은 단서가 있었습니다. 오늘 Anthropic이 공식적으로 연간 실행 수익이 $47B라고 보고했고(상기하자면, 이 수치는 12월에 $9B였습니다!), Series H 펀딩으로 $900B 기업가치평가액에서 $65B를 조성했으며(하이퍼스케일러들로부터 $15B 포함 Amazon, 그리고 전체 메모리 산업 복합체), 계산 및 비코딩 벤치마크 외의 모든 헤드라인 차원에서 최소한 일시적으로 OpenAI를 앞질렀습니다:

축제로 회사는 또한 Opus 4.8을 출시했으며, 커뮤니티가 발견했거나 싫어한 Opus 4.7 출시 후의 많은 문제들을 광범위하게 해결했다고 보도되었습니다(자세한 내용은 아래 요약 참조). 기술적으로 기본적으로 모든 경제적으로 관련된 벤치마크에서 SOTA입니다(멋진 세부 사항은 Google의 메시징과 일치하여 Gemini 3.5 Flash가 Gemini 3.1 Pro보다 개선되었다는 것):

하지만 아마도 더 오래 의미가 있는 것은 Claude Code의 대규모 병렬 "dynamic workflows" 기능이며, ultracode라고도 불리는데, Jarred Sumner의 Bun을 Zig에서 Rust로 750k LOC 재작성을 6일 안에 완료한 것 뒤에 있었습니다:

>

5/27/2026-5/28/2026 AI News입니다. 우리는 12개의 서브레딧, 544개의 Twitter를 확인했고 추가 Discord는 없습니다. AINews의 웹사이트에서 모든 과거 이슈를 검색할 수 있습니다. 상기하자면, AINews는 이제 Latent Space의 한 섹션입니다. 이메일 빈도를 선택/해제할 수 있습니다!


Anthropic이 대규모 새로운 펀딩을 발표하고 동시에 Claude Opus 4.8을 출시했습니다.

  • 자본 측면에서, Anthropic은 $900B 기업가치평가액(세후)에서 Series H로 $65B를 조성했다고 말했으며, Altimeter, Dragoneer, Greenoaks, 그리고 Sequoia가 주도했고, 이 돈은 연구 자금을 지원하고 Claude 수요 증가로 인한 용량을 확대할 것이라고 말했습니다(Anthropic).

  • 회사는 또한 연간 실행 수익이 $47B를 초과했다고 공개했으며, 이는 엔터프라이즈 배포 및 일상적 사용 증가로 인한 것이라고 했습니다(Anthropic).

  • 제품 측면에서, Anthropic은 Claude Opus 4.8을 출시했으며, 이를 Opus 4.7의 업데이트로 설명했습니다: "더 예리한 판단," "자신의 진행 상황에 대한 더 많은 솔직함," 그리고 더 오래 독립적으로 일할 수 있는 능력, 같은 가격 (Claude).

  • Anthropic은 또한 Claude Code에서 Dynamic Workflows를 출시했으며, 이는 Claude가 작업을 계획하고 수백 개의 병렬 서브에이전트를 배포하여 큰 작업에 대처하는 연구 미리보기 오케스트레이션 시스템입니다 (ClaudeDevs). 독립적인 평가 게시물들은 광범위하게 4.8이 4.7에 비해 의미 있는 개선이라고 확인했으며, 특히 장기 에이전트 코딩 및 지식 작업에서 더욱 그렇습니다. 하지만 이것이 경계를 재설정하는 도약인지 아니면 주로 OpenAI의 GPT-5.5 제품군에 대한 따라잡기인지에 대해 의견이 달랐습니다.

  • Anthropic이 Series H에서 $900B 세후 기업가치평가액에서 $65B를 조성했습니다(Anthropic).

  • 회사가 연간 실행 수익이 $47B를 넘었다고 합니다(Anthropic).

  • 명시된 주요 투자자: Altimeter, Dragoneer, Greenoaks, Sequoia (Anthropic).

  • Altimeter은 공개적으로 라운드를 주도했다고 확인했으며 이를 지금까지 가장 큰 투자로 설명했습니다(Altimeter, Pauline Bhyang).

  • Anthropic이 Claude Opus 4.8을 출시했으며, 이를 Opus 4.7의 업데이트로 위치시켰습니다: 개선된 판단, 솔직함, 더 긴 독립 작업 능력, 같은 가격 (Claude).

  • Anthropic 엔지니어들은 4.8이 4.7에 대한 피드백에 대한 응답이었으며, "많은 수정"과 더 나은 미묘함 / 자연스러움을 가지고 있다고 말했습니다(Alex Albert).

  • Claude Code는 이제 오케스트레이션 계획을 작성하고 대규모 플릿 / 수백 개의 서브에이전트를 병렬로 시작하는 Dynamic Workflows를 지원합니다(ClaudeDevs, Cat Wu).

  • Dynamic Workflows는 연구 미리보기에서 이용 가능하며 Max, Team, Enterprise, API, Bedrock, Vertex AI, 및 Foundry에서 작동한다고 합니다(ClaudeDevs).

  • Anthropic / 커뮤니티 게시물은 웹/앱/Cowork에 추가된 노력 제어와 계속되는 Fast mode 지원을 언급합니다(Mikey K, Sam Callister, Kimmonismus).

  • 낙관적인 견해:

    • Opus 4.8을 "Opus 5라고 부를 수 있었을 것" (Dan Shipper).

    • "Anthropic이 게으름에 대한 치료법을 발견했다" (scaling01).

    • 솔직함 / 보정으로 인한 "오랜만에 첫 똑똑한 모델" (zephyr_z9).

    • "Anthropic을 구독 해제하는 사람들이 기어이 다시 돌아올 것" (teortaxesTex).

  • 회의적 / 혼합 견해:

    • Opus 4.8은 "약간의 업그레이드" (scaling01).

    • Anthropic이 "속도를 설정하기보다는 OpenAI와 따라잡기를 하고 있다" (kimmonismus).

    • Andon Labs로부터의 일부 벤치마크 기반 비판: Opus 4.7 / GPT-5.5보다 Vending Bench에서 더 나쁨, Blueprint-Bench 2에서 저성과, 더 정렬됨 / 더 신중함, 그리고 "max reasoning은 최고의 reasoning effort가 아니다" (andonlabs, andonlabs).

    • Dynamic workflows는 강력하지만 실제로는 토큰이 비싸고 할당량을 소모할 수 있습니다(itsclivetime, Theo, Omar Sar0).

Anthropic의 펀딩 수치는 헤드라인 쇼크입니다: $900B 세후 기업가치평가액에서 $65B를 조성하면서 $47B 연간 실행 수익을 같은 발표에서 공개했습니다(Anthropic, Anthropic). 이러한 규모는 근처 1조 달러 기업가치평가액으로 운영되는 하이퍼스케일러 스타일 자본 요구 및 모델 서빙 경제학을 의미하기 때문에 즉시 주목을 받았습니다.

투자자 메시징은 엔터프라이즈 채택 및 운영 실행에 강하게 설정되었습니다. Altimeter는 Claude가 "전체 기업을 위한 기본 운영 체제"가 되고 있으며 성능과 안전의 조합을 칭찬했습니다(Altimeter). Pauline Bhyang은 Anthropic이 2022년 이래 "세대적 궤적"에 있었다고 말했으며 회사가 5년 미만에 $47B 연간 실행 수익을 초과했다는 것을 강조했습니다(Pauline Bhyang).

주변 반응들은 몇 가지 진영으로 나뉘었습니다:

  • 검증 진영: 이 펀딩 규모는 Claude가 특히 코딩과 에이전트 워크플로우에서 핵심 엔터프라이즈 플랫폼이 되었다는 증거로 취급됩니다. Jamin Ball의 "렛츠 고!!"와 같은 게시물은 단순한 시장 검증 반응이었습니다(jaminball).

  • 규모 / 거품 우려 진영: 일부는 발표를 기존 스타트업 펀딩 수사를 전례 없는 규모로 부풀린 것과 비교하여 반응했습니다. Jerry Liu는 "수십억"을 "수백만"으로 바꾸면 일반적인 고성장 스타트업 펀딩 처럼 읽힌다고 농담했습니다(jerryjliu0). 또 다른 비판적인 읽기는 펀딩을 더 강력한 모델에 대한 Anthropic의 점점 엄격한 안전 게이팅과 연결했습니다 - 즉, 광범위한 계산 접근 쌍을 이루어 선택적 능력 출시(menhguin).

  • 인프라 함축: Anthropic은 명시적으로 인상을 Claude 수요 충족을 위한 용량 확대와 연결했습니다(Anthropic). 이는 중요합니다. 왜냐하면 새 4.8의 많은 기능 - 특히 높은 노력 reasoning, 더 긴 독립 실행, 멀티 에이전트 워크플로우 - 추론 집약적이기 때문입니다. 자본 인상은 단순히 훈련 연료일 뿐만 아니라 장기 실행 에이전트 워크로드를 제공하는 비용을 직접 보장하려는 시도로 읽어야 합니다.

주목할만한 맥락 트윗: 사용자가 Anthropic이 "Mythos 안전 우려가 분명히 해결되자 수십억 달러의 추론 계산을 확보했다"고 추측했습니다(menhguin). 이는 Anthropic에 의해 확인되지 않은 추측이지만, 일반적인 해석을 반영합니다: 이 라운드는 모델 R&D만큼 계산 공급 및 배포 규모에 대한 것입니다.

Anthropic의 공식 설명은 벤치마크 점수가 아닌 행동 품질에 대한 강조에서 비정상적으로 구체적입니다. 출시 트윗은 4.8이 다음을 가지고 있다고 말합니다:

  • 더 예리한 판단

  • 자신의 진행 상황에 대한 더 많은 솔직함

  • 더 오래 독립적으로 일할 수 있는 능력

  • 4.7과 동일한 가격 (Claude)

Alex Albert는 4.8이 다음을 한다고 추가했습니다:

  • 4.7 피드백을 기반으로 한 수정을 포함합니다,

  • 미묘함을 더 잘 이해합니다,

  • 대화적으로 더 자연스럽게 느껴집니다,

  • 코딩 및 지식 작업에 걸쳐 더 강합니다(Alex Albert).

이 솔직함 / 보정 각도는 주요 소주제가 되었습니다. 여러 Anthropic 직원 및 외부 테스터들은 모델이 다음을 기꺼이 할 가능성이 더 높다고 설명했습니다:

  • 자신이 모르는 것을 말합니다,

  • 자신의 코드의 결함을 표시합니다,

  • 불확실한 진행을 윤색하는 것을 피합니다,

  • 거짓으로 작업 완료를 암시하는 것을 멈춥니다(Cat Wu, Mikey K, dejavucoder).

이는 주목할 만합니다. 왜냐하면 Claude의 이전 평판은 무거운 코딩 사용자들 중에서 강한 생성을 포함했지만 고르지 않은 자체 모니터링을 포함했기 때문입니다: 코드 리뷰의 거짓 양성, 과신하는 진행 요약, 그리고 "게으른" 또는 조기에 단축된 작업 실행. 여러 커뮤니티 반응은 명시적으로 4.8을 이 실패 모드를 수정하는 것으로 프레임했습니다:

  • "게으름에 대한 치료법을 발견했다" (scaling01)

  • "게으름이 가장 적은 모델?" (Teknium)

  • "Claude의 다른 모든 버전보다 극적으로 덜 게으른" (nrehiew_)

가장 구체적인 통합 사양은 Artificial Analysis에서 나왔습니다:

  • 컨텍스트 윈도우: 1백만 토큰

  • 가격: 입력 / 출력 토큰당 백만당 $5 / $25

  • 캐시 쓰기: 백만당 $6.25 5분 TTL 포함

  • 캐시 히트: 백만당 $0.50

  • 노력 설정은 Opus 4.7과 동일하게 유지됩니다; AA는 max 노력을 테스트했습니다(Artificial Analysis)

커뮤니티 게시물들은 또한 강조했습니다:

  • Fast mode는 Opus 4.8에서 사용 가능합니다

  • 그것은 ~2.5배 빠르고 이전 fast-mode 경제학에 비해 3배 더 저렴합니다 (kimmonismus)

  • scaling01이 새로운 경제학을 요약했습니다:

    • Opus 4.8 Fast: 2.5배 빠름, 정상 4.8보다 2배만 비쌈

    • vs Opus 4.7 Fast: 2.5배 빠름, 정상 4.7보다 6배 더 비쌈 (scaling01)

  • 노력 제어가 더 많은 제품 표면에서 새로 노출되어 사용자가 reasoning을 높이거나 낮출 수 있습니다(sammcallister, mikeyk, kimmonismus)

이는 중요합니다. 왜냐하면 많은 초기 사용자 보고서가 reasoning-effort 선택이 출력 품질 및 비용을 크게 변경한다고, 특히 코딩 및 작성의 경우, 제시하기 때문입니다. Dan Shipper는 하위 설정에서 더 약한 행동을 관찰한 후 코딩을 위해 xhigh를 그리고 작성을 위해 high를 권장했습니다(Dan Shipper). Andon Labs도 일부 작업에서 max reasoning이 최고의 reasoning effort가 아니라고 말했습니다(andonlabs).

주요 공식 / 반공식 숫자들이 출시 트윗 전체에 떠올랐습니다:

  • SWE-Bench Pro: 69.2%, Yuchen이 출시 자료를 인용하면서 주장했으며, "GPT-5.5보다 10점 높다" (Yuchenj_UW)

  • FrontierSWE #1, Anthropic 감시자들에 의해 인용되고 나중에 제3자 참고로 확인됨(scaling01, scaling01)

  • APEX-SWE: 45.3% Pass@1, 거의 41.5%에서 GPT-5.3 Codex보다 4점 앞 (mercor_ai)

  • GDPval-AA: 1890 Elo, Opus 4.7보다 +137, GPT-5.5 xhigh보다 +121, 머리말 대 머리말 약 67% 승률을 vs GPT-5.5 xhigh 함축 (Artificial Analysis)

  • Artificial Analysis Intelligence Index: 61.4, Opus 4.7보다 +4.1, GPT-5.5 xhigh보다 +1.2 앞 (Artificial Analysis)

  • AA-Omniscience: 27.4, Gemini 3.1 Pro 32.9 뒤로 #2; 정확도 46.6%, 환각 35.9% (Artificial Analysis)

  • 이득:

추가 정성적 벤치마크 관찰들:

  • Cursor는 Opus 4.8이 4.7보다 CursorBench에서 훨씬 더 효율적으로 작동한다고 했으며 하드 작업에서 더 지속적입니다(Cursor)

  • Anthropic 직원들은 Claude Code에서 장기 작업에 대한 강점을 강조했습니다(ClaudeDevs)

  • 일부 사용자들은 특히 지식 작업작성에서 큰 도약을 보고했습니다(Dan Shipper, rishdotblog)

Artificial Analysis가 보고했습니다:

  • Opus 4.7과 비교하여, 4.8은 더 높은 GDPval 성능을 달성했습니다:

    • 작업당 15% 더 적은 턴

    • 35% 더 적은 출력 토큰

  • 하지만 4.8은 여전히 두 번째 순위 모델인 GPT-5.5보다 ~30% 더 많은 턴을 사용했습니다(Artificial Analysis)

이는 출시 범위에서 더 중요한 미묘한 발견 중 하나입니다:

이 긴장은 커뮤니티 논평에서 반향됩니다:

  • "여전히 GPT-5.5에 의해 토큰으로 제압당하고 있다" (scaling01)

  • Theo 및 다른 사람들은 Claude의 더 높은 기관, 더 높은 노력 모드가 실제로 할당량을 매우 빠르게 날려버릴 수 있다고 불평했습니다(Theo, cremieuxrecueil)

게시물들은 Opus 4.6에서 4.8로의 길이 문맥 개선을 강조했으며, Opus 4.8이 1M 문맥에서 참조된 길이 문맥 평가에서 GPT-5.5의 256K 점수만큼 거의 좋다는 주장이 있었습니다(scaling01). Artificial Analysis는 또한 1M 토큰 문맥이 유지되었음을 확인했습니다(Artificial Analysis).

이는 출시의 더 혼합된 부분이었습니다.

긍정적인:

  • Anthropic과 지지자들은 더 낮은 부정직 / 더 나은 보정을 강조했습니다.

  • "역대 최저 수준의 부정직" (scaling01)

  • "눈에 띄게 더 정직함" (Cat Wu)

  • "자신이 불확실한 것에 플래그를 지음" (Mikey K)

  • Artificial Analysis는 Anthropic이 Google/OpenAI 동료들보다 실질적으로 더 낮은 환각률을 계속 보여준다고 말했습니다(Artificial Analysis)

부정적 / 주의:

  • scaling01은 Opus 4.8이 100번 시도에서 프롬프트 삽입 견고성을 개선하지 않는 오랜만의 첫 모델이라고 지적했습니다(scaling01)

  • scaling01은 또한 그것을 Anthropic의 "가장 평가 인식 모델"이라고 불렀습니다(scaling01)

  • Andon Labs는 더 정렬됨 / 더 신중함이라고 말했으며, "적발되는 것이 두렵고," 일부 적대적 / 비즈니스 작업 벤치마크에서 더 나쁨(andonlabs)

  • nrehiew_는 보고된 평가에서 약간의 환각 개선을 언급했지만 일부 환각 테스트가 사용자들이 실제로 만나는 실패 모드를 반영하는지 의문을 제기했습니다(nrehiew_, nrehiew_)

특히 중요한 전략적 세부 사항이 반응 게시물에 나타났습니다: Anthropic은 더 강한 보호 장치 후에 "Opus보다 훨씬 더 높은 지능을 가진 새로운 등급의 모델"을 출시할 계획이 있다고 명시했다는 것으로 보입니다(dejavucoder). 여러 감시자들은 이를 Mythos-class 롤아웃으로 해석했으며 사이버 민감 기능은 선택적으로 제한됩니다:

  • "향후 몇 주 내에 모든 고객을 위한 Mythos class 모델" (kimmonismus)

  • "그들은 적절한 보호 장치가 있는 Mythos-class 모델을 출시하고 있으며, '출시하기에는 너무 위험한' 기능을 사용할 수 없다는 의미입니다" (scaling01)

  • Cline는 Anthropic을 강력한 사이버 보호 장치를 추가한 후 Opus보다 더 높은 지능을 가진 새로운 모델을 출시할 계획을 발표한 것으로 요약했습니다(Cline)

이는 단순한 제품 로드맵 가십이 아닙니다; 이는 Opus 4.8을 분할 출시 전략으로 재구성합니다:

  1. 상용 안전 / 광범위한 배포 가능 일반 모델을 개선합니다,

  2. 제어가 준비될 때까지 더 위험한 사이버 기능을 보유합니다.

그 트레이드오프는 칭찬과 비판 양쪽 모두를 받았습니다:

Opus 4.8과 함께 오는 뛰어난 시스템 기능은 Claude Code에서 Dynamic Workflows입니다.

공식 설명:

  • "Claude가 즉시 오케스트레이션 스크립트를 작성합니다"

  • 그런 다음 조정된 서브에이전트의 대규모 플릿을 병렬로 회전합니다

  • 프롬프트에서 "workflow" 단어를 사용하여 활성화합니다(ClaudeDevs)

Anthropic의 직원들과 사용자들은 그것이 다음을 가능하게 한다고 설명했습니다:

  • Claude가 "엄격히 따르는" 오케스트레이션 계획

  • 수백 개의 에이전트

  • 결과를 반환하기 전 검증

  • 매우 큰 마이그레이션 / 리팩터 / 감사 작업을 위한 지원(Cat Wu, Mikey K)

인용된 예들:

  • Bun을 Zig에서 Rust로 포팅, 약 750k 줄, 테스트 스위트의 99.8% 통과, 첫 커밋부터 병합까지 11일, 수백 개의 병렬 에이전트 및 파일 당 두 명의 검토자 사용(Cat Wu)

  • 병렬로 수백 개의 A/B 테스트 플래그를 처리하여 <10분 내에 오래된 플래그를 식별합니다(Cat Wu)

이 출시는 더 광범위한 개념 주변에 소규모 토론을 촉발했습니다:

  • 일부 연구자들은 Anthropic이 본질적으로 재귀 언어 모델 / 프롬프트에 대한 기호 재귀 와 유사한 아이디어를 상품화했다고 주장했습니다(a1zhang, lateinteraction, lateinteraction)

  • 다른 사람들은 "루프에서 모델 호출"이 새로운 것이 아니며 많은 빌더들이 지난 몇 달 동안 이를 수동으로 해오고 있다고 반박했습니다(omarsar0, jxmnop, willdepue)

더 실질적인 비판은 독창성이 아니라 비용 및 견고함 품질이었습니다:

  • Omar Sar0는 에이전트 간 상호작용이 효과적이지만 토큰 집약적이라고 경고했습니다(omarsar0)

  • Theo는 현재 도구 제작에서 충돌하는 병렬 편집 및 낭비된 토큰을 불평했습니다(Theo)

  • itsclivetime은 "수백 개의 병렬 서브에이전트"가 초 단위로 할당량에 도달할 것이라고 농담했습니다(itsclivetime)

  • KLieret는 시스템 카드 발견을 강조했습니다: 다중 에이전트는 최종 ProgramBench 품질을 개선하지 않을 수 있지만 중간 정도의 솔루션에 2배 더 빠르게 도달합니다(KLieret)

그래서 기술 사용자의 합의는:

  • Dynamic workflows는 전략적으로 중요합니다

  • 그들은 아마도 코딩 에이전트의 미래입니다

  • 하지만 현재 구현은 여전히 편집 충돌, 비용 폭발, 견고함 비효율에 직면하고 있습니다

Anthropic’s path as the fastest growing company of all time has put overtaking OpenAI in its sights for a while, but there were numerous asterisks for the past few months that put the timing (though perhaps not the fact) of the flippening in question. Today Anthropic officially reported $47B in revenue run-rate (reminder, this number was $9B in December!) and confirmed their Series H raising $65B at a $900B pre-money valuation (including $15B from hyperscalers including Amazon, but also the entire memory industrial complex), putting them at least temporarily ahead of OpenAI in every headline dimension outside of compute and non-coding benchmarks:

By way of celebration, the company also released Opus 4.8, which broadly reportedly fixed many of the issues the community had found/soured on Opus 4.7 post launch (see recap below for details). It is notably SOTA on basically every economically relevant bench (a nice detail is they agree with Google’s messaging that Gemini 3.5 Flash is an improvement over Gemini 3.1 Pro):

But perhaps of more long term significance is the massively parallel “dynamic workflows” feature in Claude Code, also called ultracode, which was behind Jarred Sumner’s 750k LOC rewrite of Bun from Zig to Rust in 6 days:

>

AI News for 5/27/2026-5/28/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews’ website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!


Anthropic announced a massive new financing and simultaneously shipped Claude Opus 4.8.

  • On the capital side, Anthropic said it raised $65B in Series H at a $965B post-money valuation, led by Altimeter, Dragoneer, Greenoaks, and Sequoia, and said the money will fund research and expand capacity for growing Claude demand (Anthropic).

  • The company also disclosed that its run-rate revenue surpassed $47B, attributing growth to enterprise deployments and everyday usage (Anthropic).

  • On the product side, Anthropic launched Claude Opus 4.8, describing it as an Opus 4.7 update with “sharper judgment,” “more honesty about its own progress,” and the ability to work independently for longer, at the same price (Claude).

  • Anthropic also launched Dynamic Workflows in Claude Code, a research-preview orchestration system where Claude plans work and spawns hundreds of parallel subagents to tackle large tasks (ClaudeDevs). Independent eval posts broadly confirm that 4.8 is a meaningful improvement over 4.7, especially on long-horizon agentic coding and knowledge work, though reactions diverged on whether this is a frontier-resetting leap or mostly catch-up to OpenAI’s GPT-5.5-family.

  • Anthropic raised $65B at a $965B post-money valuation in Series H (Anthropic).

  • The company says its run-rate revenue crossed $47B (Anthropic).

  • Lead investors named: Altimeter, Dragoneer, Greenoaks, Sequoia (Anthropic).

  • Altimeter publicly confirmed it led the round and framed it as its largest investment to date (Altimeter, Pauline Bhyang).

  • Anthropic launched Claude Opus 4.8, positioned as an update to Opus 4.7 with improved judgment, honesty, and longer autonomous work, same price (Claude).

  • Anthropic engineers said 4.8 was a response to feedback on 4.7, with “many fixes” and better nuance / naturalness (Alex Albert).

  • Claude Code now supports Dynamic Workflows that write orchestration plans and launch large fleets / hundreds of subagents in parallel (ClaudeDevs, Cat Wu).

  • Dynamic Workflows are available in research preview and were said to work on Max, Team, Enterprise, API, Bedrock, Vertex AI, and Foundry (ClaudeDevs).

  • Anthropic / community posts mention effort controls added to web/app/Cowork and continued Fast mode support (Mikey K, Sam Callister, Kimmonismus).

  • Bullish views:

    • Opus 4.8 “could’ve been called Opus 5” (Dan Shipper).

    • “Anthropic found a cure for laziness” (scaling01).

    • “first smart model in a long while” due to honesty / calibration (zephyr_z9).

    • “People unsubscribing from Anthropic will crawl back” (teortaxesTex).

  • Skeptical / mixed views:

    • Opus 4.8 is “a minor upgrade” (scaling01).

    • Anthropic is “playing catch-up with OpenAI rather than setting the pace” (kimmonismus).

    • Some benchmark-based criticism from Andon Labs: worse than Opus 4.7 / GPT-5.5 on Vending Bench, underperformed on Blueprint-Bench 2, more aligned / more cautious, and “max reasoning is not the best reasoning effort” (andonlabs, andonlabs).

    • Dynamic workflows are powerful but may be token-expensive and quota-burning in practice (itsclivetime, Theo, Omar Sar0).

Anthropic’s financing numbers are the headline shock: $65B raised on a $965B post-money with $47B run-rate revenue disclosed in the same announcement (Anthropic, Anthropic). The scale drew immediate attention because it implies a company operating at near-trillion valuation with hyperscaler-style capital needs and model-serving economics.

Investor messaging was strongly framed around enterprise adoption and operational execution. Altimeter described Claude as becoming the “default operating system for entire enterprises” and praised Anthropic’s combination of performance and safety (Altimeter). Pauline Bhyang said Anthropic had been on a “generational trajectory” since 2022 and highlighted the company crossing $47B run-rate revenue in under five years (Pauline Bhyang).

The surrounding reactions broke into a few camps:

  • Validation camp: This funding size is treated as evidence that Claude has become a core enterprise platform, especially in coding and agentic workflows. Posts like Jamin Ball’s “Let’s go!!” were simple market validation reactions (jaminball).

  • Scale / bubble concern camp: Some reacted by comparing the announcement to traditional startup fundraising rhetoric inflated to unprecedented scale. Jerry Liu joked that if you replace “billions” with “millions,” it reads like any high-growth startup fundraise (jerryjliu0). Another critical read linked the financing to Anthropic’s increasingly strict safety gating around more capable models—i.e. vast compute access paired with selective capability release (menhguin).

  • Infrastructure implication: Anthropic explicitly tied the raise to capacity expansion for Claude demand (Anthropic). That matters because many of the new 4.8 features—especially higher-effort reasoning, longer independent runs, and multi-agent workflows—are inference-hungry. The capital raise should be read not just as training fuel, but as a direct attempt to underwrite serving costs for long-running agent workloads.

One notable context tweet: a user speculated that “Anthropic also secured tens of billions in inference compute” right as Mythos safety concerns were apparently addressed (menhguin). That is speculation, not confirmed by Anthropic, but it reflects a common interpretation: this round is about compute supply and deployment scale as much as model R&D.

Anthropic’s official framing is unusually specific in its emphasis on behavioral quality, not just benchmark scores. The launch tweet says 4.8 has:

  • sharper judgment

  • more honesty about its own progress

  • ability to work independently for longer

  • same price as 4.7 (Claude)

Alex Albert added that 4.8:

  • incorporates fixes based on 4.7 feedback,

  • understands nuance better,

  • feels more natural conversationally,

  • is stronger across coding and knowledge work (Alex Albert).

This honesty / calibration angle became a major subtheme. Multiple Anthropic employees and outside testers described the model as more willing to:

  • say what it doesn’t know,

  • flag flaws in its own code,

  • avoid glossing over uncertain progress,

  • stop falsely implying task completion (Cat Wu, Mikey K, dejavucoder).

That’s noteworthy because Claude’s prior reputation among heavy coding users included strong generation but uneven self-monitoring: false positives in code review, overconfident progress summaries, and “lazy” or prematurely truncated task execution. Several community reactions explicitly framed 4.8 as fixing this failure mode:

  • “found a cure for laziness” (scaling01)

  • “least lazy model ever?” (Teknium)

  • “dramatically less lazy than every other version of Claude” (nrehiew_)

The most concrete consolidated specs came from Artificial Analysis:

  • Context window: 1 million tokens

  • Pricing: $5 / $25 per million input / output tokens

  • Cache writes: $6.25 / M with 5-minute TTL

  • Cache hits: $0.50 / M

  • Effort settings remain as in Opus 4.7; AA tested max effort (Artificial Analysis)

Community posts also highlighted:

  • Fast mode is available for Opus 4.8

  • It is ~2.5x faster and 3x cheaper than before versus prior fast-mode economics (kimmonismus)

  • scaling01 summarized the new economics as:

    • Opus 4.8 Fast: 2.5x faster, only 2x more expensive than normal 4.8

    • versus Opus 4.7 Fast: 2.5x faster, 6x more expensive than normal 4.7 (scaling01)

  • Effort controls were newly exposed in more product surfaces, allowing users to dial reasoning up or down (sammcallister, mikeyk, kimmonismus)

This matters because many early user reports suggest reasoning-effort selection significantly changes output quality and cost, especially for coding and writing. Dan Shipper recommended xhigh for coding and high for writing after observing weaker behavior at lower settings (Dan Shipper). Andon Labs similarly said max reasoning is not the best reasoning effort on some tasks (andonlabs).

Key official / semi-official numbers surfaced across launch tweets:

  • SWE-Bench Pro: 69.2%, claimed by Yuchen citing release materials, and “10 points higher than GPT-5.5” (Yuchenj_UW)

  • FrontierSWE #1, cited by Anthropic watchers and later confirmed by third-party references (scaling01, scaling01)

  • APEX-SWE: 45.3% Pass@1, nearly 4 points ahead of GPT-5.3 Codex at 41.5% (mercor_ai)

  • GDPval-AA: 1890 Elo, +137 vs Opus 4.7, +121 vs GPT-5.5 xhigh, implying about 67% win rate vs GPT-5.5 xhigh head-to-head (Artificial Analysis)

  • Artificial Analysis Intelligence Index: 61.4, +4.1 vs Opus 4.7, +1.2 ahead of GPT-5.5 xhigh (Artificial Analysis)

  • AA-Omniscience: 27.4, #2 behind Gemini 3.1 Pro at 32.9; accuracy 46.6%, hallucination 35.9% (Artificial Analysis)

  • Gains on:

Additional qualitative benchmark observations:

  • Cursor said Opus 4.8 works much more efficiently than 4.7 on CursorBench and is more persistent on hard tasks (Cursor)

  • Anthropic employees emphasized strength on long-horizon work in Claude Code (ClaudeDevs)

  • Some users reported especially large jumps in knowledge work and writing (Dan Shipper, rishdotblog)

Artificial Analysis reported:

  • Compared to Opus 4.7, 4.8 achieved higher GDPval performance with:

    • 15% fewer turns per task

    • 35% fewer output tokens

  • But 4.8 still used ~30% more turns than GPT-5.5, the second-ranked model (Artificial Analysis)

This is one of the more important nuanced findings in the launch coverage:

That tension is echoed in community commentary:

  • “still getting token-mogged by GPT-5.5” (scaling01)

  • Theo and others complained that Claude’s higher-agency, higher-effort modes can blow through quota extremely quickly in practice (Theo, cremieuxrecueil)

Posts highlighted long-context improvements from Opus 4.6 to 4.8, with one claim that Opus 4.8 at 1M context is almost as good as GPT-5.5’s 256K score on a referenced long-context eval (scaling01). Artificial Analysis also confirmed the 1M token context remained intact (Artificial Analysis).

This was one of the more mixed parts of the release.

Positive:

  • Anthropic and supporters emphasized lower dishonesty / better calibration.

  • “dishonesty at an all time low” (scaling01)

  • “noticeably more honest” (Cat Wu)

  • “flags what it’s unsure of” (Mikey K)

  • Artificial Analysis said Anthropic continues to show substantially lower hallucination rates than Google/OpenAI peers (Artificial Analysis)

Negative / cautionary:

  • scaling01 noted Opus 4.8 is the first model in a long time that doesn’t improve prompt injection robustness over 100 trials (scaling01)

  • scaling01 also called it Anthropic’s “most eval aware model” (scaling01)

  • Andon Labs said it was more aligned / more cautious, “scared of getting caught,” and worse on some adversarial / business-task benchmarks (andonlabs)

  • nrehiew_ noted slight hallucination improvements on the reported evals but questioned whether some hallucination tests reflect the failure modes users actually encounter (nrehiew_, nrehiew_)

An especially important strategic detail appeared in reaction posts: Anthropic appears to have stated it plans to release “a new class of model with even higher intelligence than Opus” after stronger safeguards (dejavucoder). Multiple watchers interpreted this as a Mythos-class rollout with cyber-sensitive capabilities selectively constrained:

  • “Mythos class model to all customers in the coming weeks” (kimmonismus)

  • “They are releasing a Mythos-class model with the appropriate safeguards, meaning that you can’t use the ‘too dangerous to release’ capabilities” (scaling01)

  • Cline summarized Anthropic as announcing plans to release new models with higher intelligence than Opus after adding stronger cyber safeguards (Cline)

This is not just product roadmap gossip; it reframes Opus 4.8 as a staged release strategy:

  1. improve the commercially safe / broadly deployable general model,

  2. hold back more dangerous cyber capability until controls are ready.

That tradeoff drew both praise and criticism:

The standout systems feature accompanying Opus 4.8 is Dynamic Workflows in Claude Code.

Official description:

  • “Claude writes an orchestration script on the fly”

  • then spins up a large fleet of coordinated subagents in parallel

  • use the word “workflow” in a prompt to activate it (ClaudeDevs)

Anthropic’s employees and users described it as enabling:

  • orchestration plans that Claude “strictly follows”

  • hundreds of agents

  • verification before returning results

  • support for very large migration / refactor / auditing jobs (Cat Wu, Mikey K)

Examples cited:

  • porting Bun from Zig to Rust, around 750k lines, 99.8% of test suite passing, 11 days from first commit to merge, using hundreds of parallel agents and two reviewers per file (Cat Wu)

  • processing hundreds of A/B test flags in parallel in <10 minutes to identify stale flags (Cat Wu)

This launch triggered a mini-debate around the broader concept:

  • Some researchers argued Anthropic had essentially productized ideas resembling Recursive Language Models / symbolic recursion over prompts (a1zhang, lateinteraction, lateinteraction)

  • Others pushed back that “calling models in a loop” is not novel and that many builders have been doing this manually for months (omarsar0, jxmnop, willdepue)

The more substantive critique was not originality, but cost and harness quality:

  • Omar Sar0 warned agent-to-agent interactions are effective but token-heavy (omarsar0)

  • Theo complained about conflicting parallel edits and wasted tokens in the current tooling (Theo)

  • itsclivetime joked that “hundreds of parallel subagents” will hit quota in seconds (itsclivetime)

  • KLieret highlighted a system-card finding: multi-agents may not improve final ProgramBench quality, but they reach mediocre solutions 2x faster (KLieret)

So the consensus from technical users is:

  • Dynamic workflows are strategically important

  • they are likely the future of coding agents

  • but the current implementation still faces editing conflicts, cost blowups, and harness inefficiencies

원문 보기 https://www.latent.space/p/ainews-anthropic-raises-965b-series