AI·News
뒤로

[AINews] Cognition이 $26B 시리즈 D 펀딩라운드에서 $1B 조달

[AINews] Cognition raises $1B in $26B Series D

우리는 지난 9월 $10B Series C에서 Cognition에 대해 마지막으로 기사를 썼습니다. 그때 Smol.ai도 Cognition에 합류했고 AINews는 결국 Latent Space로 이전되었습니다. 8개월 후, 그것은 2.5배 더 가치 있게 평가되었으며, AI에서 공식적으로 남은 가장 큰 독립적 에이전트 랩이 되었습니다. 우리는 작년에 이 논제를 이미 도출했습니다. 공식 ARR 공개(현재 EOY까지 >$1B ARR 예상)를 통해 성장을 추적할 수 있으며, 이는 WTF Happened in 2025 차트와 흥미롭게도 유사해 보입니다. (이는 우연이 아닙니다):

엔터프라이즈 SaaS 비즈니스에서 ARR은 이용 현황의 지연 지표이며, 엔터프라이즈 및 스타트업 생태계에서 가장 까다로운 고객들의 로고도 마찬가지입니다. (Exa와 Modal 포함, 지난주 특집)

우리는 내일 Cognition 팟캐스트에서 더 많은 내용을 공개할 예정입니다.

5/26/2026-5/27/2026 AI News입니다. 우리는 12개의 subreddit, 544개의 Twitter를 확인했고 추가 Discord는 없습니다. AINews' 웹사이트에서 모든 과거 이슈를 검색할 수 있습니다. 상기하자면, AINews는 이제 Latent Space의 한 섹션입니다. 이메일 빈도를 선택/해제할 수 있습니다!


추론 효율성, 서빙 아키텍처, 그리고 비용 곡선

  • 추론 최적화는 점점 더 아키텍처 수준이며, 단순한 커널 수준이 아닙니다: EAGLE 3.1은 숨겨진 상태 피드백을 안정화하고 더 깊은 디코드 단계에서 주의 편향을 줄여 추측적 디코딩 견고성을 개선합니다. 명시적으로 장문맥 수용 길이와 실제 서빙 신뢰성을 강조합니다. 팀은 또한 vLLM과 TorchSpec과의 협력을 강조했습니다. 커널/시스템 계층에서, Perplexity는 CPU 이용을 5–6배 줄이고 제로 힙 할당으로 514개 토큰에서 63 µs에 도달하는 재구성된 Unigram 토크나이저를 오픈소스로 공개했습니다. 한편 TokenSpeed의 Qwen3.5는 Alibaba, LightSeek, NVIDIA, Mooncake, 그리고 FlashAttention-4 기여자들 간의 결합 최적화를 통해 에이전트 워크로드에 대해 초당 580개 토큰에 도달한다고 보고됩니다. 지원 라이브러리도 개선되었습니다: MaxSim v2는 역전파를 추가하고 H200에서 10.33배 더 빠르고 A100에서 11.94배 순진한 PyTorch보다 더 빠르다고 보고합니다.

  • 가격 인하는 구조적 KV-캐시 및 주의 변경으로 정당화되고 있습니다: 여러 게시물이 같은 주제로 수렴했습니다: 중국 랩의 최근 API 가격 인하는 일시적 보조금이 아닌 토큰당 더 낮은 서빙 비용을 반영하기 때문에 지속 가능해 보입니다. @kimmonismusDeepSeek V4-Pro압축 희소 주의대량 압축 주의를 사용한 하이브리드 주의를 사용하여 1M-토큰 KV 캐시를 V3.2의 약 10%로 가져오고 단일-토큰 추론 FLOP을 27%로 가져오면서도 1.6T 전체 중 49B 활성 매개변수를 라우팅하는 방법을 요약했습니다. Xiaomi의 MiMo는 SWA 플러스 계층적 캐시 관리를 사용하여 캐시 트래픽을 유사하게 감소시킵니다. 이는 직접적으로 @_LuoFuli에 의해 확증되었으며, MiMo의 가장 깊은 입력-캐시-히트 가격 인하는 5배 캐시된 토큰 용량, 대략 80% 더 낮은 캐싱 비용, 그리고 아키텍처 1:7 Full:SWA 희소성 비율에서 비롯된다고 말했습니다. 광범위한 핵심: 장문맥 추론 경제는 이제 주의 설계 + 캐시 계층 + 라우팅에 의해 주도되고 있으며, 단순히 더 저렴한 하드웨어가 아닙니다.

에이전트, 하니스, 메모리, 그리고 지속적 학습

  • 스택이 "모델 품질"에서 "모델-하니스-메모리 맞춤"으로 이동하고 있습니다: 실제 에이전트 엔지니어링에 초점을 맞춘 상당한 트윗 클러스터가 있었습니다. LangChain는 Deep Agents v0.6Delta Channels로 배송했습니다. 200턴 코딩 세션의 체크포인트 저장소를 5.3 GB에서 129 MB로 줄였습니다. 그리고 또한 Fleet에서 컴퓨터 사용을 시작했습니다. 플러스 Context Hub 버전이 지정된 에이전트 컨텍스트/스킬용입니다. LangSmith Engine은 eval → 진단 → 수정 루프를 자동화하는 것으로 포지셔닝되었으며, 여러 실무자가 추적 피드백을 재사용 가능한 온/오프라인 평가자로 변환하는 가치를 강조했습니다. 평행하게, @Vtrivedy10은 그 날 가장 명확한 공식화를 제시했습니다: 작업-하니스 맞춤은 모델 품질만큼 중요하며, 맞춤형 수직 시스템은 도구, 프롬프트, 그리고 컨텍스트를 작업으로 좁혀 일반 하니스를 능가합니다.

  • 지속적 학습은 단순한 연구 주제가 아닌 제품 범주로 다시 나타나고 있습니다: 여기서 가장 큰 발표는 Trajectory의 출시였습니다: 제품 사용 신호 및 에이전트 추적을 사용하여 큰 에이전트 모델을 지속적으로 사후 훈련하기 위한 플랫폼입니다. $15M 펀딩과 설계 파트너로 Clay, Harvey, Decagon, Mercor, 그리고 Rogo를 포함합니다. Baseten는 FP8/NVFP4 양자화 및 자동 확장 H100 인프라로 이러한 배포를 지원한다고 말했습니다. 397B-매개변수 모델의 밤새 배포가 인용되었습니다. 같은 트렌드는 오픈 도구에 나타났습니다: LangChain/LangGraph에 기반한 오픈소스 메모리 중심 에이전트는 명시적 검색/저장/추론/학습 분리로 여러 빌더에 칭찬을 받았습니다. 그리고 RLM의 최소 훈련 하니스는 작은 팀이 이제 8×A100에서 하루 안에 장문맥 에이전트를 RL-튜닝할 수 있음을 보여줍니다. 관통선은 "배포 후 학습"이 열망에서 인프라로 이동하고 있다는 것입니다.

벤치마크, 스케일링 법칙, 그리고 훈련 방법

  • 새로운 벤치마크는 점점 더 장기 지평, 지저분한, 실제 워크플로우에 관한 것입니다: DeepSWE5개 언어의 91개 repo에 걸친 113개 작업을 포함하는 SWE/에이전트 벤치마크로 강조되었습니다. 최소한의 bash 전용 하니스와 더 짧은 프롬프트를 사용하면서도 여전히 5.5배 더 많은 코드를 필요로 하고 평균 7개 파일을 터치합니다. SWE-Bench Pro보다. 엔터프라이즈 작업에서, Artificial Analysis와 IBM은 ITBench-AA를 출시했습니다. Kubernetes 사건 대응에 대한 SRE 벤치마크이며 모든 최전선 모델은 50% 이하의 점수를 받았습니다. Claude Opus 4.747%로 선두를 차지했고, GPT-5.546%로 뒤를 이었으며, GLM-5.1 Reasoning은 오픈 가중치에서 40%로 선두를 차지했습니다. 또 다른 유용한 신뢰성 각도는 AgingBench에서 나왔으며, 배포된 에이전트 성능 저하를 압축, 간섭, 그리고 메모리 업데이트로 인한 수명 문제로 표현합니다.

  • 훈련 효율성 연구는 이론과 시스템 모두에서 활발히 진행 중입니다: Sakana AI의 DiffusionBlocks는 가장 기술적으로 흥미로운 릴리스 중 하나였습니다: 전진 패스를 확산 같은 노이징 제거 단계로 다시 해석하여 깊은 네트들이 메모리를 크게 줄이면서 단계적으로 훈련될 수 있으므로 엔드 투 엔드 성능을 일치시킵니다. ViTs, DiTs, 마스크된 확산, 자동회귀적 트랜스포머, 그리고 반복 깊이 트랜스포머를 포함합니다. RL 시스템 측면에서, Snowflake는 ZoRRo를 소개했으며, 중복 롤아웃 계산을 제거하여 최대 3.5배 더 빠른 장문맥 RL3.2배 더 긴 컨텍스트 윈도우를 주장합니다. 전문화된 Arctic-Text2SQL-R2 엔터프라이즈 SQL 모델과 함께요. 이론 측면에서, Tiberiu Musat의 사전인쇄는 최소 신경 가중치 노름이 고정 정밀도 네트워크의 경우 로그 인수까지 최소 프로그램 길이와 일치한다고 주장합니다. 한편 Unified Neural Scaling Law는 이전 맞춤보다 신경 스케일링 동작을 더 정확하게 외삽하기 위한 다변량 함수 형식을 제안합니다.

모델 및 양식 릴리스: 생물학, 비전, OCR, 그리고 임베딩된 AI

  • 단백질 모델링은 특별한 날을 보냈습니다: ESMFold2는 단백질 구조 예측 및 설계를 위한 오픈 과학 엔진으로 발표되었습니다. 단백질 상호작용 및 항체에 대한 강력한 결과가 보고되었습니다. 플러스 6.8B 단백질1.1B 예측된 구조의 수반 아틀라스입니다. 릴리스는 미니단백질 바인더 및 다섯 가지 치료 표적에 걸친 단일-사슬 항체 설계 결과와 같은 실제 설계 결과를 강조했습니다. 그리고 신흥 단백질 표현에 대한 기계적 해석 가능성 발견입니다. 릴리스는 @proteinrosh에 의해 반향되었고 @cgeorgiaw에 의해 문맥화되었으며, 아틀라스가 AlphaFold DB를 규모로 초과한다고 지적했습니다.

  • 더 작지만 실용적인 멀티모달/오픈 릴리스의 물결이 내렸습니다: Google DeepMind는 Gemini Embedding 2의 백서를 공유했습니다. 텍스트, 이미지, 오디오, 그리고 비디오에 걸친 통합 표현을 지원하는 네이티브 멀티모달 임베딩 모델로 설명됩니다. NVIDIA의 LocateAnythingQwen2.5-3B + Moon-ViT를 고속 그라운딩을 위해 결합하며, 조밀한 객체 감지를 위해 10배 속도 향상을 주장합니다. Hugging Face는 Roboflow의 RF-DETR을 통합했으며, YOLO 스타일 시스템을 능가하는 실시간 감지/분할로 위치를 정했습니다. 문서 파이프라인의 경우, Surya OCR 2650M 모델로 배송되며 83.3% OLMOCR bench, 87% 내부 91개 언어 벤치마크, 그리고 RTX 5090에서 초당 5페이지를 포함합니다. LiteParse v2는 파싱을 Rust로 다시 쓰며 최대 100배 속도 향상과 WASM을 통한 엣지/브라우저 배포를 제공합니다. 온디바이스 AI는 또한 Google의 새로운 Coral 보드로 인정을 받았습니다. 로컬 음성, 비전, 그리고 제어 데모용입니다.

개발자 플랫폼, 엔터프라이즈 제어, 그리고 코딩-에이전트 상용화

최상위 트윗 (참여도별)

  • Cognition의 확대: Cognition>$1B 모금, $26B 평가, 그리고 $492M 실행 비율 수익을 발표했습니다. 이는 코딩 에이전트가 큰 엔터프라이즈 비즈니스로 전환되고 있다는 가장 명확한 신호 중 하나입니다.

  • Claude Code 신뢰성 푸시: Anthropic의 ClaudeDevs는 응답성, 신뢰성, 그리고 더 나은 피드백 수집에 대한 높은 참여도 업데이트를 게시했습니다. 제품 품질과 신뢰가 이제 중앙 전장이라는 증거입니다.

  • Sakana AI의 DiffusionBlocks: @hardmaru는 메모리 요구사항을 크게 낮추면서 엔드 투 엔드 성능과 일치할 수 있는 블록 단위 훈련에 큰 주목을 끌었습니다.

  • ESMFold2 릴리스: @alexrives는 그 날 가장 실질적인 과학 릴리스 중 하나를 발표했습니다: 아틀라스 규모의 오픈 단백질 모델링과 치료 설계 의미입니다.

  • OpenAI 엔터프라이즈 제어 + MCP: @OpenAIDevs의 비공개 MCP와 관련된 관리/보안 업데이트는 최전선 API가 큰 조직 도입을 위해 경쟁하는 곳을 반영합니다.


  • PrismML이 Binary and Ternary Bonsai Image 4B를 방금 출시했습니다: WebGPU에서 당신의 브라우저에 100% 로컬로도 실행할 수 있는 1비트/3진법 텍스트-투-이미지 확산 변환기. (활동: 759): PrismML은 1-bit/3진법 텍스트-투-이미지 확산-변환기 변종으로 Qwen3.5-35B-A3B3GB 체크포인트, Apache-2.0 라이선싱, 그리고 WebGPU 브라우저 데모를 사용하여 Qwen3.5-35B-A3B를 출시했습니다 (HF 컬렉션, 데모). 포스트는 FLUX.2 Klein 4B를 ~16GB와 비교합니다. 상위 기술 의견은 Bonsai Image가 주로 FLUX.2 Klein 4B의 양자화/사후 훈련 파생형이며, 백서 외에서 불충분한 속성을 가지고 있다고 주장합니다. 주요 토론은 속성/브랜딩입니다: 한 댓글은 PrismML이 양자화/미세 조정 기본 모델을 "Bonsai"로 재브랜딩하면서 원래 랩에 대한 신용을 최소화하고 있다고 주장합니다. Qwen을 quant로 해제하는 것과 비교합니다. 새 모델로서. 또 다른 댓글은 16GB RAM이 있는 CPU에서 실행할 수 있는지 묻지만, 제공된 의견에서 기술적 답변이 없습니다.

    • 댓글 작성자는 PrismML의 "Bonsai-Image"가 새로 훈련된 기본 모델이 아니라고 주장합니다. 것은 FLUX.2 Klein 4B의 이진/3진법 양자화이며 품질을 복구하기 위한 추가 사후 훈련입니다. 그들은 프로젝트의 HF 데모/모델 페이지와 GitHub이 원래 FLUX 모델/팀에 대한 명확한 속성을 생략한다고 주장합니다. 원래 모델은 백서에만 언급되어 있습니다.

    • 기술적 사용성 주석은 브라우저/WebGPU 모델이 대략 ~2 GB를 다운로드해야 한다고 말합니다. 1비트/3진법 압축 주장에도 불구하고 완전히 로컬 추론과 관련이 있습니다. 다른 사용자는 16 GB RAM이 있는 CPU에서 실행할 수 있는지 묻지만, 스레드에서 구체적인 벤치마크 또는 호환성 답변이 제공되지 않습니다.

  • 4GB GPU에서 OOM 오류에 지쳤습니다. 사용자 정의 Rust 베어메탈 엔진을 작성하고 4B 모델로 66.8 TPS에 도달했습니다 (RTX 3050). (활동: 390): OP는 prism-ml/Bonsai-4B-gguf를 RTX 3050 4GB에서 1.58-bit 양자화로 실행하는 사용자 정의 Rust/C++ LLM 추론 엔진 Cluaiz를 주장합니다. 66.8 tokens/s에 도달하고 Gemma/Qwen 4B 변종에 대해 ~30–33 TPS를 보고하며 동적 KV-캐시 관리를 통해 OOM 없이 동작합니다. 재현 가능한 repo 또는 벤치마크 아티팩트가 아직 포스트에서 제공되지 않았습니다. 댓글은 분명한 프로젝트 링크(GitHub, site)를 가리켰습니다. 그리고 "direct-to-silicon" 접근과 같은 모호한 주장에 의문을 제기했습니다. 이는 단순히 사전 컴파일 네이티브 컴파일을 의미할 수 있습니다. GPU/드라이버 수준 메커니즘보다. Reddit API의 HTTP 403 제한으로 인해 첨부된 Reddit 비디오에 독립적으로 접근할 수 없었습니다. 상위 댓글은 쓰기와 repo 언어를 의사-기술적/AI 생성으로 특징지으며 강력하게 회의적이었습니다. 그리고 명시된 성과가 기본 네이티브 컴파일과 단일 머신 데모로 축소된다고 주장했습니다. 댓글은 또한 프로젝트의 Apache 2.0 라이선싱/저작권 표기와 주장된 저수준 하드웨어 접근 뒤의 구체적인 구현 세부사항을 요청했습니다.

    • 댓글은 링크된 repo의 기술적 주장에 이의를 제기했습니다 (github.com/cluaiz/cluaiz, cluaiz.com). 그들은 "direct silicon access", "bare-metal engine," 그리고 "copyrighted Apache licensed software"와 같은 설명이 마케팅이거나 LLM-생성 의사-기술적 언어라고 주장했습니다. 진짜 구현 세부사항보다는. 한 댓글은 "direct silicon access"가 단순히 Rust의 ahead-of-time native compilation을 의미하는지 물었습니다. 일반적인 CUDA/드라이버 API 이상의 실제 저수준 GPU 프로그래밍보다는.

    • 여러 댓글은 명시된 결과를 기존 도구와 비교해야 한다고 주장했습니다. 특히 llama.cpp이는 이미 소비자 GPU에 대한 저메모리 추론과 양자화 모델을 지원합니다. 비평은 4GB RTX 3050의 OOM 문제가 종종 새로운 엔진을 작성하기보다는 적절한 llama.cpp 구성을 통해 해결될 수 있다는 것입니다. 따라서 명시된 66.8 TPS 4B BitNet 1.58b 모델에는 재현 가능한 벤치마크와 구성 세부사항이 의미있어야 합니다.

  • Qwen3.5 35B A3B uncensored heretic Native MTP Preserved는 지금 전체 785 MTP 보존 및 유지와 함께 출시되었습니다. Safetensors, GGUFs에서 사용 가능합니다. NVFP4, NVFP4 GGUFs 그리고 GPTQ-Int4 형식 (활동: 602): llmfan46은 Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved를 릴리스했습니다. Heretic v1.3.0 / Magnitude-Preserving Orthogonal Ablation 스타일 편집을 사용하여 만든 Qwen/Qwen3.5-35B-A3B의 검열 해제 파생형. attn.o_proj, attn.out_proj, 그리고 mlp.down_proj을 대상으로 하면서 모든 785 네이티브 MTP 텐서를 보존합니다. 모델 카드는 92/100에서 14/100으로 감소된 거부, KL 발산 0.0487 vs 기본, 그리고 MMLU는 7,021 문제에 대해 84.12%에서 83.72%로만 감소했습니다. 릴리스는 Safetensors, GGUF, NVFP4, NVFP4 GGUF, 그리고 GPTQ-Int4 변종을 포함합니다. 저자는 Qwen3.5와 Qwen3.6이 둘 다 qwen35 아키텍처를 사용하지만 다양한 체계에 대해 조정되었다고 주장합니다. Qwen3.5는 일반적 지원을 위해, Qwen3.6은 에이전트/코딩을 위해 그리고 abliteration KL/품질 행동이 가족 간에 실질적으로 다르다고 지적합니다. 댓글은 NVFP4 GGUF 빌드의 특이한 가용성을 높이 평가했으며, 한 명은 Unsloth에서도 비교 가능한 릴리스를 찾을 수 없었다고 지적했습니다. 또 다른 테스터는 저자의 포지셔닝에 동의했습니다. Qwen3.6을 Qwen3.5로의 단순한 전체 승격보다 ""3.5 coder+"에 더 가깝다고 설명했습니다.

    • 한 댓글은 NVFP4 GGUF 빌드의 실용적 가치를 강조했습니다. 이 형식이 다른 곳에서 찾기 어렵다는 것을 지적했습니다: ""나는 진지하게 그것을 다른 누구에게서도 찾을 수 없습니다. Unsloth가 아닙니다." 이는 기술적으로 관련이 있습니다. NVFP4 GGUF 가용성은 최신 NVIDIA 지향 저정밀 추론 워크플로우를 대상으로 하면서도 GGUF 기반 런타임을 사용하는 사용자에게 중요할 수 있기 때문입니다.

    • 테스터는 Qwen3.5Qwen3.6을 비교했습니다. 3.6이 Qwen3.5로의 단순한 일반 업그레이드보다 ""3.5 coder+"처럼 느껴진다고 주장했습니다. 릴리스 간의 짧은 시간이 광범위한 기능 도약을 가능하게 한다고 제안했으며, 3.6이 코딩 전문 그리고 3.5의 단순 후계자보다 더 전문화되어 있을 수 있음을 시사했습니다.

  • 좋아요 27B가 날 믿게 만들었습니다 (활동: 541): OP는 27B Qwen 가족 모델이 Opencode를 통해 사용되었다고 보고합니다. 콘솔 API, 게임패드 제어, TypeScript 셰이더를 설명하는 3개의 참조 파일에서 거의 완전한 HTML5 Breakout 스타일 게임을 한 번에 생성했습니다. 출력은 즉시 재생 가능했습니다. 작동하는 제어, 사운드, 메타데이터, 저장/통계/심박동 API 통합 등이 있습니다. 그리고 단 1회 후속 조정 및 1회 결함 수정만 필요했습니다. 댓글은 2–3 초안 토큰으로 MTP/추측적 디코딩을 활성화할 것을 권장합니다. 속도를 위해. 또 다른 헤비 사용자는 모델이 아래 64K 컨텍스트에서 최고 성능을 한다고 말합니다. 64K를 지나면 현저하게 저하되고"128K 이후로 정말 떨어집니다". 긴 에이전트 코딩 작업을 위해 파일로 정기적인 요약 및 세션 재설정을 권장합니다. 댓글은 조밀한 27B를 로컬 코딩에 비정상적으로 강력한 것으로 특징짓습니다. Sonnet 클래스 근처 웹 앱 원샷용. 또 다른 사용자는 35B A3B를 크기/라우팅 이점에도 불구하고 덜 유능한 것으로 발견했습니다. 주요 주의는 긴 컨텍스트 에이전트 실행이 루프 또는 "stupidity"를 유발할 수 있다는 것입니다. 그래서 사용자는 컨텍스트를 적극적으로 관리해야 합니다.

    • 댓글은 더 나은 처리량을 위해 MTP/추측적 디코딩를 활성화할 것을 권장했습니다. MTP 값 2 또는 3을 실제 속도/품질 균형으로 제안합니다. 이는 배포 수준 최적화이며 27B 모델을 로컬로 실행하는 사용자에게 유용합니다.

    • 한 사용자는 27B 모델의 유효한 추론 품질이 긴 컨텍스트와 함께 저하된다고 보고했습니다: 64K 토큰 아래에서 최고, 64K 이상에서 저하됨, 그리고 "128K 이후로 정말 떨어집니다". 장기 에이전트 작업을 위한 그들의 해결 방법은 상태를 파일로 정기적으로 요약하고, 하니스/세션을 다시 시작하고, 요약을 다시 로드하여 모델 품질을 복구하고 루프를 피하는 것입니다.

    • 벤치마크 운영자는 Qwen 27B가 이러한 이상한 것이어서 그들의 방법론을 재확인했다고 말했습니다. 대략 GPT-5.2 또는 Sonnet 4.5 근처로 가능하게 배치하면서 더 큰 컨텍스트 크기에서 어려움을 겪는다고 지적했습니다. 아마도 매개변수 수 제한 때문에. 그들은 gertlabs.com/rankings에서 그들의 데이터를 연결했습니다.

We last wrote about Cognition in September’s $10B Series C when Smol.ai also joined Cognition and AINews was eventually moved here to Latent Space. 8 months later, it is worth 2.5x more, and officially the largest remaining independent agent lab in AI, a thesis we mapped out last year. With official ARR disclosures (now projecting >$1B ARR by EOY) you can map out the growth, which looks oddly similar to the WTF Happened in 2025 charts (this isn’t a coincidence):

In the enterprise SaaS business, ARR is a trailing indicator of utilization, as are the logos of some of the toughest/most discerning customers in the enterprise and startup ecosystem (including Exa and Modal, featured last week)

We will release more on the Cognition podcast tomorrow.

AI News for 5/26/2026-5/27/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews’ website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!


Inference Efficiency, Serving Architectures, and Cost Curves

  • Inference optimization is increasingly architectural, not just kernel-level: EAGLE 3.1 improves speculative decoding robustness by stabilizing hidden-state feedback and reducing attention drift at deeper decode steps, with explicit emphasis on long-context acceptance length and real-world serving reliability; the team also highlighted collaboration with vLLM and TorchSpec. At the kernel/system layer, Perplexity open-sourced a rebuilt Unigram tokenizer that cuts CPU utilization 5–6× and reaches 63 µs at 514 tokens with zero heap allocations, while Qwen3.5 on TokenSpeed reportedly hits 580 tokens/s for agentic workloads via joint optimization across Alibaba, LightSeek, NVIDIA, Mooncake, and FlashAttention-4 contributors. Supporting libraries also improved: MaxSim v2 adds backprop and reports 10.33× faster on H200 and 11.94× on A100 versus naïve PyTorch.

  • Price cuts are being justified by structural KV-cache and attention changes: Several posts converged on the same theme: recent API price cuts from Chinese labs look sustainable because they reflect lower serving cost per token, not temporary subsidy. @kimmonismus summarized how DeepSeek V4-Pro uses hybrid attention with Compressed Sparse Attention and Heavily Compressed Attention to bring 1M-token KV cache to ~10% of V3.2 and single-token inference FLOPs to 27%, while still routing 49B active params out of 1.6T total. Xiaomi’s MiMo similarly reduces cache traffic using SWA plus hierarchical cache management. That was corroborated directly by @_LuoFuli, who said MiMo’s deepest input-cache-hit price cut comes from 5× cached token capacity, roughly 80% lower caching cost, and an architectural 1:7 Full:SWA sparsity ratio. The broader takeaway: long-context inference economics are now being pushed by attention design + cache hierarchy + routing, not just cheaper hardware.

Agents, Harnesses, Memory, and Continual Learning

  • The stack is shifting from “model quality” to “model-harness-memory fit”: A substantial cluster of tweets focused on practical agent engineering. LangChain shipped Deep Agents v0.6 with Delta Channels, cutting checkpoint storage for a 200-turn coding session from 5.3 GB to 129 MB, and also launched computer use in Fleet, plus Context Hub for versioned agent context/skills. LangSmith Engine was framed as automating the eval → diagnosis → fix loop, with multiple practitioners emphasizing its value for turning trace feedback into reusable online/offline evaluators. In parallel, @Vtrivedy10 made the clearest formulation of the day: task-harness fit matters as much as model quality, and bespoke vertical systems outperform generic harnesses by narrowing tools, prompts, and context to the task.

  • Continual learning is re-emerging as a product category, not just a research topic: The biggest announcement here was Trajectory’s launch: a platform for using product usage signals and agent traces to continuously post-train large agentic models, with $15M in funding and design partners including Clay, Harvey, Decagon, Mercor, and Rogo. Baseten said it supports these deployments with FP8/NVFP4 quantization and autoscaled H100 infra, including a cited overnight deployment of a 397B-parameter model. The same trend appeared in open tooling: an open-source memory-centric agent built on LangChain/LangGraph was praised by multiple builders for explicit retrieval/storage/reasoning/learning separation, and RLM’s minimal training harness shows small teams can now RL-tune long-context agents in a day on 8×A100. The throughline is that “post-deployment learning” is moving from aspiration to infra.

Benchmarks, Scaling Laws, and Training Methods

  • New benchmarks are increasingly about long-horizon, messy, real-world workflows: DeepSWE was highlighted as a SWE/agent benchmark with 113 tasks across 91 repos in 5 languages, using a minimalist bash-only harness and shorter prompts that nevertheless require 5.5× more code and touch 7 files on average than SWE-Bench Pro. In enterprise operations, Artificial Analysis and IBM launched ITBench-AA, an SRE benchmark over Kubernetes incident response where all frontier models scored below 50%; Claude Opus 4.7 led at 47%, GPT-5.5 followed at 46%, and GLM-5.1 Reasoning led open weights at 40%. Another useful reliability angle came from AgingBench, which frames deployed agent degradation as a lifespan problem caused by compression, interference, and memory updates.

  • Training efficiency research remains active across both theory and systems: Sakana AI’s DiffusionBlocks was one of the most technically interesting releases: it reinterprets forward passes as diffusion-like denoising steps so deep nets can be trained one block at a time, dramatically reducing memory while matching end-to-end performance across ViTs, DiTs, masked diffusion, autoregressive transformers, and recurrent-depth transformers. On the RL systems side, Snowflake introduced ZoRRo, claiming up to 3.5× faster long-context RL and 3.2× longer context windows by eliminating redundant rollout computation, alongside the specialized Arctic-Text2SQL-R2 enterprise SQL model. On the theory front, Tiberiu Musat’s preprint argues minimum neural weight norm matches minimum program length up to a log factor for fixed-precision networks, while Unified Neural Scaling Law proposes a multivariate functional form intended to extrapolate neural scaling behavior more accurately than prior fits.

Model and Modality Releases: Biology, Vision, OCR, and Embedded AI

  • Protein modeling had a standout day: ESMFold2 was announced as an open scientific engine for protein structure prediction and design, with strong reported results on protein interactions and antibodies, plus an accompanying atlas of 6.8B proteins and 1.1B predicted structures. The release emphasized both practical design outcomes—miniprotein binders and single-chain antibodies across five therapeutic targets—and mechanistic interpretability findings about emergent protein representations. The release was echoed by @proteinrosh and contextualized by @cgeorgiaw, who noted the atlas exceeds AlphaFold DB in scale.

  • A wave of smaller but practical multimodal/open releases landed: Google DeepMind shared the white paper for Gemini Embedding 2, described as a native multimodal embedding model supporting unified representations over text, image, audio, and video. NVIDIA’s LocateAnything combines Qwen2.5-3B + Moon-ViT for high-speed grounding, with a claimed 10× speedup for dense object detection. Hugging Face integrated Roboflow’s RF-DETR, positioning it as real-time detection/segmentation that outperforms YOLO-style systems. For document pipelines, Surya OCR 2 ships as a 650M model with 83.3% OLMOCR bench, 87% on an internal 91-language benchmark, and 5 pages/s on RTX 5090; LiteParse v2 rewrites parsing in Rust for up to 100× speedups and edge/browser deployment via WASM. On-device AI also got a nod with Google’s new Coral board for local speech, vision, and control demos.

Developer Platforms, Enterprise Controls, and Coding-Agent Productization

Top tweets (by engagement)

  • Cognition’s scale-up: Cognition announced >$1B raised, $26B valuation, and $492M run-rate revenue, one of the clearest signals yet that coding agents are converting into large enterprise businesses.

  • Claude Code reliability push: Anthropic’s ClaudeDevs posted a high-engagement update on responsiveness, reliability, and better feedback collection—evidence that product quality and trust are now central battlegrounds.

  • Sakana AI’s DiffusionBlocks: @hardmaru drew major attention to block-wise training that can match end-to-end performance while dramatically lowering memory requirements.

  • ESMFold2 release: @alexrives announced one of the day’s most substantive science releases: open protein modeling at atlas scale with therapeutic design implications.

  • OpenAI enterprise controls + MCP: @OpenAIDevs on private MCP and related admin/security updates reflects where frontier APIs are competing for large-org adoption.


  • PrismML just released Binary and Ternary Bonsai Image 4B: 1-bit/ternary text-to-image diffusion transformers that can even run 100% locally in your browser on WebGPU. (Activity: 759): PrismML released Binary and Ternary Bonsai Image 4B, described as 1-bit/ternary text-to-image diffusion-transformer variants with ~3GB checkpoints, Apache-2.0 licensing, and a WebGPU browser demo (HF collection, demo). The post compares them to FLUX.2 Klein 4B at ~16GB; a top technical comment claims Bonsai Image is primarily a quantized/post-trained derivative of FLUX.2 Klein 4B, with insufficient attribution outside the whitepaper. The main debate is attribution/branding: one commenter argues PrismML is rebranding quantized/fine-tuned base models as “Bonsai” while minimizing credit to original labs, comparing it to releasing a quant of Qwen as a new model. Another commenter asks whether it can run on CPU with 16GB RAM, but no technical answer is provided in the supplied comments.

    • A commenter alleges PrismML’s “Bonsai-Image” is not a newly trained base model, but a binary/ternary quantization of FLUX.2 Klein 4B with additional post-training to recover quality. They argue the project’s HF demo/model pages and GitHub omit clear attribution to the original FLUX model/team, with the original model reportedly mentioned only in the whitepaper.

    • A technical usability note says the browser/WebGPU model requires roughly ~2 GB to download, which is relevant for fully local inference despite the 1-bit/ternary compression claims. Another user asks whether it can run on CPU with 16 GB RAM, but no concrete benchmark or compatibility answer is provided in the thread.

  • Got tired of OOM errors on my 4GB GPU. Wrote a custom Rust bare-metal engine and hit 66.8 TPS with a 4B model (BitNet 1.58b on RTX 3050). (Activity: 390): OP claims a custom Rust/C++ LLM inference engine, Cluaiz, runs prism-ml/Bonsai-4B-gguf with 1.58-bit quantization on an RTX 3050 4GB, reaching 66.8 tokens/s, and reports ~30–33 TPS for Gemma/Qwen 4B variants without OOM via dynamic KV-cache management. No reproducible repo or benchmark artifacts were provided in the post yet; commenters pointed to the apparent project links (GitHub, site) and questioned vague claims like “direct-to-silicon” access, noting this may simply mean ahead-of-time native compilation rather than any unusual GPU/driver-level mechanism. The attached Reddit video could not be independently accessed due to Reddit HTTP 403 restrictions. Top comments were strongly skeptical, characterizing the writeup and repo language as pseudo-technical/AI-generated and arguing the stated achievements amount to basic native compilation plus a single-machine demo. Commenters also challenged the project’s licensing/copyright wording under Apache 2.0 and asked for concrete implementation details behind the claimed low-level hardware access.

    • Commenters challenged the technical claims in the linked repo (github.com/cluaiz/cluaiz, cluaiz.com), arguing that descriptions like “direct silicon access”, “bare-metal engine,” and “copyrighted Apache licensed software” appear to be marketing or LLM-generated pseudo-technical language rather than concrete implementation details. One commenter asked whether “direct silicon access” merely means ahead-of-time native compilation in Rust, rather than any real low-level GPU programming beyond normal CUDA/driver APIs.

    • Several commenters argued that the claimed outcome should be compared against existing tooling, especially llama.cpp, which already supports low-memory inference and quantized models on consumer GPUs. The critique was that OOM issues on a 4GB RTX 3050 are often solvable through proper llama.cpp configuration rather than writing a new engine, so the claimed 66.8 TPS with a 4B BitNet 1.58b model needs reproducible benchmarks and configuration details to be meaningful.

  • Qwen3.5 35B A3B uncensored heretic Native MTP Preserved is Out Now With the Full 785 MTPs Preserved and Retained, Available in Safetensors, GGUFs. NVFP4, NVFP4 GGUFs and GPTQ-Int4 Formats (Activity: 602): llmfan46 released Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved, a decensored derivative of Qwen/Qwen3.5-35B-A3B made with Heretic v1.3.0 / Magnitude-Preserving Orthogonal Ablation-style edits targeting attn.o_proj, attn.out_proj, and mlp.down_proj, while preserving all 785 native MTP tensors. The model card reports refusals reduced from 92/100 to 14/100, KL divergence 0.0487 vs base, and MMLU dropping only from 84.12% to 83.72% over 7,021 questions; releases include Safetensors, GGUF, NVFP4, NVFP4 GGUF, and GPTQ-Int4 variants. The author argues Qwen3.5 and Qwen3.6 both use the qwen35 architecture but are tuned for different regimes—Qwen3.5 for general assistance, Qwen3.6 for agentic/coding—and notes abliteration KL/quality behavior differs substantially between the families. Commenters appreciated the unusual availability of an NVFP4 GGUF build, with one noting they could not find comparable releases even from Unsloth. Another tester agreed with the author’s positioning, describing Qwen3.6 as closer to “3.5 coder+” rather than a simple across-the-board successor to Qwen3.5.

    • One commenter highlighted the practical value of the NVFP4 GGUF build, noting that this format is hard to find elsewhere: “I seriously can’t find anyone else doing that, not even Unsloth.” This is technically relevant because NVFP4 GGUF availability can matter for users targeting newer NVIDIA-oriented low-precision inference workflows while still using GGUF-based runtimes.

    • A tester compared Qwen3.5 and Qwen3.6, arguing that 3.6 feels more like “3.5 coder+” than a straightforward general upgrade. They suggested the short time between releases makes a broad capability leap unlikely, implying 3.6 may be more specialized toward coding rather than a simple successor to 3.5.

  • Okay 27B made me a believer (Activity: 541): OP reports that a 27B Qwen-family model used via Opencode generated a near-complete HTML5 Breakout-style game in one shot from three reference files describing console APIs, gamepad controls, and a TypeScript shader. The output was immediately playable, with working controls, sound, metadata, save/stat/heartbeat API integration, and only required one follow-up for customization plus one glitch fix; a commenter recommends enabling MTP/speculative decoding with 2–3 draft tokens for speed. Another heavy user says the model performs best below 64K context, degrades noticeably past 64K, and “really drops off” after 128K, recommending periodic summarization-to-file and session resets for long agentic coding tasks. Commenters characterize the dense 27B as unusually strong for local coding—near-Sonnet class for web-app one-shots—while one user found 35B A3B less capable despite its size/routing advantages. The main caution is that long-context agentic runs can induce loops or “stupidity,” so users should manage context aggressively.

    • A commenter recommended enabling MTP/speculative decoding for better throughput, suggesting an MTP value of 2 or 3 as a practical speed/quality tradeoff. This is a deployment-level optimization rather than a model-quality claim, useful for users running the 27B model locally.

    • One user reported that the 27B model’s effective reasoning quality drops noticeably with long contexts: best below 64K tokens, degraded past 64K, and “really drops off after 128K.” Their workaround for long-horizon agentic tasks is to periodically summarize state into a file, restart the harness/session, and reload the summary to recover model quality and avoid loops.

    • A benchmark operator said Qwen 27B was such an outlier that they rechecked their methodology, placing it roughly on par with GPT-5.2 or Sonnet 4.5 in their rankings while noting it struggles at larger context sizes, likely due to parameter-count limits. They linked their data at gertlabs.com/rankings.

원문 보기 https://www.latent.space/p/ainews-cognition-raises-1b-in-26b