2026 AI Engineering Survey에 참여하고 >$2k 크레딧과 AIE WF 티켓을 받으세요!
독자들은 우리가 소식이 없을 때를 좋아하지만, 그 다음으로 좋아하는 것은 여러분이 알아야 할 트렌드를 단순히 강화할 수 있을 때입니다. 4월에 우리는 the Inference Inflection을 강조했고, 오늘의 헤드라인이 지난주의 헤드라인을 떠올리게 한다면, 그것이 정확히 우리가 말하는 요점입니다.
이 요즘 AI 펀드레이징의 속도를 감안하면, 우리의 일반적인 정책은 스타트업이 데카콘 상태(>$10B)를 넘을 때만 보도하는 것입니다 - 하지만 확인된 경우에만이고, 오늘의 Fireworks' $15B 라운드 소식("협의 중", 7개월 동안 3.75배, 우리 팟캐스트는 여기) 그리고 Baseten's $11B 라운드 ("현재 펀드레이징 중", 3개월 동안 2.2배)는 조금 이르지만, Inference 지역의 가속화 속도와 유니콘에서 데카콘으로의 진행은 너무 흥미로워서 오늘의 헤드라인 스토리로 서빙할 수 없습니다. $113M OpenRouter Series C (6개월 동안 5배 볼륨)가 정상이 됩니다: 멀티모델 추론을 하려면 라우터가 필요합니다.
AI News for 5/23/2026-5/26/2026. 우리는 12개의 서브레딧, 544개의 트위터와 추가 디스코드를 확인했습니다. AINews의 웹사이트에서 과거의 모든 이슈를 검색할 수 있습니다. 상기하자면, AINews는 이제 Latent Space의 섹션입니다. 이메일 빈도를 선택/선택 해제할 수 있습니다!
Agent Harnesses, Coding Benchmarks, 그리고 "Just the Model" 너머의 시프트
Harness 엔지니어링은 코딩 에이전트의 주요 차별화 요소가 되고 있습니다: 여러 게시물이 같은 논제로 수렴되었습니다: 승리 스택은 이제 model + harness + eval loop이지, 더 강력한 베이스 모델만이 아닙니다. 길한 Zhihu 요약은 DeepSeek가 명시적으로 harness 팀을 구축하고 있다고 주장했으며, 모델 출력, 런타임 피드백, 검증, 그리고 수정 사이의 루프를 닫기 위해, 더 느슨한 상호작용/검증 루프를 지원할 수 있는 캐시된 입력 비용 이점을 주장했습니다. 병렬로, Google의 Gemini Managed Agents 가이드는 agent 인프라를 샌드박싱, 지속성, 그리고 마운트를 가진 관리형 harness에 대한 단일 API 호출로 프레임하였으며, LangChain의 업데이트된
create_agent문서와 dair.ai의 "harness" 논문 요약은 같은 스택을 공식화했습니다: context governance, trustworthy memory, dynamic skill routing.벤치마크는 실제 개발자 경험에 더 가까워지고 있습니다: DeepSWE는 agentic 코딩을 위한 새로운 벤치마크로 소개되었으며, 실무자들로부터 강력한 지지를 얻었습니다; @theo는 이를 "실제로 이 모델들을 코딩하는 느낌에 맞는 첫 번째 코드 벤치"라고 불렀습니다. 또한 공개 SWE 리더보드가 자주 보여주는 것보다 상단에서 더 큰 분리를 만들었습니다. 관련 벤치마크 신호: Qwen3.7 Max는 Code Arena: Frontend에서 #4로 데뷔했습니다, 대체로 Claude Opus 4.6 수준으로 agentic 웹개발 작업에서, 그리고 Alibaba가 결과를 증폭했습니다. 도구 스택 전반에 걸쳐, Anthropic은 Claude Code를 위한 보안 가이던스 플러그인을 출시했으며, 내부 사용에서 보안 관련 PR 코멘트에서 30–40% 감소를 보고했습니다. 한편, OpenAI는 Databricks의 Codex에서 GPT-5.5를 강조했습니다 더 신뢰할 수 있는 문서 파싱을 위해.
Research Agents, Long-Horizon Reasoning, 그리고 Context Compression을 위한 "Sleep"
Math/science 에이전트는 더 많은 capability overhang의 증거를 보였습니다—올바른 harness를 조건으로: 가장 강력한 트윗 클러스터는 모델이 오래된 개방 문제를 다루는 것 주변이었습니다. 한 수학자는 Claude Mythos가 Erdős problem #90을 해결했다고 보고했으며, 후속 세부 정보는 모델이 OpenAI의 이전 경로보다 다른, 더 깔끔한 증명 경로로 자주 수렴했습니다. 이것은 @_sholtodouglas, @kimmonismus에 의해 메아리쳤으며, 그 후 Sébastien Bubeck에 의해 날카로워졌습니다: 적절한 harness로, Mythos와 GPT-5.5 둘 다 내부 모델이 원샷으로 했던 것을 재현할 수 있으며, vanilla 채팅 UX에 의해 노출되지 않은 많은 대기 능력을 암시합니다.
Long-horizon 메모리는 핵심 병목 현상으로 재등장하고 있습니다: "Language Models Need Sleep" 논문이 주목할 만한 관심을 받았습니다. 메커니즘은 sleep과 유사한 통합 단계입니다. 여기서 최근 컨텍스트는 KV 캐시를 지우기 전에 지속적인 빠른 가중치로 변환되며, 깨어있는 시간 지연을 보존하면서 오프라인 패스로 계산을 이동합니다. dair.ai의 요약은 시스템 각도를 강조했습니다: 이것은 긴 궤적을 가진 에이전트에 대한 계속 증가하는 KV 캐시에 대한 대안입니다. 이 주제는 Omar의 Anthropic의 메모리 토크와 Dream 기능에 대한 포인터를 포함한 에이전트의 메모리 시스템에 대한 진행 중인 토론과 깔끔하게 연결되었습니다.
Open deep-research 에이전트와 과학 예측도 발전했습니다: QUEST는 장기 사실 추구, 인용 근거, 그리고 보고서 합성을 위한 2B–35B 오픈 모델 패밀리로, 범용 deep research 에이전트로 출시되었습니다. 과학 평가 측면에서, Sakana/Stanford/Oxford/AI2의 CUSP 벤치마크는 현재 모델들이 종종 유망한 연구 방향을 식별할 수 있지만 whether 그리고 when 돌파구가 실현되는지에 대해 훨씬 더 어려워한다는 것을 발견했습니다.
Model, Optimizer, 그리고 Architecture 업데이트
Optimizer 작업은 Muon 변형과 schedule-free 훈련 주변에서 특히 활발합니다: AMUSE는 Anytime MUon with Stable gradient Evaluation을 제안하며, Muon을 schedule-free 스타일의 gradient 평가와 결합하여 LR 감소 없이 안정적인 anytime 훈련을 제공하며, 124M / 720M / 1B 규모와 ViT/ImageNet 미세 조정에서의 이득을 보고합니다. 관련 구현 토론은 ClashLuke의 SFMuon 스니펫과 kellerjordan의 Newton-Muon에서의 Modded-NanoGPT 결과에서 나왔습니다.
Sparse attention 설계 공간은 계속 다양화되고 있습니다: MiniMax는 M3를 오픈 소스로 놀려했고, 후속 기술 해설은 새로운 block-sparse two-stage attention 경로를 제시했습니다. @kimmonismus는 보고된 속도 향상을 요약했습니다: M2와 비교하여 1M 토큰에서 9.7× 프리필링 그리고 15.6× 디코딩. @eliebakouch는 추가했습니다 M3가 GQA 기반 sparse attention으로 돌아가는 것으로 보이며 실제 KV에서 블록 선택이 있고, DeepSeek의 압축된 주의 변형과 구별됩니다.
Vision/open 모델 출시 및 순위 업데이트: PrismML은 Bonsai Image 4B를 출시했으며, 1-bit와 ternary 변형을 포함하여 노트북과 휴대폰에서 로컬로 실행하려고 의도했습니다; 후속 참고 사항은 브라우저 로컬 실행이 ~3GB 풋프린트로 가능했습니다. 폐쇄된 측면에서, Microsoft의 MAI-Image-2.5는 Image Arena에서 #3으로 데뷔했습니다, 이전에 OpenAI와 Google에 의해 지배된 상위 5개 클럽을 깨뜨렸으며, Arena가 1,254 점수를 보고했습니다. 한편, Artificial Analysis는 Gemini 3.5 Flash를 측정했습니다 최대 ~280 output tok/s로 상당히 강화된 agentic 성능으로, 하지만 ~5× Gemini 3 Flash의 비용.
Infra, Systems, 그리고 Semiconductor Stack
Huawei의 "τ scaling" 논문은 대부분 엔지니어링 로드맵으로, 새로운 법칙으로 읽혔습니다: 매우 상세한 스레드는 Huawei의 "A Time Scaling Theory for Multi-Layer Electronic Systems"를 strategic manifesto / white paper로 해석해야 한다고 주장했습니다. 핵심 제안은 time constant τ를 프로세스 노드가 아니라, 기기, 칩, 그리고 데이터센터 규모 전체에 걸친 통합 메트릭으로 취급하는 것입니다. 가장 구체적인 주장은 미래 Kirin 설계에서의 LogicFolding을 포함했으며, 고정 노드에서 +55% 밀도, +41% 에너지 효율, 그리고 +13% 빈도, 그리고 Unified Bus 및 Hi-ONE optical I/O와 같은 패키징/네트워크 아이디어를 포함했습니다. 같은 스레드는 누락된 검증 아티팩트—die 사진, SEM, 워크로드 세부 정보, 수율 곡선—을 주의깊게 지적했으며, 가장 눈에 띄는 숫자들을 유망하지만 검증되지 않은것으로 해석했습니다. 후속 반응은 또한 Huawei의 경로가 lithographic 따라잡기보다 패키징과 아키텍처에 더 많이 의존할 수 있음을 강조했습니다, 예: @josiah_leee가 Jensen의 포인트를 인용했습니다 Hopper→Blackwell의 대부분의 이득이 비노드 최적화에서 나왔다고.
데이터센터 전력 및 추론 공급 제약은 1차 관심사가 되고 있습니다: SemiAnalysis는 800VDC 전환에 게시했으며, 그리고 John Carmack은 이를 권장했습니다, EV 전력 전자에서 데이터센터 설계로의 교차점을 강조했습니다, 고전압 SiC 부품을 포함하여. 별개로, Epoch AI는 가능한 추론 계산 위기를 추정했습니다: 수요가 서빙 용량보다 빠르게 증가하는 것으로 보이며, 특히 긴 컨텍스트 워크로드의 경우. 그들의 대략적인 모델은 현재 전역 Blackwell 공급이 유리한 가정 하에서 오늘의 수요를 서빙할 수 있지만, 처리량이 더 긴 컨텍스트로 급격히 저하되며 수요 성장이 이미 공급을 초과하고 있을 수 있음을 시사했습니다.
Production Tooling 및 Developer Infrastructure
Serving/inference 스택은 의미 있는 성능과 관찰성 업데이트를 받았습니다: vLLM은 Rust 프론트엔드를 병합했습니다 Python API 서버의 드롭인 대체로, 초기 숫자로 ~837 req/s vs ~162 req/s 단일 프로세스에서 전처리 집약 워크로드. W&B는 MCP 서버를 시작했습니다 코딩 에이전트가 실험과 훈련 실행을 검사하도록 허용하기 위해, 컨텍스트 윈도우 부풀기를 피하기 위한 스키마 우선 재설계를 목표로 합니다. Unsloth는 GPT, Claude, 그리고 다른 API를 로컬 UI 내에서 실행하도록 지원을 추가했습니다, 프롬프트 캐싱과 코드 실행을 포함합니다.
Cloudflare, OpenRouter, 그리고 vector/retrieval 벤더는 "productionization" 레이어를 밀었습니다: OpenRouter는 $113M Series B를 발표했으며 주간 볼륨이 6개월 동안 5T에서 25T 토큰으로 증가했다고 말했습니다. Cloudflare는 스타트업 프로그램을 재시작했습니다 최대 $350k 크레딧으로, Think 및 agent 인체공학에 관한 별개의 게시물은 지속 가능한 턴, 재연결, 오래된 상태 처리, 그리고 복구를 핵심 실제 차별화 요소로 강조했습니다. Retrieval 인프라에서, Booking.com은 100M+ 임베딩으로 확장하는 것을 논의했습니다, 필터링된 벡터 검색, 읽기 중 쓰기, 동시성, 그리고 파트너 메시징 에이전트에 대한 인간 루프 평가를 포함합니다.
Top tweets (by engagement)
Waiting for Qwen 3.7 open weight... The new King has arrived... (Activity: 1217): 이미지는 Qwen3.7 블로그의 벤치마크/마케팅 비교입니다 Qwen3.7-Max를 agentic 코딩, 소프트웨어 엔지니어링, MCP/tool-use, 추론, 그리고 지식 평가 전반에서 선도적인 프론티어 모델로 위치시키며 Qwen3.6-Plus, DS-V4-Pro Max, GLM-5.1, Kimi K2.6, 그리고 Claude Opus-4.6 Max와 비교합니다. 기술적 중요성은 슬라이드가 Qwen3.7-Max를 많은 벤치마크에서 Claude 클래스 모델과 매우 경쟁적이거나 앞서간 것으로 프레임하지만, Claude Opus-4.6 Max는 여전히
ClawEval및CoWorkBench와 같은 일부 작업에서 리드하는 것으로 보입니다. 댓글 작성자들은 이것이 Max 모델이며, 반드시 더 작은/오픈 웨이트 릴리스를 대표하는 것은 아니라고 지적하며, 가능한3.7-122B-A17BMXFP4모델을512k컨텍스트로 Strix Halo와 같은 로컬 하드웨어에 대해 추측합니다. 주요 논쟁은 오픈 웨이트 주변의 회의론입니다: 댓글 작성자들은 Qwen이 역사적으로 Max 시리즈를 오픈 웨이트화하지 않았다고 지적하며, 제목의 "오픈 웨이트를 기다리는" 프레이밍이 현실적이지 않을 수 있음을 경고합니다. 다른 사람들은 가설적인27B모델이 표시된 Max 티어 벤치마크 결과와 일치하기를 기대하지 않도록 주의합니다.여러 댓글 작성자들은 Qwen Max를 가능한 오픈 웨이트 릴리스와 구별하며, "Qwen은 결코 Max 시리즈를 오픈 웨이트화하지 않았습니다"라고 지적하고 더 작은
27B변형이 Max 수준의 벤치마크 성능과 일치하기를 기대하지 않도록 경고합니다. 암시된 기술적 이해는 모든 공개/오픈 웨이트 Qwen 3.7 릴리스가 벤치마크된 기함 모델과 다른 아키텍처/규모를 사용할 수 있다는 것입니다.한 가지 기술적 소원 목록은 Qwen 3.7
122B-A17BMTP MXFP4 모델을 중심으로 하며512k컨텍스트로, 댓글 작성자들이 Strix Halo 클래스 로컬 하드웨어에 잘 맞을 것이라고 주장합니다. 또 다른 사용자는 Qwen 3.5397B-A17BNVFP4를 참조하며, 이것이4x RTX 6000 ProGPU에 적합하며 대략10동시200k토큰 세션을 위한 충분한 메모리 헤드룸으로 클레임하며, 이를 Qwen 3.7이 보고된 벤치마크와 일치한다면 가능한 "집에서의 Opus"로 포지셔닝합니다.댓글 작성자는 오픈 웨이트 프론티어 릴리스가 덜 가능할 수 있다고 주장합니다 왜냐하면 매우 능력 있는 로컬 모델은 제공자 수익화를 손상시킬 수 있기 때문입니다. 그들은 Qwen의 전략이 중단 능력에서 수익화된 프론티어 경쟁으로 이동했다고 클레임하며, 이는
397B-A17B같은 큰 MoE 모델이 공개적으로 릴리스되는지 여부에 영향을 미칠 수 있습니다.
Qwen3.6 35Ba3 has changed my workflows and even how I use my computer (Activity: 567):
pi를 통해 Qwen3.6 35B a3을 사용하여 로컬 에이전트 워크플로우를 설명합니다. 여기서 사용자는 반복 가능한 절차를 Codex에 의해 생성/문서화된 "skills"로 변환한 다음 VPS DevOps,doclingPDF→EPUB 변환, Playwright 테스트, 코드 티켓, 그리고 OS 수준 쉘 작업에 재사용합니다. 구체적인 예: WhatsApp 오디오 → AnythingLLM에서의 전사 →content.md→ 로컬로 생성된 랜딩 페이지, 그 다음plan.md티켓 큐는 "manager"pi프로세스에 의해 실행되며pi -p @plan.md "Check the first Ticket with Status UNDONE and do it"로 신선한 컨텍스트 서브 에이전트를 생성합니다. 티켓을DONE으로 표시하고, git으로 커밋하며, 마지막으로 VPS 스킬을 통해 배포합니다. 댓글 작성자들은 운영 관심사에 초점을 맞췄습니다: 이 설정을 실행할 수 있는 하드웨어, 에이전트가 OS 액세스로 샌드박스/신뢰할 수 있는지, 그리고pi를 Hermes와 같은 다른 agentic 도구와 비교하여 채택하기 얼마나 어려운지.사용자는 실행 보고
unsloth/Qwen3.6-35B-A3B-MTP-GGUFvia Unsloth Studio on a MS-02 with a 24GB RTX Pro 4000 Blackwell SFF GPU, 일관되게>100 tokens/s를 봅니다. 그들은 Mac Studio M2에 "최적화되지 않은 GGUF"와의 성능을 비교하며, MS-02를 Mac 워크스테이션용 작은 원격 GPU 서버로 사용하며, Unsloth의 미래 MLX 지원이 Mac 측 성능을 개선할 수 있다고 지적합니다. 스크린샷: preview.redd.it.
110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp (Activity: 565): 포스트는 Qwen3.6-35B-A3B MTP를 byteshape의
IQ4_XS4.19 bpwGGUF로 벤치마크하며 RTX 4070 Super 12GB + Ryzen 7 9700X에서, 업스트림llama.cppvsik_llama.cpp를--ctx-size 131072,q8_0KV 캐시, MTP draft max3, 그리고p_min=0.75로 비교합니다. 같은mtp-bench.py워크로드를 사용하면, 업스트림llama.cpp는0.9393집계 MTP 수락 비율로89.76 tok/s를 평균화했으며,ik_llama.cpp는0.8749낮은 집계 수락 비율에도 불구하고 업데이트된 결과에서16.64s동안110.24 tok/s를 평균화했으며, 주장된23%처리량 이득입니다. OP는 실제 적합을ik_llama.cpp에서--fit/--fit-margin 1664로 특성화하며,--fit-margin을1792또는2048로 올려서 OOM 완화를 하며, 디스플레이를 iGPU에서 실행하면 본질적으로 모든12GBVRAM이 추론을 위해 해방됨을 주목합니다. 댓글 작성자들은 재현성에 초점을 맞췄습니다: 그들은 전체 업스트림llama.cpp커맨드를 요청했으며 최근에 여러 MTP 관련 PR이 병합되었으므로 벤치마크 타이밍이 빌드 날짜에 강하게 의존할 수 있음을 지적했습니다. 한 가지 기술적 해결책은 CachyOS/KDE 사용자를 위해LIBGL_ALWAYS_SOFTWARE=1및GALLIUM_DRIVER=llvmpipe를 사용하여 소프트웨어 렌더링 Plasma Wayland 세션을 제안했으며, 유휴 VRAM을 대략>1024MB에서126MB로 줄이며 느린/비활성화된 컴포지터 효과의 대가로.CachyOS/KDE Wayland 사용자는 단일 GPU 시스템을 위한 VRAM 절약 해결책을 설명했습니다:
LIBGL_ALWAYS_SOFTWARE=1,GALLIUM_DRIVER=llvmpipe, 그리고KWIN_COMPOSE=Q를 사용하여 KDE Plasma를 CPU를 통해 렌더링하도록 강제하는 사용자 정의 SDDM 세션을 생성합니다. 그들은 KDE Wayland 유휴 VRAM이 >1024 MB에서 ~126 MB로 드롭했다고 보고했으며, 35B 모델 실행을 위해 거의 기가바이트를 해방했으며, 비활성화되거나 매우 느린 컴포지터 애니메이션의 대가로.여러 댓글 작성자들은 보고된
110 tok/s가 ik_llama.cpp가 업스트림llama.cpp보다 더 나은 MTP/추측적 디코딩 동작을 가지는지에서 초점을 맞췄습니다. 하나는 ik_llama.cpp의 수락 비율이 결코0.790아래가 아니었다고 언급했지만, llama.cpp는0.477만큼 낮이 떨어졌으며, 정확한 llama.cpp 커맨드/설정을 요청했으며 여러 MTP 관련 PR이 이전 24시간 내에 llama.cpp에 착륙했음을 지적했습니다.댓글 작성자는 Qwen3.6 35B A3B에 사용된
IQ4_XS양자화에 대해 물었으며, 가장 낮은 메모리 Q4 정량화인 것으로 보이며 모델 품질/지능 영향과 최종 VRAM/RAM 분할 모두의 세부 정보를 요청했습니다. 이는 12 GB VRAM 실행에 대한 핵심 트레이드오프를 강조합니다: 공격적인 양자화를 통해 모델을 맞추기 대 추론 품질 유지 및 과도한 CPU/RAM 오프로드 병목을 피하기.