AI·News
뒤로

[AI뉴스] 창립자들과 포워드 배포 엔지니어

[AINews] Founders and Forward Deployed Engineers

대부분의 사람들은 어제의 대규모 Anthropic 뉴스를 아직도 소화하고 있습니다.

우리는 이 기회를 활용하여 AIE의 새로운 Forward Deployed Engineer 트랙을 위해 세계 최고의 AI FDE들을 모집하고 있습니다. 이는 OpenAI DeployCoAnthropic DeployCo의 유사한 움직임을 반영합니다:

그리고 AIE의 새로운 Founders 프로그램입니다. 이는 YCombinator의 Garry Tan과 Howie Lu의 $10 Million 규모의 Hyperagent 대회를 중심으로 한 경쟁식 피치 경쟁인 우리만의 Startup Battlefield 버전입니다. 관심이 있으시면 오늘 가입하고 (호텔도 예약하세요!) 자세한 내용을 확인하세요.

5/28/2026-5/29/2026 AI 뉴스입니다. 우리는 12개의 subreddit, 544개의 Twitter와 추가 Discord를 확인했습니다. AINews의 웹사이트에서 모든 과거 이슈를 검색할 수 있습니다. 알림으로, AINews는 이제 Latent Space의 섹션입니다. 이메일 빈도를 선택할 수 있습니다!


Claude Opus 4.8 출시, 벤치마크 마찰, API 인체공학

  • Opus 4.8이 시끄럽고 혼합된 평가 환경에 착륙했습니다: 여러 독립적인 벤치가 '증분적이지만 지배적이지 않다'에 수렴했습니다. @arena200+ 프론트엔드/코드 테스트를 진행하여 Opus 4.8을 이전 Opus 변형, Gemini 및 GLM과 비교했습니다; @theo는 CursorBench가 4.7보다 더 효율적이지만 오차 범위 내에서 약간 더 나쁘다고 보고했습니다; @jerryjliu0@llama_index테이블/레이아웃에서 작은 개선을 찾았지만 문서 파싱에서 콘텐츠 충실도/차트 측면에서 퇴보를 발견했습니다; @scaling01ALE-Bench에서 진전이 없다고 말했고 LisanBench에서 흥미로운 실패 모드를 별도로 지적했습니다. 긍정적인 측면에서 @jeremyphoward는 4.8을 코딩에서 4.7/GPT-5.5보다 덜 지나치게 에이전트 지향적이고 더 협력적이라고 찾았고, @leo_linsky는 이를 이전 Anthropic 출시보다 실질적인 제품 개선이라고 부였습니다.

  • Anthropic은 유용한 플랫폼 수준의 변경 사항도 제공했습니다: @ClaudeDevs프롬프트 캐시를 깨지 않고 진행 중인 대화 시스템 명령어, 그리고 권위 있는 진행 중인 대화 시스템 역할 업데이트를 발표했습니다. 이는 오래 실행되는 에이전트 세션과 비용 제어에 중요합니다. 하지만 가격 책정은 여전히 주요 불만입니다: @jeremyphoward는 Anthropic이 API 저렴성을 위해 거의 아무것도 하지 않았다고 주장했으며, 구독/API 경제가 정당화하기 더 쉽기 때문에 GPT-5.5를 선호합니다. 전체적인 결론: 4.8은 깨끗한 벤치마크 재설정이 아닌 실제 사용을 위한 의미 있는 삶의 질 개선처럼 보입니다.

에이전트 하네스, 다중 턴 RL 버그, 그리고 자율성 주변의 인프라

  • 미묘하지만 중요한 RL 실패 모드가 지적되었습니다: @ClementDelangue는 많은 도구 사용, 다중 턴 RL 훈련 루프가 조용히 깨져 있는 이유에 대한 Hugging Face의 심층 조사를 강조했습니다. 핵심 버그: 모델 출력을 디코딩하고 도구 호출을 파싱한 후 업데이트된 대화를 다시 토큰화하면 토큰화가 변경될 수 있으므로 그래디언트가 모델이 실제로 샘플링한 적 없는 시퀀스에 적용됩니다. 제안된 수정 사항은 엄격한 'Token-In, Token-Out' 규칙입니다: 샘플링된 토큰을 다시 인코딩하지 마세요; 턴 전체에서 단일 토큰 버퍼를 유지하세요. @johnschulman2렌더러가 메시지와 토큰 사이의 기본 인프라이며, 훈련/테스트 불일치, 캐싱 비효율성, 프롬프트 주입 위험을 포함하는 실패 모드가 있다는 더 넓은 점을 강화했습니다.

  • 하네스 설계는 자체적인 최적화 분야가 되고 있습니다: @omarsar0효과적인 피드백 계산(EFC)에 대한 작업을 제시했으며, 원시 토큰/도구 수는 에이전트 성공을 제대로 설명하지 못하지만 EFC는 R² 최대 0.99에 도달한다고 주장하며, 이는 하네스 품질이 총 활동보다 더 중요함을 암시합니다. 이는 @LangChain과 같은 제품화된 튜닝 노력과 일치합니다. 여기서 Deep Agents v0.6하네스 프로필을 일급으로 만들어 최첨단 API보다 20배 이상 저렴한 비용으로 Qwen/Kimi/DeepSeek에서 강력한 성능을 얻으며, @hwchase17은 명시적으로 '다양한 모델은 다양한 프롬프트/도구가 필요하다'고 프레이밍했습니다. @vllm_project기본 가중치 동기화 API를 제공했고 비동기 RL의 일시 정지/재개를 개선했으며, 나중에 fastokens을 추가했습니다. 이는 장문맥/에이전트 작업 부하에서 CPU 토큰화 병목 현상을 줄이는 Rust BPE 토큰화기입니다.

  • 논쟁은 '단일 에이전트 vs 다중 에이전트'에서 '추상화가 이익이 되는 곳'으로 이동하고 있습니다: @OfirPress는 현재의 다중 에이전트 시스템이 대부분 속도 향상이지 능력 잠금 해제가 아니라고 주장했으며; @scaling01은 반대 관점을 취했으며, 군집 스타일 훈련이 더 나은 계획 및 초지능 같은 행동을 산출할 것으로 예상합니다. 어쨌든 실용적인 추세는 명확합니다: 더 많은 팀이 에이전트 관찰성, 추적 및 지속적인 개선 루프를 중심으로 구축하고 있습니다. 예: @Vtrivedy10은 SFT/증류 및 장기 지속적인 학습을 위한 프로덕션 추적 채굴에 관한 것입니다.

오픈 모델, 로컬 AI, 그리고 OSS 툴체인 강화

  • 로컬 우선 및 오픈 가중치 모멘텀이 계속 상승하고 있습니다: @LangChain은 2026년 4월에 AI 팀 3개 중 1개가 오픈 가중치 모델을 실행했다고 말했습니다. 9개월 전 5개 중 1개에서 증가했습니다; @EpochAIResearch는 오픈 가중치 모델이 이제 최첨단 독점 모델보다 약 4개월 뒤처져 있다고 추정했습니다. 툴체인 측면에서 @ggerganovllama.app을 출시했으며, llama.cpp에 공식 웹사이트, 통합 설치 프로그램 및 더 쉬운 로컬 배포 및 제3자 에이전트 통합을 목표로 하는 단일 llama 진입점을 제공했습니다. @ollamaOpenJarvis를 Ollama를 통한 로컬 우선 개인용 AI로 발표했으며, Stanford/Hazy의 'Intelligence Per Watt' 프레이밍에 명시적으로 연결되어 있습니다.

  • 오픈 인프라가 더 엔터프라이즈 형태로 변하고 있습니다: @ClementDelangueHugging Face의 모델과 데이터셋의 약 50%가 이제 비공개이며, HF의 저장소/버킷 제공으로 증가하고 있다고 지적했습니다. 이는 HF가 공개 OSS 인프라일 뿐이라는 생각에 대한 중요한 수정입니다. @abidlabsHugging Face Jobs가 CPU/서버리스 GPU CI를 위해 GitHub 러너를 대체하는 것을 보여주었습니다. @DSPyOSS, @dbreunig 및 기타는 다가오는 4.0 이전에 재설계된 DSPy 문서/프론트 페이지를 제공했으며, 순수 프롬프트가 아닌 프로그래밍 가능한 AI 시스템으로의 온보딩에 초점을 맞추었습니다.

  • 라이선스 및 허용성이 전략적 수단이 되고 있습니다: @kimmonismus는 NVIDIA가 네 가지 오픈 모델 제품군을 Linux Foundation OpenMDW-1.1로 이동하여 가중치/코드/문서/데이터 전반의 법적 조각화를 줄이는 것을 강조했습니다. 새로운 허용 데이터 출시도 중요합니다: @keshigeyanGPIC를 도입했습니다. 100M 쌍의 허용 이미지 코퍼스1M 쌍 벤치마크이며, 시각적 생성을 위한 명시적인 연구 + 상용 사용성이 있습니다.

Google/OpenAI 제품 표면 확장: Managed Agents, Gemini Spark/Omni, 그리고 Windows의 Codex

  • Google은 API에서 소비자 제품으로 '관리 에이전트' 스택을 확장하고 있습니다: @_philschmidGemini API의 Managed Agents를 보여주었습니다: 코드 실행, 웹 접근 및 파일 I/O를 사용하는 샌드박스화된 Linux 환경을 프로비저닝하는 단일 API 호출입니다. 소비자 측면에서 @GeminiAppGemini Spark를 미국 AI Ultra 구독자에게 24/7 개인용 에이전트로 롤아웃했으며, 사용자의 디지털 생태계 전체에서 지시에 따라 작동할 수 있습니다. Google은 또한 Gemini Omni 멀티모달 생성/편집 데모를 계속 밀어붙였고 (, 제품 스레드) Google Flow Agent를 비디오/영화 제작의 창의적인 워크플로우를 위해 발표했습니다 (스레드).

  • OpenAI의 Codex는 지속적인 원격 개발 운영자로 더 가까워지고 있습니다: @OpenAI@OpenAIDevs는 Windows에서의 컴퓨터 사용을 추가했습니다. ChatGPT 모바일 앱에서의 원격 조종을 포함합니다. 후속 UX 개선 사항에는 백그라운드 에이전트에 대한 안정적인 아이콘과 이전 채팅 콘텐츠 전체 검색이 포함되었습니다 (@OpenAIDevs); @reach_vb는 Windows 제어, 모바일 원격 접근 및 프로필/작업 통계에 대한 광범위한 Codex 업데이트를 요약했습니다. 별도로 OpenAI는 gpt-5.5 instant를 업데이트하여 @michpokrass에 따라 아첨, 정확성 및 다국어 성능을 개선했습니다.

  • 이 모든 것은 더 수직 통합된 에이전트 스택을 지향합니다: 모델 + 하네스 + 샌드박스 + UI + 원격 제어 + 가격 책정/할당량입니다. Google은 Gemini에서 할당량을 완화하고 있습니다; OpenAI는 Codex의 운영 표면을 확장하고 있습니다; Cursor는 자동 검토 모드를 서브 에이전트 기반 승인 라우팅과 함께 추가했습니다 (트윗). 공통 패턴은 '챗봇'이 아니라 정책 및 메모리를 갖춘 관리 실행 환경입니다.

관심할 가치가 있는 연구 및 시스템 논문

  • 검색, 검색 및 메모리: @TheTuringPost는 Harvard/MIT의 Bidirectional Evolutionary Search (BES)를 강조했으며, 전방 검색을 역방향 분해 및 진화 연산자와 결합했습니다; 보고된 개선 사항에는 MuSiQue에서 Llama-3.2-3B-Instruct의 4.0%에서 7.0%까지의 개선이 포함됩니다. 검색에서 @_reachsumitLatent Terms를 지적했으며, 희소 BM25 준비 기능을 SAE를 통해 고정 밀집 검색 도구에서 추출할 수 있음을 보여줍니다. @topk_io는 더 효율적인 후기 상호 작용 추론을 위해 Iso-ModernColBERT를 오픈소스로 제공했습니다.

  • 지속적인 학습 및 믿음/상태 관리: @HuggingPapersBeliefTrack를 요약했으며, 최적화된 믿음 상태 관리가 장기 추론 실패를 70% 이상 감소시킨다고 주장했습니다. @AndrewLampinen은 지속적인 학습 분야가 긍정적인 전이 대신 간섭에 지나치게 초점을 맞추었다고 주장했습니다; @victor207755822는 자체 반복 및 CL에 초점을 맞춘 두 번째 DeliAutoResearch SKILL 논문을 제시했습니다.

  • 멀티모달/월드 모델/로봇: NVIDIA 제휴 작업에는 γ-World가 포함되었습니다. 24 FPS로 스트리밍하는 생성 다중 에이전트 월드 모델 (트윗), 그리고 minWM은 실시간 대화형 비디오 월드 모델 프레임워크입니다 (트윗). 로봇 분야에서 @_akhaliqQwen-VLA를 공유했고, @inventorOli는 Robostral의 언어 추종 및 조작 개선을 시연했습니다. 항상 켜진 선제적 에이전트의 경우, @dair_ai는 LLM 웨이크업 결정을 220MiB 시간 그래프 인코더로 대체하는 작업을 제시했으며, 4-83배 더 빠르게 실행하면서 +16.7 평균 F1을 얻었습니다.

상위 트윗 (참여도 기준)

  • OpenAI / 생물학: @OpenAI의 Rosalind Biodefense는 공공 보건 및 생물 방어를 위한 신뢰할 수 있는 접근 생물학 도구를 발표했습니다.

  • Google / 소비자 에이전트: @GeminiApp의 Spark는 항상 켜진 개인용 에이전트를 미국의 AI Ultra 사용자에게 롤아웃했습니다.

  • OpenAI / 개발 도구: @OpenAI의 Codex Windows 지원@OpenAIDevs는 Windows 및 모바일 원격 조종으로 컴퓨터 사용을 확장했습니다.

  • llama.cpp UX 마일스톤: @ggerganov는 로컬 AI를 위한 통합 설치 프로그램 및 CLI 진입점과 함께 llama.app을 출시했습니다.

  • HF / RL 정확성: @ClementDelangue는 도구를 사용하는 다중 턴 RL에 대한 Token-In, Token-Out 경고를 증폭했습니다.

  • 오픈 vs 폐쇄 타이밍 격차: @EpochAIResearch는 오픈 가중치 모델이 이제 최첨단보다 약 4개월 뒤처져 있다고 추정했습니다.


  • StepFun 3.7 Flash (Activity: 637): StepFun은 Step 3.7 Flash를 출시했습니다. 총 196B 매개변수, 11B 활성 및 내장 1.8B ViT가 있는 멀티모달 MoE이며, 최대 400 TPS의 고처리량 에이전트 워크플로우를 위해 광고되고 있으며 약 128GB RAM으로 로컬에서 실행할 수 있다고 보고됩니다. 보고된 벤치마크는 플래시 클래스/로컬 모델에 대해 비정상적으로 강력한 위치에 있습니다: SWE-Bench Pro 56.26%, DeepSearchQA F1 92.82%, HLE w/tools 47.2, 그리고 Terminal-Bench, Toolathlon, ClawEval 및 기타 에이전트/도구 사용 작업에서 Step 3.5 Flash에 비해 큰 개선이 있습니다. 직접 모델 아티팩트는 Hugging Face에서 BF16, FP8, NVFP4, 및 GGUF로 사용할 수 있으며, 일일 0 llama.cpp 지원 PRllama.cpp#23274의 관련 MTP 작업이 있습니다. 댓글 작성자들은 모델을 기술적으로 이상하다고 특징지었습니다: 숨겨진/생각 추적이 거의 일관성 없다고 설명되지만, 최종 답변은 '완벽할' 수 있고 훨씬 더 큰 >1TB 모델과 경쟁할 수 있습니다; 한 사용자는 이전 Step 3.5 '무한 생각' 문제가 해결된 것으로 보인다고 말합니다. 특히 4x3090 클래스 하드웨어를 가진 사용자들 사이에서 로컬 배포에 대한 신중한 열정이 있으며, StepFun이 포크만 유지하는 대신 llama.cpp 지원을 업스트림했다는 점에 감사합니다.

    • StepFun은 Hugging Face에서 여러 Step-3.7-Flash 체크포인트를 출시했습니다: BF16 (Step-3.7-Flash), FP8 (Step-3.7-Flash-FP8), NVFP4 (Step-3.7-Flash-NVFP4), 및 GGUF (Step-3.7-Flash-GGUF). 한 사용자는 이전 Step 3.5 Flash '무한 생각' 문제가 해결된 것으로 보인다고 보고했으며, 여전히 이상한 중간 추론 스타일을 가지고 있음에도 불구하고 3.7을 더 사용할 수 있게 만듭니다.

    • StepFun의 업스트림 PR을 통한 일일 0 llama.cpp 활성화가 있습니다: ggml-org/llama.cpp#23845, Step 3.5의 포크 기반 지원과 대조적입니다. MTP 지원에 대한 별도의 커뮤니티 PR은 ggml-org/llama.cpp#23274에 있지만, 댓글 작성자들은 Step 3.7 및 현재 master를 위해 업데이트해야 한다고 지적합니다.

    • 2x Pro 6k에서 64개의 동시 얕은 문맥 요청을 사용하는 NVFP4 체크포인트의 vLLM 야간 테스트는 약 2200 tok/s에 도달했습니다. 보고된 구성은 tensor-parallel-size 2, --enable-expert-parallel, --quantization modelopt, --kv-cache-dtype fp8, --reasoning-parser step3p5, 및 StepFun 도구 호출 파싱을 사용했습니다; vLLM은 GPU KV 캐시 크기 1,667,645 토큰 및 262,144 토큰/요청에 대해 최대 동시성 6.36x를 보고했습니다.

Most people are still digesting the massive Anthropic news from yesterday.

We’re taking the opportunity to solicit the leading AI FDE’s in the world for AIE’s new Forward Deployed Engineer track, mirroring similar pushes from both OpenAI DeployCo and Anthropic DeployCo:

as well as AIE’s new Founders program, where we are doing our version of the Startup Battlefield, a competitive pitch contest anchored by YCombinator’s Garry Tan and Howie Lu’s $10 Million dollar Hyperagent contest. Sign up (and book hotel!) for details today if you are keen.

AI News for 5/28/2026-5/29/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews’ website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!


Claude Opus 4.8 Rollout, Benchmark Friction, and API Ergonomics

  • Opus 4.8 landed into a noisy, mixed eval landscape: multiple independent benches converged on “incremental but not dominant.” @arena pushed 200+ frontend/code tests comparing Opus 4.8 against prior Opus variants, Gemini, and GLM; @theo reported CursorBench shows it as more efficient but slightly worse than 4.7 within margin of error; @jerryjliu0 and @llama_index found small gains on tables/layout but regressions on content faithfulness/charts in document parsing; @scaling01 said no progress on ALE-Bench and separately flagged interesting failure modes on LisanBench. On the positive side, @jeremyphoward found 4.8 less over-agentic and more cooperative than 4.7/GPT-5.5 in coding, while @leo_linsky called it a tangible product improvement over prior Anthropic releases.

  • Anthropic also shipped useful platform-level changes: @ClaudeDevs announced mid-conversation system instructions without breaking prompt cache, plus authoritative mid-conversation system-role updates, which matters for long-running agent sessions and cost control. But pricing remains a major complaint: @jeremyphoward argued Anthropic has done little for API affordability, preferring GPT-5.5 partly because subscription/API economics are easier to justify. Overall takeaway: 4.8 looks like a meaningful quality-of-life release for real use, not a clean benchmark reset.

Agent Harnesses, Multi-Turn RL Bugs, and the Infrastructure Around Autonomy

  • A subtle but important RL failure mode got called out: @ClementDelangue highlighted a Hugging Face deep-dive on why many tool-using, multi-turn RL training loops are silently broken. The core bug: decoding model output, parsing tool calls, then re-tokenizing the updated conversation can change tokenization, so gradients are applied to sequences the model never actually sampled. The proposed fix is a strict “Token-In, Token-Out” rule: never re-encode sampled tokens; keep a single token buffer across turns. @johnschulman2 reinforced the broader point that renderers are foundational infrastructure between messages and tokens, with failure modes spanning train/test mismatch, caching inefficiency, and prompt injection risk.

  • Harness design is becoming its own optimization discipline: @omarsar0 surfaced work on Effective Feedback Compute (EFC), claiming raw token/tool counts explain agent success poorly while EFC reaches R² up to 0.99, implying harness quality matters more than gross activity. This lines up with productized tuning efforts like @LangChain, where Deep Agents v0.6 makes harness profiles first-class to get strong performance from Qwen/Kimi/DeepSeek at 20x+ lower cost than frontier APIs, and @hwchase17 explicitly framing “different models need different prompts/tools.” @vllm_project shipped native weight syncing APIs and improved pause/resume for async RL, and later added fastokens, a Rust BPE tokenizer to reduce CPU tokenization bottlenecks in long-context/agentic workloads.

  • Debate is shifting from “single vs multi-agent” to where the abstraction pays: @OfirPress argued current multi-agent systems are mostly speedups, not capability unlocks; @scaling01 took the opposite view, expecting swarm-style training to yield better planning and superintelligence-like behavior. Either way, the practical trend is clear: more teams are building around agent observability, traces, and continual improvement loops, e.g. @Vtrivedy10 on mining production traces for SFT/distillation and long-horizon continual learning.

Open Models, Local AI, and the OSS Toolchain Tightening Up

  • Local-first and open-weight momentum continues to rise: @LangChain said 1 in 3 AI teams ran an open-weights model in April 2026, up from 1 in 5 nine months earlier; @EpochAIResearch estimated open-weight models now lag frontier proprietary models by about four months. On the toolchain side, @ggerganov launched llama.app, giving llama.cpp an official website, a unified installer, and a single llama entrypoint aimed at easier local deployment and third-party agent integration. @ollama announced OpenJarvis as a local-first personal AI via Ollama, explicitly tied to Stanford/Hazy’s “Intelligence Per Watt” framing.

  • Open infrastructure is getting more enterprise-shaped: @ClementDelangue noted that ~50% of models and datasets on Hugging Face are now private, rising with HF’s storage/buckets offering; this is an important correction to the idea that HF is only public OSS infrastructure. @abidlabs showed Hugging Face Jobs replacing GitHub runners for CPU/serverless GPU CI. @DSPyOSS, @dbreunig, and others shipped a redesigned DSPy docs/front page ahead of a coming 4.0, focused on onboarding into programmable AI systems rather than pure prompting.

  • Licensing and permissiveness are becoming strategic levers: @kimmonismus highlighted NVIDIA moving its four open model families to Linux Foundation OpenMDW-1.1, reducing legal fragmentation across weights/code/docs/data. New permissive data releases also matter: @keshigeyan introduced GPIC, a 100M-pair permissive image corpus plus 1M-pair benchmark for visual generation, with explicit research + commercial usability.

Google/OpenAI Product Surface Expands: Managed Agents, Gemini Spark/Omni, and Codex on Windows

  • Google is widening the “managed agent” stack from API to consumer product: @_philschmid showed Managed Agents in the Gemini API: a single API call provisioning a sandboxed Linux environment with code execution, web access, and file I/O. On the consumer side, @GeminiApp rolled out Gemini Spark to U.S. AI Ultra subscribers as a 24/7 personal agent that can operate across a user’s digital ecosystem under direction. Google also kept pushing Gemini Omni multimodal generation/editing demos (example, product thread) and announced Google Flow Agent for creative workflows in video/film production (thread).

  • OpenAI’s Codex is moving closer to a persistent remote dev operator: @OpenAI and @OpenAIDevs added computer use on Windows, including remote steering from the ChatGPT mobile app. Follow-on UX improvements included stable identicons for background agents and search across prior chat content (@OpenAIDevs); @reach_vb summarized broader Codex updates around Windows control, mobile remote access, and profile/task stats. Separately, OpenAI updated gpt-5.5 instant to improve sycophancy, factuality, and multilingual performance per @michpokrass.

  • This all points to more vertically integrated agent stacks: model + harness + sandbox + UI + remote control + pricing/quotas. Google is smoothing quotas on Gemini (@joshwoodward); OpenAI is expanding Codex’s operating surface; Cursor added auto-review mode with subagent-based approval routing (tweet). The common pattern is less “chatbot,” more managed execution environment with policy and memory.

Research and Systems Papers Worth Attention

  • Search, retrieval, and memory: @TheTuringPost highlighted Bidirectional Evolutionary Search (BES) from Harvard/MIT, combining forward search with backward decomposition and evolutionary operators; reported gains include Llama-3.2-3B-Instruct on MuSiQue from 4.0% to 7.0%. In retrieval, @_reachsumit pointed to Latent Terms, showing sparse BM25-ready features can be extracted from frozen dense retrievers via SAEs. @topk_io open-sourced Iso-ModernColBERT for more efficient late-interaction inference.

  • Continual learning and belief/state management: @HuggingPapers summarized BeliefTrack, claiming optimized belief-state management cuts long-horizon reasoning failures by 70%+. @AndrewLampinen argued the continual learning field over-focused on interference instead of positive transfer; @victor207755822 presented a second DeliAutoResearch SKILL paper focused on self-iteration and CL.

  • Multimodal/world models/robotics: NVIDIA-affiliated work included γ-World, a generative multi-agent world model streaming at 24 FPS (tweet), and minWM, a real-time interactive video world model framework (tweet). In robotics, @_akhaliq shared Qwen-VLA, and @inventorOli demoed Robostral’s language-following and manipulation improvements. For always-on proactive agents, @dair_ai surfaced work replacing LLM wake-up decisions with a 220MiB temporal-graph encoder, gaining +16.7 mean F1 while running 4–83x faster.

Top tweets (by engagement)

  • OpenAI / biology: @OpenAI on Rosalind Biodefense announced trusted-access biology tooling for public health and biodefense.

  • Google / consumer agents: @GeminiApp on Spark rolled out its always-on personal agent to AI Ultra users in the U.S.

  • OpenAI / dev tools: @OpenAI on Codex Windows support and @OpenAIDevs expanded computer use to Windows plus mobile remote steering.

  • llama.cpp UX milestone: @ggerganov launched llama.app with a unified installer and CLI entrypoint for local AI.

  • HF / RL correctness: @ClementDelangue amplified the Token-In, Token-Out warning for multi-turn RL with tools.

  • Open vs closed timing gap: @EpochAIResearch estimated open-weight models are now about 4 months behind the frontier.


  • StepFun 3.7 Flash (Activity: 637): StepFun released Step 3.7 Flash, a multimodal MoE with 196B total parameters, 11B active, and a built-in 1.8B ViT, advertised for high-throughput agent workflows up to 400 TPS and reportedly runnable locally with ~128GB RAM. Reported benchmarks position it unusually strongly for a flash-class/local model: SWE-Bench Pro 56.26%, DeepSearchQA F1 92.82%, HLE w/tools 47.2, plus large gains over Step 3.5 Flash on Terminal-Bench, Toolathlon, ClawEval, and other agentic/tool-use tasks. Direct model artifacts are available on Hugging Face in BF16, FP8, NVFP4, and GGUF, with day-0 llama.cpp support PR and related MTP work in llama.cpp#23274. Commenters characterize the model as technically odd: its hidden/thinking traces are described as nearly incoherent, but final answers can be “perfect” and competitive with much larger >1TB models; one user says the prior Step 3.5 “infinite thinking” issue appears fixed. There is cautious enthusiasm around local deployment, especially for users with 4x3090-class hardware, and appreciation that StepFun upstreamed llama.cpp support instead of only maintaining a fork.

    • StepFun released multiple Step-3.7-Flash checkpoints on Hugging Face: BF16 (Step-3.7-Flash), FP8 (Step-3.7-Flash-FP8), NVFP4 (Step-3.7-Flash-NVFP4), and GGUF (Step-3.7-Flash-GGUF). One user reports the prior Step 3.5 Flash “infinite thinking” issue appears fixed, making 3.7 more usable despite still having an odd intermediate reasoning style.

    • There is day-0 llama.cpp enablement via StepFun’s upstream PR: ggml-org/llama.cpp#23845, contrasting with Step 3.5’s fork-based support. A separate community PR for MTP support exists at ggml-org/llama.cpp#23274, though commenters note it needs updating for Step 3.7 and current master.

    • A vLLM nightly test of the NVFP4 checkpoint on 2x Pro 6k with 64 concurrent shallow-context requests reached about 2200 tok/s. The reported config used tensor-parallel-size 2, --enable-expert-parallel, --quantization modelopt, --kv-cache-dtype fp8, --reasoning-parser step3p5, and StepFun tool-call parsing; vLLM reported GPU KV cache size 1,667,645 tokens and max concurrency 6.36x for 262,144 tokens/request.

원문 보기 https://www.latent.space/p/ainews-founders-and-forward-deployed