AI·News
뒤로

모든 것이 컨덕터다 - Latent.Space

[AINews] Everything is Conductor - Latent.Space

AI가 어떻게 헬스케어를 개선하고 있는지 관심이 있다면, 오늘 나온 첫 번째 팟캐스트를 청취해 주세요. 그리고 이 분야의 최고의 엔지니어들을 만나고 싶다면 발표 신청을 해주세요!


진화 생물학에서 "모든 것은 게다"라는 농담이 있습니다. 게의 형태는 지구에서 최소 7번 독립적으로 진화했습니다:

오늘 칼럼의 직접적인 계기는 GitHub이 새로운 GitHub App을 발표한 것입니다. Oren Melamed가 말했듯이, "만약 당신이 코드 우선이라면 좋은 VS Code를 유지하고 싶을 수 있지만, 만약 당신이 에이전트 우선이고 GitHub 우선이라면 좋은 경험을 하게 될 것입니다!"

음, 이것은 익숙해 보이네요…

이것은 물론 이 형태를 개척한 Conductor에게 매우 좋은 소식이며, Y Combinator의 AI에 심취한 CEO인 Garry Tan이 큰 팬입니다:

이제 두 개의 10억 달러 규모의 질문이 있습니다:

  • 형태를 개척했다면, 다른 사람들이 이를 복사하는 동안 어떻게 수익화할 것인가?

  • 그 다음은 무엇인가?

대체 역사에 관심이 있는 분들을 위해, 지난해 잠깐 유행했던 칸반 보드 형태에 어떤 일이 일어났는지를 보여주겠습니다:

그리고 Maggie Appleton이 GitHub Ace 뒤의 디자인 사고를 분석한 것입니다:

2026년 5월 13일-5월 14일 AI 뉴스. 우리는 12개의 서브레딧, 544개의 트위터를 확인했고 더 이상의 Discord는 없습니다. AINews 웹사이트를 통해 모든 과거 이슈를 검색할 수 있습니다. 상기시켜 드리자면, AINews는 이제 Latent Space의 섹션입니다. 이메일 빈도를 선택하거나 취소할 수 있습니다!


코딩 에이전트 도구: Codex 모바일, GitHub의 새 앱, VS Code 멀티 에이전트 UX 및 Hermes/Codex 상호 운용성

  • OpenAI는 Codex를 일일 워크플로우에 더 깊이 밀어붙였습니다: 이 세트의 가장 큰 제품 출시는 ChatGPT 모바일 앱의 Codex로, 사용자가 작업을 시작하고, 결과를 검토하고, 명령을 승인하고, Codex가 랩톱, Mac mini 또는 개발 상자에서 계속 실행되는 동안 원격으로 실행을 조종할 수 있습니다. OpenAI는 또한 원격 SSH가 이제 관리되는 원격 환경에서 일반적으로 사용 가능하다고 언급했으며, 나중에 Codex 루프 주변의 비즈니스/엔터프라이즈 자동화를 위한 프로그래밍 방식 액세스 토큰을 추가했습니다 (OpenAI, OpenAI 후속글, 모바일 워크플로우에 대한 @OpenAIDevs, 원격 SSH에 대한 @OpenAIDevs, 훅/토큰에 대한 @OpenAIDevs). 별도로, OpenAI는 Codex용 Windows 샌드박스에 대한 기술 작성을 발표했으며, 코딩 에이전트를 위한 유틸리티와 제한된 머신 액세스 간의 트레이드오프에 중점을 두었습니다 (OpenAI 개발자, @gdb).

  • 더 광범위한 IDE/앱 생태계는 "에이전트 우선" UX로 수렴하고 있습니다: GitHub는 GitHub Copilot App의 기술 미리보기를 발표했으며, 평행 워크스트림, 저장소/PR 수명 주기 관리 및 모델 유연성을 위한 데스크톱 환경으로 설명합니다 (GitHub, @adrianmg, @OrenMe). VS Code는 멀티 에이전트, 멀티 프로젝트 워크플로우를 위한 새로운 에이전트 창, vscode.dev/agents를 통한 브라우저/모바일 지원, BYOK 개선사항 및 압축된 터미널 출력과 같은 토큰 효율성 기능을 출시했습니다 (VS Code, 원격/브라우저 지원, BYOK 업데이트, 터미널 압축). 오픈소스 쪽에서 Nous/Hermes AgentCodex 런타임 통합을 추가했으며, 사실상 OpenAI 기반 턴을 Codex CLI/앱 서버를 통해 라우팅하고 Hermes 세션에서 ChatGPT 구독 기반 실행을 재사용합니다 (Nous Research, @Teknium, @HermesAgentTips). Kimi는 또한 Kimi Web Bridge를 출시했으며, Kimi Code CLI, Claude Code, Cursor, Codex, Hermes 등에 인간 같은 웹 상호 작용을 노출하는 브라우저 확장 프로그램입니다 (Moonshot AI).

에이전트 인프라 및 자가 개선 루프: LangSmith Engine, SmithDB, 샌드박스 및 지속적 학습

  • LangChain의 출시 스택은 가장 실질적인 에이전트 인프라 릴리스 클러스터였습니다: SmithDB에이전트 추적 데이터를 위해 목적 지어진 데이터베이스이며, LangSmith Engine은 추적을 사용하고, 실패를 클러스터링하고, 가능성 있는 코드 문제를 식별하고 수정/평가를 제안합니다. 즉, 관찰 가능성을 수동 검사가 아닌 개선 루프로 전환합니다 (@hwchase17, Engine에 대한 @caspar_br, @bentannyhill). 커뮤니티 논평은 SmithDB의 객체 저장소로의 아키텍처 이동과 이 워크로드 형태에 대한 사용자 정의 저장소/쿼리 경로를 강조했습니다 (SmithDB에 대한 @caspar_br, @ngates_, 중국어 요약).

  • LangChain은 또한 LangChain Labs를 발표했습니다. 에이전트를 위한 지속적 학습을 중심으로 한 응용 연구 노력으로, 프로덕션 추적이 학습 신호, 평가 및 장기 목표에 대한 목표 지정 능력 개선이 되어야 한다는 논제입니다 (LangChain, @jakebroekhuizen, @willccbb, Prime Intellect 파트너십).

  • 에이전트를 위한 실행 격리는 계속 성숙하고 있습니다: W&B/CoreWeave는 RL, 도구 사용 및 평가 워크로드를 위한 격리된 실행을 위해 CoreWeave Sandboxes를 출시했으며, 명시적으로 rm -rf /와 같은 파괴적인 명령을 규모 있게 테스트합니다 (Weights & Biases). 유사한 정신으로, 에이전트 디버깅 주변의 오픈소스/로컬 개발 도구가 나타났습니다: @benhylak는 Codex/Claude Code에 노출된 추적을 포함한 무료 로컬 에이전트 디버깅 스택과 자동화된 평가 작성을 강조했습니다.

Anthropic Claude Code 제한 및 개발자 역발동

  • 가장 날카로운 생태계 반응은 Anthropic이 Claude Code 사용을 제한/재구성한 것에 대한 것이었습니다, 특히 제3자 래퍼와 높은 볼륨의 프로그래밍 방식 워크플로우의 경우. Theo의 스레드는 초점이 되었습니다: 그는 T3 Code 사용자가 공식적으로 지원되는 경로를 통해 통합했음에도 불구하고 극적인 속도 제한 감소로 실질적으로 타격을 받았다고 주장했으며, 이후 구독을 취소했으며 다른 사람들이 오픈소스 기부에 대한 취소 스크린샷을 게시하도록 권장했습니다 (@theo 초기 스레드, 구독 취소, 기부 스레드, T3 Code 설명). 다른 저명한 빌더들은 Anthropic이 사실상 오픈소스 개발자/앱을 차단했으며 claude -p를 중심으로 구축된 하네스를 불안정하게 했다는 불만을 반복했습니다 (@theo, @andersonbcdefg).

  • 더 전략적인 반론도 있었습니다: 일부 사용자는 Anthropic이 제3자 앱에 대한 과도하게 보조된 정액 요금 토큰을 개발자에게 빚지고 있지 않다고 주장했으며, 생태계는 더 명시적인 API 경제 및 비싼 모델과 저렴한 모델 간의 더 똑똑한 라우팅으로 이동할 가능성이 높다고 주장했습니다 (Sentdex, @tadasayy). 여전히, 가시적인 이탈 신호는 상당했으며, 회신 스레드 취소만으로도 의미 있는 ARR 손실을 추정하는 사용자가 포함되어 있습니다 (@thegenioo, Uncle Bob Martin, 나중에 Theo). 에이전트 엔지니어의 경우, 실무적 핵심은 직관적입니다: 구독 기반 하네스는 안정적인 플랫폼 원시 재료가 아닙니다; 제공자/모델 추상화 및 BYOK 경로는 점점 더 필수적으로 보입니다.

로봇공학 및 구현된 AI: Figure의 24/7 정렬 스트림 및 광범위한 자동화 신호

  • Figure의 라이브스트림이 로봇공학 논의를 지배했습니다. 회사는 먼저 완전히 자율적이고 감독받지 않는 8시간의 작업을 보여준 다음, 24/7 라이브스트림으로 확장했으며, 결국 실패 없이 24시간 이상의 지속적인 자율 운영, 소규모 패키지 정렬에서 인간 패리티 처리량 주변을 보고했으며, 완전히 온보드에서 실행되는 Helix-02로 운영되고 OOD 케이스에 대한 자동 리셋 - 명시적으로 원격 조종 없음을 주장합니다 (Figure CEO Brett Adcock, 24h 업데이트, 상세 기술 설명, 2일차 라이브스트림). 반복되는 "Bob, Frank, and Gary" 업데이트는 더 부푼 느낌이었지만, 핵심 신호는 프로덕션 같은 가동시간에서의 지속적인 자율 운영이었습니다.

  • 해석은 Figure 특정에 대한 회의론과 로봇공학 가속에 대한 광범위한 확신 사이에서 나뉘었습니다. 일부 논평자들은 비평가들이 이런 시위들이 단기 노동 대체에 미치는 영향을 과소평가하고 있다고 주장했으며, 다른 사람들은 회의론이 로봇공학이라는 범주보다는 Figure에 더 많이 지향되었다고 언급했습니다 (@cloneofsimo, @iScienceLuvr, @kimmonismus). 어쨌든, 이것은 배치에서 가장 명확한 "지속적인 가동시간" 시위 중 하나였습니다.

연구, 벤치마크 및 오픈 모델: 확산 LM, 시계열 FM, 기계적 해석 가능성 및 RL/검색

  • 기술적으로 중요한 모델/연구 릴리스가 두드러졌습니다:

    • Zyphra의 ZAYA1-8B-Diffusion-Preview제한된 품질 손실을 지닌 자동 회귀 생성과 비교해 4.6–7.7배 디코딩 속도 향상을 주장하며, 확산 LM이 더 저렴한 롤아웃과 더 풍부한 생성 모드를 활성화한다는 일반적인 경우를 제시합니다 (Zyphra).

    • Datadog의 Toto 2.0Apache 2.0 하에서 4M에서 2.5B 파라미터5개의 오픈 가중치 시계열 예측 모델을 릴리스했으며, BOOM, GIFT-Eval 및 TIME에서 #1을 주장하고, 더 중요하게는 스케일링 법칙이 마침내 TSFM에 대해 깔끔하게 유지될 수 있다는 증거입니다 (Datadog, @atalwalkar, @ClementDelangue).

    • Goodfire의 해석 가능성 게시는 Llama가 산술을 위해 기하학적 "모양 회전 계산기" / Fourier 특징 같은 메커니즘을 사용한다고 주장했으며, 순수 사후 설명이 아닌 조종 기반 증거로 (GoodfireAI, 후속글).

  • RL/검색 및 최적화기 스타일 진행에서, 여러 스레드가 주목할 만했습니다: LLM RL을 단순히 PPO 대 GRPO가 아닌 생성 / 필터 / 제어 / 재생 전반의 롤아웃 엔지니어링으로 프레임하는 설문 (The Turing Post); 유용한 롤아웃을 능동적으로 찾기 위해 특권 정보를 사용하는 교육학적 RL (Souradip Chakraborty, @lateinteraction); 및 Prime Intellect의 자율 최적화기 검색 nanoGPT 스피드런 벤치마크에서, Opus 4.7이 2930 스텝GPT-5.5 2950에 도달했으며, ~10k 실행 / ~14k H200 시간 후 2990 인간 기준선을 이겼습니다 (Prime Intellect, @eliebakouch). 또한 주목할 만한 점: Kimi K2.6은 Finance Agent Benchmark V2에서 #1 오픈 가중치 모델로 보고되었으며 (Moonshot AI), Ring-2.6-1T는 오픈 릴리스로서 일일 0 vLLM 지원을 얻었습니다 (vLLM).

상위 트윗 (참여도별)

  • OpenAI의 Codex 모바일 출시는 참여도와 실무적 관련성에 의해 가장 명확한 제품 우승자였습니다: ChatGPT 모바일에서 실행 중인 코딩 에이전트 세션의 원격 제어/검토 (OpenAI).

  • Theo의 Claude Code 역발동 스레드는 플랫폼 위험 및 구독 기반 에이전트 워크플로우를 중심으로 가장 강한 개발자 정서 이동을 포착했습니다 (@theo, @theo 기부 스레드).

  • Figure의 자율 휴머노이드 정렬 라이브스트림은 가장 논의된 구현된 AI 시위 중 하나로 남았으며, 특히 24시간 표시를 넘었을 때 온보드 정책 실행과 teleop 없음에 대한 상세 주장이 포함되어 있습니다 (Brett Adcock).

  • GitHub의 Copilot AppLangChain의 Engine/SmithDB/Labs는 이 주기에서 에이전트 엔지니어를 위한 가장 중요한 비 OpenAI 도구 출시였습니다 (GitHub, LangChain, @hwchase17).

  • Prime Intellect의 자율 최적화기 검색 결과는 코딩 에이전트가 앱 개발만이 아닌 개방형 ML 최적화에 루프된 구체적인 예시로서 관심을 기울일 가치가 있습니다 (Prime Intellect).


  • LLaMA.cpp + TurboQuant에서 Qwen용 다중 토큰 예측 (MTP) (활동: 514): 패치된 llama.cpp 포크는 Qwen에 대한 다중 토큰 예측 (MTP) 지원을 추가하고 TurboQuant를 사용하여 MacBook Pro M5 Max 64GB에서 21 tok/s34 tok/s를 보고하며, 청구된 90% MTP 수용률을 주장합니다; 원본 속도 향상은 ~62%이며, 40%가 아닙니다. 코드는 AtomicBot-ai/atomic-llama-cpp-turboquant에서 발행되며, AtomicChat/qwen-36-udt-mtp HF 컬렉션에서 Qwen 3.6 27B/35B용 GGUF MTP 정량화를 포함합니다. 논평자들은 TurboQuant 프레이밍에 의문을 제기했으며, 종종 f16, q8 또는 q4보다 느리다고 주장했습니다; 한 명은 TurboQuant PR을 llama.cpp에 거절했다고 언급했으며, 그 이유는 기존 Q4 KV-정량화 회전 지원이 이미 대부분의 이점을 포함하고 있으며, 이득은 주로 품질 저하가 우려되는 Q3에서만 주요하다고 했습니다. 다른 사람들은 더 높은 추측/MTP 수용률과 토큰/s가 결과물 패리티를 단독으로 확립하지 않으므로 품질/평가 데이터를 요청했습니다.

    • 여러 논평자들은 TurboQuant가 llama.cpp에서 일반적으로 더 빠르지 않다고 주장했으며, 한 명은 f16, q8 또는 q4보다 느릴 수 있다고 언급했습니다. 이전 TurboQuant PR을 llama.cpp에 보냈을 때 거절되었다고 보도되었으며, llama.cpp는 이미 Q4 KV 캐시 정량화에 대한 회전을 구현하고 있고, 표준 Q4가 더 빠르고 거의 이득이 없었기 때문입니다; TurboQuant는 Q3 주변에서만 도움을 줄 수 있지만, 주목할 만한 품질 저하를 동반합니다.

    • 사용자들은 속도, 품질 및 컨텍스트 트레이드오프를 구분했습니다: TurboQuant 없는 MTP는 속도를 위해 제안되었으며, 표준 Q4_1 또는 Q4_0 정량화는 더 긴 컨텍스트/품질 보존을 위해 권장되었습니다. 한 논평자는 TurboQuant가 Mac 특정 이점이 있었는지 의문했으며, 이득이 광범위하게 유용하기보다는 하드웨어 또는 워크로드 의존적임을 시사했습니다.

    • 한 논평자는 내장 MTP 대신 dflash를 사용하도록 권장했으며, 이것이 30–40% 더 빠르다고 주장했습니다. 또한 이미 풀 요청이 있다고 언급했으며, 구현 작업이 이전 llama.cpp 통합 노력을 복제할 수 있음을 시사했습니다.

If you’re interested in how AI is improving Healthcare, tune in to our first pod on it out today, and if you want to meet other top engineers in the field, apply to speak!


There’s an ongoing joke in evolutionary biology that “Everything is Crab”: the Crab form factor has independently evolved at least 7 times on earth:

The proximate cause of today’s op-ed is GitHub announcing the new GitHub App - as Oren Melamed says, “If you are code first you might wanna stay on good ol’ VS Code, but if you are agent first and GitHub first you are in for a treat!

Hmm. That looks familiar…

This is of course very nice for Conductor, which pioneered this form factor, and now has a loudly vocal fan in Garry Tan, the AI pilled CEO of Y Combinator:

Now for two billion dollar questions:

  • if you pioneered a form factor, how do you monetize it while others copy it?

  • what’s next after this one?

For those interested in alternate histories, here’s what happened with the Kanban board form factor that briefly trended last year:

And here is Maggie Appleton breaking down the design thinking behind GitHub Ace:

AI News for 5/13/2026-5/14/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews’ website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!


Coding Agent Tooling: Codex Mobile, GitHub’s New App, VS Code Multi-Agent UX, and Hermes/Codex Interop

  • OpenAI pushed Codex further into day-to-day workflows: the biggest product launch in this set was Codex in the ChatGPT mobile app, letting users start tasks, review outputs, approve commands, and steer execution remotely while Codex continues running on a laptop, Mac mini, or devbox. OpenAI also noted Remote SSH is now generally available for managed remote environments, and later added hooks plus programmatic access tokens for Business/Enterprise automation around the Codex loop (OpenAI, OpenAI follow-up, @OpenAIDevs on mobile workflow, @OpenAIDevs on Remote SSH, @OpenAIDevs on hooks/tokens). Separately, OpenAI published a technical writeup on the Wi`ndows sandbox for Codex, focused on the tradeoff between utility and constrained machine access for coding agents (OpenAI Devs, @gdb).

  • The broader IDE/app ecosystem is converging on “agent-first” UX: GitHub announced a technical preview of the GitHub Copilot App, described as a desktop environment for parallel workstreams, repo/PR lifecycle management, and model flexibility (GitHub, @adrianmg, @OrenMe). VS Code shipped a new Agents window for multi-agent, multi-project workflows, browser/mobile support via vscode.dev/agents, BYOK improvements, and token-efficiency features like compressed terminal output (VS Code, remote/browser support, BYOK updates, terminal compression). On the open side, Nous/Hermes Agent added Codex runtime integration, effectively routing OpenAI-backed turns through Codex CLI/app-server and reusing ChatGPT subscription-backed execution in Hermes sessions (Nous Research, @Teknium, @HermesAgentTips). Kimi also shipped Kimi Web Bridge, a browser extension exposing human-like web interaction to Kimi Code CLI, Claude Code, Cursor, Codex, Hermes, and others (Moonshot AI).

Agent Infrastructure and Self-Improvement Loops: LangSmith Engine, SmithDB, Sandboxes, and Continual Learning

  • LangChain’s launch stack was the most substantive agent-infra release cluster: SmithDB is a database purpose-built for agent trace data, while LangSmith Engine consumes traces, clusters failures, identifies likely code issues, and proposes fixes/evals—turning observability into an improvement loop rather than passive inspection (@hwchase17, @caspar_br on Engine, @bentannyhill). Community commentary emphasized SmithDB’s architectural shift toward object storage and a custom storage/query path for this workload shape (@caspar_br on SmithDB, @ngates_, Chinese summary).

  • LangChain also announced LangChain Labs, an applied research effort around continual learning for agents, with the thesis that production traces should become training signal, evals, and targeted capability improvements over long horizons (LangChain, @jakebroekhuizen, @willccbb, Prime Intellect partnership).

  • Execution isolation for agents continues to mature: W&B/CoreWeave launched CoreWeave Sandboxes for isolated execution in RL, tool use, and eval workloads, explicitly testing destructive commands like rm -rf / at scale (Weights & Biases). In a similar spirit, open-source/local dev tooling surfaced around agent debugging: @benhylak highlighted a free local agent debugging stack with traces exposed to Codex/Claude Code for automated eval authoring.

Anthropic Claude Code Restrictions and the Developer Backlash

  • The sharpest ecosystem reaction was to Anthropic restricting/reshaping Claude Code usage, especially for third-party wrappers and high-volume programmatic workflows. Theo’s thread became the focal point: he argued users of T3 Code were effectively hit with dramatic rate-limit reductions despite integrating through the officially supported path, and he subsequently cancelled his subscription while encouraging others to post cancellation screenshots for open-source donations (@theo initial thread, subscription cancellation, donation thread, T3 Code clarification). Other prominent builders echoed the complaint that Anthropic had effectively cut off open-source devs/apps and destabilized harnesses built around claude -p (@theo, @andersonbcdefg).

  • There was also a more strategic counterargument: some users argued Anthropic does not owe developers heavily subsidized flat-fee tokens for third-party apps, and that the ecosystem will likely shift toward more explicit API economics and smarter routing between expensive and cheap models (Sentdex, @tadasayy). Still, the visible churn signal was nontrivial, including users estimating meaningful ARR loss from reply-thread cancellations alone (@thegenioo, Uncle Bob Martin, Theo later). For agent engineers, the practical takeaway is straightforward: subscription-backed harnesses are not stable platform primitives; provider/model abstraction and BYOK paths look increasingly mandatory.

Robotics and Embodied AI: Figure’s 24/7 Sorting Stream and the Broader Automation Signal

  • Figure’s livestream dominated robotics discussion. The company first showed 8 hours of fully autonomous, unsupervised work, then extended to a 24/7 livestream, eventually reporting 24+ hours of continuous autonomous operation without failure, around human-parity throughput on small package sorting, and operation by Helix-02 running entirely onboard with automatic resets for OOD cases—explicitly claiming no teleoperation (Figure CEO Brett Adcock, 24h update, detailed technical clarifications, Day 2 livestream). The repeated “Bob, Frank, and Gary” updates were fluffier, but the core signal was sustained autonomous operation at production-like uptime.

  • Interpretation split between skepticism about Figure specifically and broader conviction about robotics acceleration. Some commenters argued that critics were underestimating what these demonstrations imply for near-term labor substitution, while others noted skepticism was directed more at Figure than at robotics as a category (@cloneofsimo, @iScienceLuvr, @kimmonismus). Either way, this was one of the clearest “continuous uptime” demos in the batch.

Research, Benchmarks, and Open Models: Diffusion LMs, Time-Series FMs, Mechanistic Interpretability, and RL/Search

  • A few technically significant model/research releases stood out:

    • Zyphra’s ZAYA1-8B-Diffusion-Preview claims a 4.6–7.7x decoding speedup versus autoregressive generation with limited quality loss, making the usual case that diffusion LMs enable cheaper rollouts and richer generation modes (Zyphra).

    • Datadog’s Toto 2.0 released 5 open-weights time-series forecasting models from 4M to 2.5B params under Apache 2.0, claiming #1 on BOOM, GIFT-Eval, and TIME and, more importantly, evidence that scaling laws may finally hold cleanly for TSFMs (Datadog, @atalwalkar, @ClementDelangue).

    • Goodfire’s interpretability post argued that Llama uses a geometric “shape-rotating calculator” / Fourier-feature-like mechanism for arithmetic, with steering-based evidence rather than pure post-hoc description (GoodfireAI, follow-up).

  • On RL/search and optimizer-style progress, several threads were notable: a survey framing LLM RL as rollout engineering across Generate / Filter / Control / Replay rather than just PPO-vs-GRPO (The Turing Post); Pedagogical RL using privileged information to actively find useful rollouts (Souradip Chakraborty, @lateinteraction); and Prime Intellect’s autonomous optimizer search on the nanoGPT speedrun benchmark, where Opus 4.7 reached 2930 steps and GPT-5.5 2950, beating the 2990 human baseline after ~10k runs / ~14k H200 hours (Prime Intellect, @eliebakouch). Also noteworthy: Kimi K2.6 was reported as #1 open-weight model on Finance Agent Benchmark V2 (Moonshot AI), and Ring-2.6-1T got day-0 vLLM support as an open release (vLLM).

Top Tweets (by engagement)

  • OpenAI’s Codex mobile launch was the clearest product winner by engagement and practical relevance: remote control/review of running coding-agent sessions from ChatGPT mobile (OpenAI).

  • Theo’s Claude Code backlash threads captured the strongest developer sentiment shift around platform risk and subscription-backed agent workflows (@theo, @theo donations thread).

  • Figure’s autonomous humanoid sorting livestream remained one of the most discussed embodied-AI demos, especially once it crossed the 24-hour mark with detailed claims about onboard policy execution and no teleop (Brett Adcock).

  • GitHub’s Copilot App and LangChain’s Engine/SmithDB/Labs were the most important non-OpenAI tooling launches for agent engineers this cycle (GitHub, LangChain, @hwchase17).

  • Prime Intellect’s autonomous optimizer-search result is worth watching as a concrete example of coding agents being looped into open-ended ML optimization, not just app dev (Prime Intellect).


  • Multi-Token Prediction (MTP) for Qwen on LLaMA.cpp + TurboQuant (Activity: 514): A patched llama.cpp fork adds Multi-Token Prediction (MTP) support for Qwen plus TurboQuant, reporting 21 tok/s34 tok/s on a MacBook Pro M5 Max 64GB, with a claimed 90% MTP acceptance rate; note the raw speedup is ~62%, not 40%. Code is published at AtomicBot-ai/atomic-llama-cpp-turboquant, with GGUF MTP quantizations for Qwen 3.6 27B/35B in the AtomicChat/qwen-36-udt-mtp HF collection. Commenters questioned the TurboQuant framing, arguing it is often slower than f16, q8, or q4; one noted a TurboQuant PR to llama.cpp was rejected because existing Q4 KV-quant rotation support already covered most benefits, with gains mainly at Q3 where quality degradation becomes a concern. Others asked for quality/eval data, since higher speculative/MTP acceptance and tokens/s do not alone establish output parity.

    • Several commenters argued that TurboQuant is not generally faster in llama.cpp, with one noting it can be slower than f16, q8, or q4. A prior TurboQuant PR to llama.cpp was reportedly rejected because llama.cpp already implements rotations for Q4 KV-cache quantization, where standard Q4 was faster and showed little gain; TurboQuant may only help around Q3, but with notable quality degradation.

    • Users distinguished between speed, quality, and context tradeoffs: MTP without TurboQuant was suggested for speed, while standard Q4_1 or Q4_0 quantization was recommended for longer context/quality retention. One commenter questioned whether TurboQuant had any Mac-specific advantage, implying the benefit is hardware- or workload-dependent rather than broadly useful.

    • A commenter recommended using dflash instead of built-in MTP, claiming it is 30–40% faster. They also mentioned that a pull request for this already existed, suggesting the implementation work may duplicate prior llama.cpp integration efforts.

원문 보기 https://www.latent.space/p/ainews-everything-is-conductor