AI가 어떻게 헬스케어를 개선하고 있는지 관심이 있다면, 오늘 나온 첫 번째 팟캐스트를 청취해 주세요. 그리고 이 분야의 최고의 엔지니어들을 만나고 싶다면 발표 신청을 해주세요!
진화 생물학에서 "모든 것은 게다"라는 농담이 있습니다. 게의 형태는 지구에서 최소 7번 독립적으로 진화했습니다:
오늘 칼럼의 직접적인 계기는 GitHub이 새로운 GitHub App을 발표한 것입니다. Oren Melamed가 말했듯이, "만약 당신이 코드 우선이라면 좋은 VS Code를 유지하고 싶을 수 있지만, 만약 당신이 에이전트 우선이고 GitHub 우선이라면 좋은 경험을 하게 될 것입니다!"
음, 이것은 익숙해 보이네요…
이것은 물론 이 형태를 개척한 Conductor에게 매우 좋은 소식이며, Y Combinator의 AI에 심취한 CEO인 Garry Tan이 큰 팬입니다:
이제 두 개의 10억 달러 규모의 질문이 있습니다:
형태를 개척했다면, 다른 사람들이 이를 복사하는 동안 어떻게 수익화할 것인가?
그 다음은 무엇인가?
대체 역사에 관심이 있는 분들을 위해, 지난해 잠깐 유행했던 칸반 보드 형태에 어떤 일이 일어났는지를 보여주겠습니다:
그리고 Maggie Appleton이 GitHub Ace 뒤의 디자인 사고를 분석한 것입니다:
2026년 5월 13일-5월 14일 AI 뉴스. 우리는 12개의 서브레딧, 544개의 트위터를 확인했고 더 이상의 Discord는 없습니다. AINews 웹사이트를 통해 모든 과거 이슈를 검색할 수 있습니다. 상기시켜 드리자면, AINews는 이제 Latent Space의 섹션입니다. 이메일 빈도를 선택하거나 취소할 수 있습니다!
코딩 에이전트 도구: Codex 모바일, GitHub의 새 앱, VS Code 멀티 에이전트 UX 및 Hermes/Codex 상호 운용성
OpenAI는 Codex를 일일 워크플로우에 더 깊이 밀어붙였습니다: 이 세트의 가장 큰 제품 출시는 ChatGPT 모바일 앱의 Codex로, 사용자가 작업을 시작하고, 결과를 검토하고, 명령을 승인하고, Codex가 랩톱, Mac mini 또는 개발 상자에서 계속 실행되는 동안 원격으로 실행을 조종할 수 있습니다. OpenAI는 또한 원격 SSH가 이제 관리되는 원격 환경에서 일반적으로 사용 가능하다고 언급했으며, 나중에 훅 및 Codex 루프 주변의 비즈니스/엔터프라이즈 자동화를 위한 프로그래밍 방식 액세스 토큰을 추가했습니다 (OpenAI, OpenAI 후속글, 모바일 워크플로우에 대한 @OpenAIDevs, 원격 SSH에 대한 @OpenAIDevs, 훅/토큰에 대한 @OpenAIDevs). 별도로, OpenAI는 Codex용 Windows 샌드박스에 대한 기술 작성을 발표했으며, 코딩 에이전트를 위한 유틸리티와 제한된 머신 액세스 간의 트레이드오프에 중점을 두었습니다 (OpenAI 개발자, @gdb).
더 광범위한 IDE/앱 생태계는 "에이전트 우선" UX로 수렴하고 있습니다: GitHub는 GitHub Copilot App의 기술 미리보기를 발표했으며, 평행 워크스트림, 저장소/PR 수명 주기 관리 및 모델 유연성을 위한 데스크톱 환경으로 설명합니다 (GitHub, @adrianmg, @OrenMe). VS Code는 멀티 에이전트, 멀티 프로젝트 워크플로우를 위한 새로운 에이전트 창, vscode.dev/agents를 통한 브라우저/모바일 지원, BYOK 개선사항 및 압축된 터미널 출력과 같은 토큰 효율성 기능을 출시했습니다 (VS Code, 원격/브라우저 지원, BYOK 업데이트, 터미널 압축). 오픈소스 쪽에서 Nous/Hermes Agent는 Codex 런타임 통합을 추가했으며, 사실상 OpenAI 기반 턴을 Codex CLI/앱 서버를 통해 라우팅하고 Hermes 세션에서 ChatGPT 구독 기반 실행을 재사용합니다 (Nous Research, @Teknium, @HermesAgentTips). Kimi는 또한 Kimi Web Bridge를 출시했으며, Kimi Code CLI, Claude Code, Cursor, Codex, Hermes 등에 인간 같은 웹 상호 작용을 노출하는 브라우저 확장 프로그램입니다 (Moonshot AI).
에이전트 인프라 및 자가 개선 루프: LangSmith Engine, SmithDB, 샌드박스 및 지속적 학습
LangChain의 출시 스택은 가장 실질적인 에이전트 인프라 릴리스 클러스터였습니다: SmithDB는 에이전트 추적 데이터를 위해 목적 지어진 데이터베이스이며, LangSmith Engine은 추적을 사용하고, 실패를 클러스터링하고, 가능성 있는 코드 문제를 식별하고 수정/평가를 제안합니다. 즉, 관찰 가능성을 수동 검사가 아닌 개선 루프로 전환합니다 (@hwchase17, Engine에 대한 @caspar_br, @bentannyhill). 커뮤니티 논평은 SmithDB의 객체 저장소로의 아키텍처 이동과 이 워크로드 형태에 대한 사용자 정의 저장소/쿼리 경로를 강조했습니다 (SmithDB에 대한 @caspar_br, @ngates_, 중국어 요약).
LangChain은 또한 LangChain Labs를 발표했습니다. 에이전트를 위한 지속적 학습을 중심으로 한 응용 연구 노력으로, 프로덕션 추적이 학습 신호, 평가 및 장기 목표에 대한 목표 지정 능력 개선이 되어야 한다는 논제입니다 (LangChain, @jakebroekhuizen, @willccbb, Prime Intellect 파트너십).
에이전트를 위한 실행 격리는 계속 성숙하고 있습니다: W&B/CoreWeave는 RL, 도구 사용 및 평가 워크로드를 위한 격리된 실행을 위해 CoreWeave Sandboxes를 출시했으며, 명시적으로
rm -rf /와 같은 파괴적인 명령을 규모 있게 테스트합니다 (Weights & Biases). 유사한 정신으로, 에이전트 디버깅 주변의 오픈소스/로컬 개발 도구가 나타났습니다: @benhylak는 Codex/Claude Code에 노출된 추적을 포함한 무료 로컬 에이전트 디버깅 스택과 자동화된 평가 작성을 강조했습니다.
Anthropic Claude Code 제한 및 개발자 역발동
가장 날카로운 생태계 반응은 Anthropic이 Claude Code 사용을 제한/재구성한 것에 대한 것이었습니다, 특히 제3자 래퍼와 높은 볼륨의 프로그래밍 방식 워크플로우의 경우. Theo의 스레드는 초점이 되었습니다: 그는 T3 Code 사용자가 공식적으로 지원되는 경로를 통해 통합했음에도 불구하고 극적인 속도 제한 감소로 실질적으로 타격을 받았다고 주장했으며, 이후 구독을 취소했으며 다른 사람들이 오픈소스 기부에 대한 취소 스크린샷을 게시하도록 권장했습니다 (@theo 초기 스레드, 구독 취소, 기부 스레드, T3 Code 설명). 다른 저명한 빌더들은 Anthropic이 사실상 오픈소스 개발자/앱을 차단했으며
claude -p를 중심으로 구축된 하네스를 불안정하게 했다는 불만을 반복했습니다 (@theo, @andersonbcdefg).더 전략적인 반론도 있었습니다: 일부 사용자는 Anthropic이 제3자 앱에 대한 과도하게 보조된 정액 요금 토큰을 개발자에게 빚지고 있지 않다고 주장했으며, 생태계는 더 명시적인 API 경제 및 비싼 모델과 저렴한 모델 간의 더 똑똑한 라우팅으로 이동할 가능성이 높다고 주장했습니다 (Sentdex, @tadasayy). 여전히, 가시적인 이탈 신호는 상당했으며, 회신 스레드 취소만으로도 의미 있는 ARR 손실을 추정하는 사용자가 포함되어 있습니다 (@thegenioo, Uncle Bob Martin, 나중에 Theo). 에이전트 엔지니어의 경우, 실무적 핵심은 직관적입니다: 구독 기반 하네스는 안정적인 플랫폼 원시 재료가 아닙니다; 제공자/모델 추상화 및 BYOK 경로는 점점 더 필수적으로 보입니다.
로봇공학 및 구현된 AI: Figure의 24/7 정렬 스트림 및 광범위한 자동화 신호
Figure의 라이브스트림이 로봇공학 논의를 지배했습니다. 회사는 먼저 완전히 자율적이고 감독받지 않는 8시간의 작업을 보여준 다음, 24/7 라이브스트림으로 확장했으며, 결국 실패 없이 24시간 이상의 지속적인 자율 운영, 소규모 패키지 정렬에서 인간 패리티 처리량 주변을 보고했으며, 완전히 온보드에서 실행되는 Helix-02로 운영되고 OOD 케이스에 대한 자동 리셋 - 명시적으로 원격 조종 없음을 주장합니다 (Figure CEO Brett Adcock, 24h 업데이트, 상세 기술 설명, 2일차 라이브스트림). 반복되는 "Bob, Frank, and Gary" 업데이트는 더 부푼 느낌이었지만, 핵심 신호는 프로덕션 같은 가동시간에서의 지속적인 자율 운영이었습니다.
해석은 Figure 특정에 대한 회의론과 로봇공학 가속에 대한 광범위한 확신 사이에서 나뉘었습니다. 일부 논평자들은 비평가들이 이런 시위들이 단기 노동 대체에 미치는 영향을 과소평가하고 있다고 주장했으며, 다른 사람들은 회의론이 로봇공학이라는 범주보다는 Figure에 더 많이 지향되었다고 언급했습니다 (@cloneofsimo, @iScienceLuvr, @kimmonismus). 어쨌든, 이것은 배치에서 가장 명확한 "지속적인 가동시간" 시위 중 하나였습니다.
연구, 벤치마크 및 오픈 모델: 확산 LM, 시계열 FM, 기계적 해석 가능성 및 RL/검색
기술적으로 중요한 모델/연구 릴리스가 두드러졌습니다:
Zyphra의 ZAYA1-8B-Diffusion-Preview는 제한된 품질 손실을 지닌 자동 회귀 생성과 비교해 4.6–7.7배 디코딩 속도 향상을 주장하며, 확산 LM이 더 저렴한 롤아웃과 더 풍부한 생성 모드를 활성화한다는 일반적인 경우를 제시합니다 (Zyphra).
Datadog의 Toto 2.0은 Apache 2.0 하에서 4M에서 2.5B 파라미터의 5개의 오픈 가중치 시계열 예측 모델을 릴리스했으며, BOOM, GIFT-Eval 및 TIME에서 #1을 주장하고, 더 중요하게는 스케일링 법칙이 마침내 TSFM에 대해 깔끔하게 유지될 수 있다는 증거입니다 (Datadog, @atalwalkar, @ClementDelangue).
Goodfire의 해석 가능성 게시는 Llama가 산술을 위해 기하학적 "모양 회전 계산기" / Fourier 특징 같은 메커니즘을 사용한다고 주장했으며, 순수 사후 설명이 아닌 조종 기반 증거로 (GoodfireAI, 후속글).
RL/검색 및 최적화기 스타일 진행에서, 여러 스레드가 주목할 만했습니다: LLM RL을 단순히 PPO 대 GRPO가 아닌 생성 / 필터 / 제어 / 재생 전반의 롤아웃 엔지니어링으로 프레임하는 설문 (The Turing Post); 유용한 롤아웃을 능동적으로 찾기 위해 특권 정보를 사용하는 교육학적 RL (Souradip Chakraborty, @lateinteraction); 및 Prime Intellect의 자율 최적화기 검색 nanoGPT 스피드런 벤치마크에서, Opus 4.7이 2930 스텝과 GPT-5.5 2950에 도달했으며, ~10k 실행 / ~14k H200 시간 후 2990 인간 기준선을 이겼습니다 (Prime Intellect, @eliebakouch). 또한 주목할 만한 점: Kimi K2.6은 Finance Agent Benchmark V2에서 #1 오픈 가중치 모델로 보고되었으며 (Moonshot AI), Ring-2.6-1T는 오픈 릴리스로서 일일 0 vLLM 지원을 얻었습니다 (vLLM).
상위 트윗 (참여도별)
OpenAI의 Codex 모바일 출시는 참여도와 실무적 관련성에 의해 가장 명확한 제품 우승자였습니다: ChatGPT 모바일에서 실행 중인 코딩 에이전트 세션의 원격 제어/검토 (OpenAI).
Theo의 Claude Code 역발동 스레드는 플랫폼 위험 및 구독 기반 에이전트 워크플로우를 중심으로 가장 강한 개발자 정서 이동을 포착했습니다 (@theo, @theo 기부 스레드).
Figure의 자율 휴머노이드 정렬 라이브스트림은 가장 논의된 구현된 AI 시위 중 하나로 남았으며, 특히 24시간 표시를 넘었을 때 온보드 정책 실행과 teleop 없음에 대한 상세 주장이 포함되어 있습니다 (Brett Adcock).
GitHub의 Copilot App 및 LangChain의 Engine/SmithDB/Labs는 이 주기에서 에이전트 엔지니어를 위한 가장 중요한 비 OpenAI 도구 출시였습니다 (GitHub, LangChain, @hwchase17).
Prime Intellect의 자율 최적화기 검색 결과는 코딩 에이전트가 앱 개발만이 아닌 개방형 ML 최적화에 루프된 구체적인 예시로서 관심을 기울일 가치가 있습니다 (Prime Intellect).
LLaMA.cpp + TurboQuant에서 Qwen용 다중 토큰 예측 (MTP) (활동: 514): 패치된 llama.cpp 포크는 Qwen에 대한 다중 토큰 예측 (MTP) 지원을 추가하고 TurboQuant를 사용하여 MacBook Pro M5 Max 64GB에서
21 tok/s→34 tok/s를 보고하며, 청구된90%MTP 수용률을 주장합니다; 원본 속도 향상은 ~62%이며,40%가 아닙니다. 코드는AtomicBot-ai/atomic-llama-cpp-turboquant에서 발행되며,AtomicChat/qwen-36-udt-mtpHF 컬렉션에서 Qwen 3.6 27B/35B용 GGUF MTP 정량화를 포함합니다. 논평자들은 TurboQuant 프레이밍에 의문을 제기했으며, 종종f16,q8또는q4보다 느리다고 주장했습니다; 한 명은 TurboQuant PR을 llama.cpp에 거절했다고 언급했으며, 그 이유는 기존 Q4 KV-정량화 회전 지원이 이미 대부분의 이점을 포함하고 있으며, 이득은 주로 품질 저하가 우려되는 Q3에서만 주요하다고 했습니다. 다른 사람들은 더 높은 추측/MTP 수용률과 토큰/s가 결과물 패리티를 단독으로 확립하지 않으므로 품질/평가 데이터를 요청했습니다.여러 논평자들은 TurboQuant가 llama.cpp에서 일반적으로 더 빠르지 않다고 주장했으며, 한 명은
f16,q8또는q4보다 느릴 수 있다고 언급했습니다. 이전 TurboQuant PR을 llama.cpp에 보냈을 때 거절되었다고 보도되었으며, llama.cpp는 이미Q4KV 캐시 정량화에 대한 회전을 구현하고 있고, 표준Q4가 더 빠르고 거의 이득이 없었기 때문입니다; TurboQuant는Q3주변에서만 도움을 줄 수 있지만, 주목할 만한 품질 저하를 동반합니다.사용자들은 속도, 품질 및 컨텍스트 트레이드오프를 구분했습니다: TurboQuant 없는 MTP는 속도를 위해 제안되었으며, 표준
Q4_1또는Q4_0정량화는 더 긴 컨텍스트/품질 보존을 위해 권장되었습니다. 한 논평자는 TurboQuant가 Mac 특정 이점이 있었는지 의문했으며, 이득이 광범위하게 유용하기보다는 하드웨어 또는 워크로드 의존적임을 시사했습니다.한 논평자는 내장 MTP 대신 dflash를 사용하도록 권장했으며, 이것이
30–40%더 빠르다고 주장했습니다. 또한 이미 풀 요청이 있다고 언급했으며, 구현 작업이 이전 llama.cpp 통합 노력을 복제할 수 있음을 시사했습니다.