OpenAI의 다음 주의 IPO 신청을 앞두고, Greg은 Model Labs이 점점 Agents를 제품으로 구축하고 있다는 일련의 최신 의견을 제시합니다:
이 인용은 Team Big Model에서 일한 사람들, 그의 이전 OpenAI Labs 책임자 포함 거의 모든 사람이 일관되게 유지해오던 입장에서 큰 반전입니다:
이는 AI21의 모델 팀이 폐쇄되고 현재 agents로 전환하는 것과 함께 일어나고 있습니다:
그리고 심지어 역사 있는 DeepSeek도 처음으로 "Harness team"을 구축하고 있습니다:
"Systems over Models" 진영은 이를 자신들이 줄곧 말해온 것에 대한 검증 포인트로 받아들일 것입니다... 다만 harnesses와 함께 코트레인된 모델이 모델에 대한 접근을 더욱 폐쇄할 수 있는 문을 열어주고 있다는 미묘한 차이점이 있습니다 — 모델을 효과적으로 포스트트레인하여 폐쇄 소스 agent와만 의미 있게 작동하도록 할 수 있다면, 대다수의 사용자를 모델/API 경쟁 관계를 희생하면서 자신의 agent로 유도할 수 있습니다.
하지만 이는 훨씬 더 큰 논의의 주제입니다...
AI News 2026년 5월 4일~5월 5일. 12개의 서브레딧, 544개의 Twitter를 확인했고 추가 Discord는 없습니다. AINews 웹사이트에서 모든 과거 이슈를 검색할 수 있습니다. 상기시키자면, AINews는 이제 Latent Space의 섹션입니다. 이메일 빈도를 선택하거나 거절할 수 있습니다!
Agent 제품, Harnesses, 그리고 "Just the Model"을 넘어선 전환
제품 표면이 업 스택으로 이동하고 있습니다: 반복되는 주제는 모델 품질만으로는 더 이상 해자가 아니라는 것이었습니다. 승리하는 제품은 점점 더 model + harness + workflow + UI + memory + economics입니다. @gdb는 "모델만으로는 더 이상 제품이 아니다"라고 명확히 말했고, @dzhng는 최고 수준의 제품은 model <> harness <> product 공생을 필요로 한다고 주장했습니다. 같은 패턴이 실제에서 나타납니다: @signulll는 ambient AI와 agentic AI를 컴퓨팅 인터페이스의 새로운 접합부로 표현했고, @teortaxesTex는 harness 연구가 여전히 더 넓은 인터페이스를 탐색하는 대신 "Claude Code 복제"로 수렴할 위험이 있다고 지적했습니다.
Coding-agent 제품 차별화가 구체화되고 있습니다: OpenAI는 "codex thursday no. 6"을 통해 또 다른 실질적인 Codex 업데이트를 출시했으며, appshots, /goal 개선, 잠금된 상태에서의 원격 컴퓨터 사용, 주석 모드, 플러그인 공유, 분석을 제공합니다. @gdb는 Appshots를 별도로 강조했고, 사용자들은 의미 있는 워크플로우 변화를 보고했습니다: @gdb는 Codex 이전의 코딩을 기억하기 어렵다고 말했고, @reach_vb는 한 달 이상 IDE를 열지 않았다고 말했습니다. 하지만 제품 거친 모서리는 여전히 남아있습니다: @theo는 T3 Code의 원격 기능을 대안보다 앞서 있다고 칭찬했고, 그 다음 게시물에서 Codex의 버그가 있는 원격 워크플로우와 대조했습니다. Claude 쪽에서는 @ClaudeDevs가 auto mode를 Pro 플랜으로 확대하고 Sonnet 4.6 지원을 추가했으며, @_mohansolo는 사용자 반발 이후 Antigravity 2.0의 IDE 지원을 명확히 하고 패치해야 했습니다.
Model Performance, Cost Curves, 그리고 Frontier 경쟁
DeepSeek의 가격 조정은 가장 큰 시장 신호였습니다: @deepseek_ai는 75% DeepSeek-V4-Pro 할인을 영구적으로 유지했으며, cost/performance 경계를 실질적으로 변경하기 때문에 강한 반응을 촉발했습니다. @ArtificialAnlys는 1자 가격을 $0.435/M 입력, $0.87/M 출력, $0.0036/M 캐시된 입력으로 정량화했으며, 혼합 ~$0.18/M을 추정하고 V4 Pro를 지능 대 실행 비용의 Pareto 경계에 배치했습니다. 그들은 V4 Pro에서 자신들의 Intelligence Index를 실행하는 데 드는 비용이 Gemini 3.1 Pro Preview보다 약 3배 적게, GPT-5.5보다 약 12배 적게, Claude Opus 4.7보다 약 19배 적게 소요된다고 추정합니다. 커뮤니티 반응은 @scaling01이 말했듯이 DeepSeek의 "측정하기에 너무 싼 지능"으로의 추진에 중심을 두었습니다. @Yuchenj_UW와 @kimmonismus는 모두 이 인하의 규모를 강조했습니다.
Gemini Flash가 개선되었지만 사용 피드백은 엇갈렸습니다: @OfficialLoganK는 Gemini 3.5 Flash가 GDPval에서 3.1 Pro에 비해 큰 진전을 이루었다고 보고했으며, Flash가 이제 "경계에서 경쟁하고 있다"고 주장했으며, @Designarena는 그것을 Design Arena에서 전체 16위로 배치했으며, 이는 Gemini 3 Flash Preview에서 16 위치의 도약입니다. 그러나 여러 빌더들은 벤치마크 이득 대 유용성에 대해 이의를 제기했습니다: @Alezander907은 더 높은 비용에서 사소한 브라우저-에이전트 개선만 보았고, @giffmana는 브랜드가 여전히 저렴함을 의미한다면 이것이 "Flash 진전"이 아니라고 주장했으며, @jeremyphoward는 모델이 인간과 협력하기보다는 평가를 최대화하도록 최적화되어 있다고 말했습니다. 이는 @HamelHusain의 광범위한 평가 회의론과 일치하며, 그는 현재 도구가 정성적, HITL 판단의 가중치를 낮춘다고 주장했습니다.
Qwen과 중국 경계 모델이 계속 경쟁을 압축하고 있습니다: 공식 @Alibaba_Qwen 티저와 @ZhihuFrontier의 긴 제3자 검토는 Qwen3.7-Max를 특히 명령 추적, 문맥 신뢰성, 안정성 측면에서 의미 있는 도약으로 묘사했으며, 여전히 장황함과 높은 토큰 사용량으로 고통받고 있습니다. 다른 곳에서 @scaling01은 최근 ALE-Bench 실행이 Kimi-K2.6, DeepSeek-V4, GLM-5.1과 같은 중국 모델이 그 환경에서 여러 서양 릴리스를 능가하고 있음을 보여준다고 주장했습니다. @ArtificialAnlys는 또한 Cursor Composer 2.5를 Coding Agent 벤치마크에서 Opus 4.7보다 3–18배 저렴하고 GPT-5.5보다 5–32배 저렴하다고 보고했으며, 눈에 띄게 낮은 토큰 사용량을 가지고 있습니다.
프로토콜, Infra, 그리고 Agent Runtime 도구
MCP의 새로운 릴리스 후보는 실질적인 프로토콜 단순화입니다: @dsp_는 MCP 2026-07-28 릴리스 후보를 발표했으며, 핵심 변경사항은 프로토콜이 이제 상태 비저장입니다: 핸드셰이크 없음, 세션 ID 없음, 모든 요청이 모든 서버 인스턴스에 도달할 수 있습니다. RC는 또한 MCP Apps와 Tasks와 같은 최일급 확장을 도입하며, auth 강화 및 더 명확한 폐기 정책을 제공합니다. 인프라 팀의 경우 상태 비저장은 큰 운영 변화입니다: 더 쉬운 스케일링, 더 간단한 로드 밸런싱, 더 적은 스티키 세션 문제.
Sandboxes와 관리형 실행이 최일급 기초 요소가 되고 있습니다: @_philschmid는 Gemini Managed Agents + Interactions API를 시연하여 에이전트에 메모리와 코드 실행이 있는 보안된 호스팅된 Linux 샌드박스를 제공했습니다. @CoreWeave는 RL, 에이전트 도구 사용, 모델 평가를 위해 CoreWeave Sandboxes를 공개 미리보기로 출시했고, @cnakazawa는 토큰을 노출하지 않으면서 shell, Codex, GitHub 접근을 제공하는 작업 당 Cloudflare 샌드박스를 위해 Cloudsail을 출시했습니다. 오케스트레이션 계층에서 @skypilot_org는 현대 RL이 이질적인 하드웨어와 복구 요구사항이 있는 다중 서비스 시스템이기 때문에 RL이 Slurm에서 작동하지 않는다고 주장했습니다.
오픈 소스 harnesses와 메모리 계층이 증식하고 있습니다: @NVIDIAAI는 임의의 harnesses에 플러그인할 수 있는 휴대용 심층 연구 파이프라인을 위해 AI-Q 에이전트 기술을 오픈 소스화했습니다. @Teknium는 Hermes의 핵심 관리를 위해 Bitwarden 지원을 추가했고 나중에 Hermes 여기에서 Grok Build v0.1을 위해 256K 문맥을 복원했습니다. @shannholmberg는 Hermes 에이전트 아래의 공유 메모리 "gBrain" 계층을 설명했으며, 전문가 에이전트를 위한 유형 폴더와 읽기 우선 접근이 있습니다. @aakashadesara는 CTOP를 Devin 지원과 에이전트 세션을 나열, 검색, 종료하기 위한 CLI로 업데이트했습니다.
연구: RL, 증류, 아키텍처, 그리고 평가
RL 포스트 트레이닝과 보상 설계가 적극적으로 재검토되고 있습니다: @RyanBoldi는 Vector Policy Optimization (VPO)를 소개했으며, RL 중 스칼라 보상 붕괴가 테스트 시간 스케일링을 방해할 수 있다고 주장했습니다. VPO는 대신 벡터 값 보상을 최적화하여 원래 스칼라 목표에서도 검색 성능을 향상시킵니다. @lateinteraction는 이를 더 다양한 환경과 목표를 위해 LLM을 훈련하는 방법으로 제시했으며, @FeiziSoheil은 이를 단일 보상 수 대신 구조화된 피드백으로의 더 광범위한 움직임과 연결했습니다. 별개로, @jsuarez는 극단적인 희소성을 포함하는 오랜 RL 문제에 대한 해결책을 암시했으며, 초기 스윕은 하나의 내부 환경에서 SOTA를 보여줍니다.
Agent 컴파일/증류가 심각한 경제적 아이디어로 나타나고 있습니다: @dair_ai는 완전한 에이전트 워크플로우 — 다단계 호출, 도구 사용, 스크래치패드, 의사 결정 구조 — 를 가중치로 증류할 수 있고 거의 경계 품질을 유지하면서 약 100배 낮은 추론 비용으로 실행할 수 있음을 보여주는 논문을 강조했습니다. 이는 비싼 런타임 에이전트 루프를 더 저렴한 배포 가능한 모델로 컴파일하기 위한 지금까지 가장 명확한 기술적 주장 중 하나입니다.
아키텍처 작업은 순수 transformers 너머에서 활발합니다: @ChunyuanDeng는 희소 및 선형 주의를 결합하여 루핑을 실현 가능하게 하는 선형 시간 루프된 transformer LT2를 도입했으며, 증류된 Ouro-hybrid-1.4B를 포함합니다. @ZyphraAI는 에너지 기반 모델을 넘어 생물학적으로 현실적인 뉴런을 향해 Equilibrium Propagation을 확장하는 작업을 공유했습니다. MoE에서 @Jianlin_S는 손실 페널티 없이 시퀀스 레벨 로드 밸런싱을 위해 Moving Quantile Balancing을 제안했습니다. 한편 @allen_ai는 실행하기 전에 모델이 SOTA를 설정할 가능성이 있는 벤치마크를 예측하는 ArtifactLinker를 출시했습니다 — 벤치마크 전개가 증가하는 가운데 유용한 메타 평가 도구입니다.
수학 및 추론 능력 담론이 다시 변했습니다: @cozyblaze265065는 중간 추론을 사용한 gpt-5.5로 다중 자릿수 곱셈 실험에서 99.46%를 보고했으며, 도구는 없었고, @teortaxesTex는 현대 LLM이 이제 도구 없이 100자리 곱셈을 할 수 있다고 지적했습니다. 이것은 추론의 완전한 이론은 아니지만, 오래된 "자동 회귀는 산술을 할 수 없다"는 주장을 더욱 약화시킵니다.
다중모드 시스템: 비디오, 음성, 월드 모델, 그리고 이미징
Google의 I/O 스택은 지속적인 에이전트와 세계 시뮬레이터를 향해 밀려났습니다: @Google는 반복되는 작업, 기술, 워크플로우를 위한 24/7 개인 AI 에이전트인 Gemini Spark를 소개했습니다. @GoogleDeepMind는 또한 Project Genie + Street View를 출시했으며, 사용자가 실제 미국 위치를 대화형 세계로 전환할 수 있게 합니다. 후속 게시물은 Google Labs을 통해 Google AI Ultra 구독자에게 출시를 확인합니다. 다중모드 쪽은 @Google이 대화형 비디오 생성/편집 및 맞춤형 아바타를 위해 Gemini Omni를 발표하면서 강화되었으며, @emollick는 비디오를 기본적으로 편집할 수 있는 완전히 다중모드 시스템의 중요성을 강조했습니다.
Runway과 이미지/비디오 도구는 계속해서 편집 가능성을 높이고 있습니다: @runwayml은 1080p에서 최대 30초의 다중 샷 시퀀스를 지원하는 Aleph 2.0을 출시했으며, 나머지 장면을 보존하는 대상 편집을 제공합니다. @CuriousRefuge는 Omni 생성 연속을 사용하여 AI 생성 영화적 클립을 원활하게 확장하기 위해 SeeDance 2 Stitcher를 강조했습니다.
음성 및 이미지 생성에서 눈에 띄는 도약이 있었습니다: @ArtificialAnlys는 Cartesia Sonic-3.5를 Speech Arena에서 새로운 #1 TTS 모델로 순위를 매겼으며, 1218의 Elo, 42개 언어 지원, 강력한 자연스러움/성적 추적을 언급했습니다. Cartesia는 프로덕션에서 82ms 엔드 투 엔드 첫 번째 오디오를 여기에서 주장합니다. 이미지 생성에서 @wildmindai는 Tencent의 Z-Image 6B를 VAE 없음, 1K 해상도, Flux/SD 모델 변환 프레임워크가 있는 픽셀 공간 생성기로 플래그했습니다. 관련 생태계 작업은 @victormustar의 Pixal3D 데모와 @ostrisai의 AI Toolkit에서 Z-Image L2P 1k에 대한 훈련 지원을 포함했습니다.
보안, 사이버, 그리고 정책 압력
사이버보안은 고급 에이전트를 위한 입증 장으로 빠르게 변하고 있습니다: @AnthropicAI는 Project Glasswing과 파트너가 한 달 내에 필수 소프트웨어에서 10,000개 이상의 높음 또는 중대한 심각도 취약점을 발견했다고 말했으며, Claude Mythos Preview와 같은 모델이 찾을 수 있는 취약점의 양에 적응해야 할 것을 업계에 명시적으로 경고했습니다. 보안 제품화가 따라가고 있습니다: @perplexity_ai는 위험한 패키지, 확장 프로그램, AI 도구 구성을 감지하기 위해 macOS/Linux용 읽기 전용 스캐너인 Bumblebee를 오픈 소스화했습니다. @AravSrinivas는 엔터프라이즈 배포에 에이전트 샌드박스와 지속적인 보안 엔지니어링이 필요하다고 말했습니다.
미국 이민 정책 변화는 AI 리더들로부터 강한 반발을 촉발했습니다: 여러 높은 참여 게시물은 녹색 카드 신청자들이 미국 외부에서 신청하도록 강제하는 제안된 규칙이 AI 인재 파이프라인을 직접 손상시킬 것이라고 주장했습니다. @Nick_Davidov, @AndrewYNg, @theo, @garrytan, @togelius를 참조하세요. 일반적인 주장: 이 규칙은 법적으로 높은 기술의 이민자들을 처벌하고, 스타트업과 연구를 약화시키며, 미국의 AI 경쟁력에 해를 끼칩니다.
상위 트윗 (참여도 별)