AI·News
뒤로

모든 모델 랩이 에이전트 랩으로 변하다

[AINews] All Model Labs are now Agent Labs - Latent.Space

OpenAI의 다음 주의 IPO 신청을 앞두고, Greg은 Model Labs이 점점 Agents를 제품으로 구축하고 있다는 일련의 최신 의견을 제시합니다:

이 인용은 Team Big Model에서 일한 사람들, 그의 이전 OpenAI Labs 책임자 포함 거의 모든 사람이 일관되게 유지해오던 입장에서 큰 반전입니다:

이는 AI21의 모델 팀이 폐쇄되고 현재 agents로 전환하는 것과 함께 일어나고 있습니다:

그리고 심지어 역사 있는 DeepSeek도 처음으로 "Harness team"을 구축하고 있습니다:

"Systems over Models" 진영은 이를 자신들이 줄곧 말해온 것에 대한 검증 포인트로 받아들일 것입니다... 다만 harnesses와 함께 코트레인된 모델이 모델에 대한 접근을 더욱 폐쇄할 수 있는 문을 열어주고 있다는 미묘한 차이점이 있습니다 — 모델을 효과적으로 포스트트레인하여 폐쇄 소스 agent와만 의미 있게 작동하도록 할 수 있다면, 대다수의 사용자를 모델/API 경쟁 관계를 희생하면서 자신의 agent로 유도할 수 있습니다.

하지만 이는 훨씬 더 큰 논의의 주제입니다...

AI News 2026년 5월 4일~5월 5일. 12개의 서브레딧, 544개의 Twitter를 확인했고 추가 Discord는 없습니다. AINews 웹사이트에서 모든 과거 이슈를 검색할 수 있습니다. 상기시키자면, AINews는 이제 Latent Space의 섹션입니다. 이메일 빈도를 선택하거나 거절할 수 있습니다!


Agent 제품, Harnesses, 그리고 "Just the Model"을 넘어선 전환

  • 제품 표면이 업 스택으로 이동하고 있습니다: 반복되는 주제는 모델 품질만으로는 더 이상 해자가 아니라는 것이었습니다. 승리하는 제품은 점점 더 model + harness + workflow + UI + memory + economics입니다. @gdb는 "모델만으로는 더 이상 제품이 아니다"라고 명확히 말했고, @dzhng는 최고 수준의 제품은 model <> harness <> product 공생을 필요로 한다고 주장했습니다. 같은 패턴이 실제에서 나타납니다: @signulll는 ambient AI와 agentic AI를 컴퓨팅 인터페이스의 새로운 접합부로 표현했고, @teortaxesTex는 harness 연구가 여전히 더 넓은 인터페이스를 탐색하는 대신 "Claude Code 복제"로 수렴할 위험이 있다고 지적했습니다.

  • Coding-agent 제품 차별화가 구체화되고 있습니다: OpenAI는 "codex thursday no. 6"을 통해 또 다른 실질적인 Codex 업데이트를 출시했으며, appshots, /goal 개선, 잠금된 상태에서의 원격 컴퓨터 사용, 주석 모드, 플러그인 공유, 분석을 제공합니다. @gdbAppshots를 별도로 강조했고, 사용자들은 의미 있는 워크플로우 변화를 보고했습니다: @gdb는 Codex 이전의 코딩을 기억하기 어렵다고 말했고, @reach_vb는 한 달 이상 IDE를 열지 않았다고 말했습니다. 하지만 제품 거친 모서리는 여전히 남아있습니다: @theoT3 Code의 원격 기능을 대안보다 앞서 있다고 칭찬했고, 그 다음 게시물에서 Codex의 버그가 있는 원격 워크플로우와 대조했습니다. Claude 쪽에서는 @ClaudeDevsauto mode를 Pro 플랜으로 확대하고 Sonnet 4.6 지원을 추가했으며, @_mohansolo는 사용자 반발 이후 Antigravity 2.0의 IDE 지원을 명확히 하고 패치해야 했습니다.

Model Performance, Cost Curves, 그리고 Frontier 경쟁

  • DeepSeek의 가격 조정은 가장 큰 시장 신호였습니다: @deepseek_ai75% DeepSeek-V4-Pro 할인을 영구적으로 유지했으며, cost/performance 경계를 실질적으로 변경하기 때문에 강한 반응을 촉발했습니다. @ArtificialAnlys는 1자 가격을 $0.435/M 입력, $0.87/M 출력, $0.0036/M 캐시된 입력으로 정량화했으며, 혼합 ~$0.18/M을 추정하고 V4 Pro를 지능 대 실행 비용의 Pareto 경계에 배치했습니다. 그들은 V4 Pro에서 자신들의 Intelligence Index를 실행하는 데 드는 비용이 Gemini 3.1 Pro Preview보다 약 3배 적게, GPT-5.5보다 약 12배 적게, Claude Opus 4.7보다 약 19배 적게 소요된다고 추정합니다. 커뮤니티 반응은 @scaling01이 말했듯이 DeepSeek의 "측정하기에 너무 싼 지능"으로의 추진에 중심을 두었습니다. @Yuchenj_UW@kimmonismus는 모두 이 인하의 규모를 강조했습니다.

  • Gemini Flash가 개선되었지만 사용 피드백은 엇갈렸습니다: @OfficialLoganKGemini 3.5 Flash가 GDPval에서 3.1 Pro에 비해 큰 진전을 이루었다고 보고했으며, Flash가 이제 "경계에서 경쟁하고 있다"고 주장했으며, @Designarena는 그것을 Design Arena에서 전체 16위로 배치했으며, 이는 Gemini 3 Flash Preview에서 16 위치의 도약입니다. 그러나 여러 빌더들은 벤치마크 이득 대 유용성에 대해 이의를 제기했습니다: @Alezander907은 더 높은 비용에서 사소한 브라우저-에이전트 개선만 보았고, @giffmana는 브랜드가 여전히 저렴함을 의미한다면 이것이 "Flash 진전"이 아니라고 주장했으며, @jeremyphoward는 모델이 인간과 협력하기보다는 평가를 최대화하도록 최적화되어 있다고 말했습니다. 이는 @HamelHusain의 광범위한 평가 회의론과 일치하며, 그는 현재 도구가 정성적, HITL 판단의 가중치를 낮춘다고 주장했습니다.

  • Qwen과 중국 경계 모델이 계속 경쟁을 압축하고 있습니다: 공식 @Alibaba_Qwen 티저와 @ZhihuFrontier의 긴 제3자 검토는 Qwen3.7-Max를 특히 명령 추적, 문맥 신뢰성, 안정성 측면에서 의미 있는 도약으로 묘사했으며, 여전히 장황함과 높은 토큰 사용량으로 고통받고 있습니다. 다른 곳에서 @scaling01은 최근 ALE-Bench 실행이 Kimi-K2.6, DeepSeek-V4, GLM-5.1과 같은 중국 모델이 그 환경에서 여러 서양 릴리스를 능가하고 있음을 보여준다고 주장했습니다. @ArtificialAnlys는 또한 Cursor Composer 2.5를 Coding Agent 벤치마크에서 Opus 4.7보다 3–18배 저렴하고 GPT-5.5보다 5–32배 저렴하다고 보고했으며, 눈에 띄게 낮은 토큰 사용량을 가지고 있습니다.

프로토콜, Infra, 그리고 Agent Runtime 도구

  • MCP의 새로운 릴리스 후보는 실질적인 프로토콜 단순화입니다: @dsp_MCP 2026-07-28 릴리스 후보를 발표했으며, 핵심 변경사항은 프로토콜이 이제 상태 비저장입니다: 핸드셰이크 없음, 세션 ID 없음, 모든 요청이 모든 서버 인스턴스에 도달할 수 있습니다. RC는 또한 MCP AppsTasks와 같은 최일급 확장을 도입하며, auth 강화 및 더 명확한 폐기 정책을 제공합니다. 인프라 팀의 경우 상태 비저장은 큰 운영 변화입니다: 더 쉬운 스케일링, 더 간단한 로드 밸런싱, 더 적은 스티키 세션 문제.

  • Sandboxes와 관리형 실행이 최일급 기초 요소가 되고 있습니다: @_philschmidGemini Managed Agents + Interactions API를 시연하여 에이전트에 메모리와 코드 실행이 있는 보안된 호스팅된 Linux 샌드박스를 제공했습니다. @CoreWeave는 RL, 에이전트 도구 사용, 모델 평가를 위해 CoreWeave Sandboxes를 공개 미리보기로 출시했고, @cnakazawa는 토큰을 노출하지 않으면서 shell, Codex, GitHub 접근을 제공하는 작업 당 Cloudflare 샌드박스를 위해 Cloudsail을 출시했습니다. 오케스트레이션 계층에서 @skypilot_org는 현대 RL이 이질적인 하드웨어와 복구 요구사항이 있는 다중 서비스 시스템이기 때문에 RL이 Slurm에서 작동하지 않는다고 주장했습니다.

  • 오픈 소스 harnesses와 메모리 계층이 증식하고 있습니다: @NVIDIAAI는 임의의 harnesses에 플러그인할 수 있는 휴대용 심층 연구 파이프라인을 위해 AI-Q 에이전트 기술을 오픈 소스화했습니다. @Teknium는 Hermes의 핵심 관리를 위해 Bitwarden 지원을 추가했고 나중에 Hermes 여기에서 Grok Build v0.1을 위해 256K 문맥을 복원했습니다. @shannholmberg는 Hermes 에이전트 아래의 공유 메모리 "gBrain" 계층을 설명했으며, 전문가 에이전트를 위한 유형 폴더와 읽기 우선 접근이 있습니다. @aakashadesara는 CTOP를 Devin 지원과 에이전트 세션을 나열, 검색, 종료하기 위한 CLI로 업데이트했습니다.

연구: RL, 증류, 아키텍처, 그리고 평가

  • RL 포스트 트레이닝과 보상 설계가 적극적으로 재검토되고 있습니다: @RyanBoldiVector Policy Optimization (VPO)를 소개했으며, RL 중 스칼라 보상 붕괴가 테스트 시간 스케일링을 방해할 수 있다고 주장했습니다. VPO는 대신 벡터 값 보상을 최적화하여 원래 스칼라 목표에서도 검색 성능을 향상시킵니다. @lateinteraction는 이를 더 다양한 환경과 목표를 위해 LLM을 훈련하는 방법으로 제시했으며, @FeiziSoheil은 이를 단일 보상 수 대신 구조화된 피드백으로의 더 광범위한 움직임과 연결했습니다. 별개로, @jsuarez는 극단적인 희소성을 포함하는 오랜 RL 문제에 대한 해결책을 암시했으며, 초기 스윕은 하나의 내부 환경에서 SOTA를 보여줍니다.

  • Agent 컴파일/증류가 심각한 경제적 아이디어로 나타나고 있습니다: @dair_ai는 완전한 에이전트 워크플로우 — 다단계 호출, 도구 사용, 스크래치패드, 의사 결정 구조 — 를 가중치로 증류할 수 있고 거의 경계 품질을 유지하면서 약 100배 낮은 추론 비용으로 실행할 수 있음을 보여주는 논문을 강조했습니다. 이는 비싼 런타임 에이전트 루프를 더 저렴한 배포 가능한 모델로 컴파일하기 위한 지금까지 가장 명확한 기술적 주장 중 하나입니다.

  • 아키텍처 작업은 순수 transformers 너머에서 활발합니다: @ChunyuanDeng는 희소 및 선형 주의를 결합하여 루핑을 실현 가능하게 하는 선형 시간 루프된 transformer LT2를 도입했으며, 증류된 Ouro-hybrid-1.4B를 포함합니다. @ZyphraAI는 에너지 기반 모델을 넘어 생물학적으로 현실적인 뉴런을 향해 Equilibrium Propagation을 확장하는 작업을 공유했습니다. MoE에서 @Jianlin_S는 손실 페널티 없이 시퀀스 레벨 로드 밸런싱을 위해 Moving Quantile Balancing을 제안했습니다. 한편 @allen_ai는 실행하기 전에 모델이 SOTA를 설정할 가능성이 있는 벤치마크를 예측하는 ArtifactLinker를 출시했습니다 — 벤치마크 전개가 증가하는 가운데 유용한 메타 평가 도구입니다.

  • 수학 및 추론 능력 담론이 다시 변했습니다: @cozyblaze265065는 중간 추론을 사용한 gpt-5.5로 다중 자릿수 곱셈 실험에서 99.46%를 보고했으며, 도구는 없었고, @teortaxesTex는 현대 LLM이 이제 도구 없이 100자리 곱셈을 할 수 있다고 지적했습니다. 이것은 추론의 완전한 이론은 아니지만, 오래된 "자동 회귀는 산술을 할 수 없다"는 주장을 더욱 약화시킵니다.

다중모드 시스템: 비디오, 음성, 월드 모델, 그리고 이미징

  • Google의 I/O 스택은 지속적인 에이전트와 세계 시뮬레이터를 향해 밀려났습니다: @Google는 반복되는 작업, 기술, 워크플로우를 위한 24/7 개인 AI 에이전트인 Gemini Spark를 소개했습니다. @GoogleDeepMind는 또한 Project Genie + Street View를 출시했으며, 사용자가 실제 미국 위치를 대화형 세계로 전환할 수 있게 합니다. 후속 게시물은 Google Labs을 통해 Google AI Ultra 구독자에게 출시를 확인합니다. 다중모드 쪽은 @Google이 대화형 비디오 생성/편집 및 맞춤형 아바타를 위해 Gemini Omni를 발표하면서 강화되었으며, @emollick는 비디오를 기본적으로 편집할 수 있는 완전히 다중모드 시스템의 중요성을 강조했습니다.

  • Runway과 이미지/비디오 도구는 계속해서 편집 가능성을 높이고 있습니다: @runwayml은 1080p에서 최대 30초의 다중 샷 시퀀스를 지원하는 Aleph 2.0을 출시했으며, 나머지 장면을 보존하는 대상 편집을 제공합니다. @CuriousRefuge는 Omni 생성 연속을 사용하여 AI 생성 영화적 클립을 원활하게 확장하기 위해 SeeDance 2 Stitcher를 강조했습니다.

  • 음성 및 이미지 생성에서 눈에 띄는 도약이 있었습니다: @ArtificialAnlysCartesia Sonic-3.5를 Speech Arena에서 새로운 #1 TTS 모델로 순위를 매겼으며, 1218의 Elo, 42개 언어 지원, 강력한 자연스러움/성적 추적을 언급했습니다. Cartesia는 프로덕션에서 82ms 엔드 투 엔드 첫 번째 오디오여기에서 주장합니다. 이미지 생성에서 @wildmindai는 Tencent의 Z-Image 6BVAE 없음, 1K 해상도, Flux/SD 모델 변환 프레임워크가 있는 픽셀 공간 생성기로 플래그했습니다. 관련 생태계 작업은 @victormustar의 Pixal3D 데모와 @ostrisai의 AI Toolkit에서 Z-Image L2P 1k에 대한 훈련 지원을 포함했습니다.

보안, 사이버, 그리고 정책 압력

  • 사이버보안은 고급 에이전트를 위한 입증 장으로 빠르게 변하고 있습니다: @AnthropicAI는 Project Glasswing과 파트너가 한 달 내에 필수 소프트웨어에서 10,000개 이상의 높음 또는 중대한 심각도 취약점을 발견했다고 말했으며, Claude Mythos Preview와 같은 모델이 찾을 수 있는 취약점의 양에 적응해야 할 것을 업계에 명시적으로 경고했습니다. 보안 제품화가 따라가고 있습니다: @perplexity_ai는 위험한 패키지, 확장 프로그램, AI 도구 구성을 감지하기 위해 macOS/Linux용 읽기 전용 스캐너인 Bumblebee를 오픈 소스화했습니다. @AravSrinivas는 엔터프라이즈 배포에 에이전트 샌드박스와 지속적인 보안 엔지니어링이 필요하다고 말했습니다.

  • 미국 이민 정책 변화는 AI 리더들로부터 강한 반발을 촉발했습니다: 여러 높은 참여 게시물은 녹색 카드 신청자들이 미국 외부에서 신청하도록 강제하는 제안된 규칙이 AI 인재 파이프라인을 직접 손상시킬 것이라고 주장했습니다. @Nick_Davidov, @AndrewYNg, @theo, @garrytan, @togelius를 참조하세요. 일반적인 주장: 이 규칙은 법적으로 높은 기술의 이민자들을 처벌하고, 스타트업과 연구를 약화시키며, 미국의 AI 경쟁력에 해를 끼칩니다.

상위 트윗 (참여도 별)


Ahead of OpenAI’s likely IPO filing next week, Greg makes the latest in a series of comments where Model Labs are increasingly also building Agents as the product:

The quote is a big reversal of stance from a position ~uniformly held by anyone who worked at Team Big Model, including his previous head of OpenAI Labs:

This comes with the shuttering of AI21’s model team, which is now pivoting to agents:

and even the venerable DeepSeek is now building a “Harness team” for the first time:

The “Systems over Models” people will take this as a point of validation of what they have been saying all along… except for the nuance that models cotrained with harnesses does open the door for closing access to models even further — if you can effectively posttrain a model to only meaningfully perform with your closed source agent, then you get to funnel the majority of users to your agent at the expense of your model/API co-opetition.

But that’s a topic of a much larger discussion…

AI News for 5/4/2026-5/5/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews’ website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!


Agent Products, Harnesses, and the Shift Beyond “Just the Model”

  • The product surface is moving up-stack: A recurring theme was that model quality alone is no longer the moat; the winning product is increasingly model + harness + workflow + UI + memory + economics. @gdb put it bluntly: “the model alone is no longer the product,” while @dzhng argued top-tier products need model <> harness <> product symbiosis. The same pattern shows up in practice: @signulll framed ambient AI and agentic AI as the new seam of computing interfaces, and @teortaxesTex noted that harness research still risks converging on “replicate Claude Code” instead of exploring broader interfaces.

  • Coding-agent product differentiation is becoming concrete: OpenAI shipped another substantial Codex update via “codex thursday no. 6” with appshots, /goal improvements, remote computer use while locked, annotation mode, plugin sharing, and analytics. @gdb separately highlighted Appshots, while users reported meaningful workflow shifts: @gdb said it’s hard to remember coding before Codex, and @reach_vb said they haven’t opened an IDE in over a month. But product rough edges remain: @theo praised T3 Code’s remote feature as ahead of alternatives, then contrasted it with buggy remote workflows in Codex in a follow-up post. On the Claude side, @ClaudeDevs expanded auto mode to the Pro plan and added Sonnet 4.6 support; @_mohansolo also had to clarify and patch IDE support in Antigravity 2.0 after user backlash.

Model Performance, Cost Curves, and Frontier Competition

  • DeepSeek’s pricing move was the biggest market signal: @deepseek_ai made the 75% DeepSeek-V4-Pro discount permanent, triggering strong reactions because it materially changes the cost/performance frontier. @ArtificialAnlys quantified first-party pricing at $0.435/M input, $0.87/M output, $0.0036/M cached input, estimating a blended ~$0.18/M and placing V4 Pro on the Pareto frontier for intelligence vs run cost. They estimate running their Intelligence Index on V4 Pro costs ~3x less than Gemini 3.1 Pro Preview, ~12x less than GPT-5.5, and ~19x less than Claude Opus 4.7. Community reaction centered on DeepSeek’s push toward “intelligence too cheap to meter,” as @scaling01 put it. @Yuchenj_UW and @kimmonismus both emphasized the magnitude of the cut.

  • Gemini Flash improved, but usage feedback was mixed: @OfficialLoganK reported Gemini 3.5 Flash making major progress over 3.1 Pro on GDPval, claiming Flash is now “competing at the frontier,” and @Designarena placed it 16th overall on Design Arena, a 16-position jump from Gemini 3 Flash Preview. But several builders pushed back on usefulness vs benchmark gains: @Alezander907 saw only slight browser-agent improvement at higher cost, @giffmana argued this isn’t “Flash progress” if the brand still implies cheapness, and @jeremyphoward said the model feels optimized to max evals rather than cooperate with humans. That aligns with broader eval skepticism from @HamelHusain, who argued current tooling underweights qualitative, HITL judgment.

  • Qwen and Chinese frontier models keep compressing the race: The official @Alibaba_Qwen teasers and a long third-party review from @ZhihuFrontier portrayed Qwen3.7-Max as a meaningful step up, especially in instruction following, context reliability, and stability, while still suffering from verbosity and high token usage. Elsewhere, @scaling01 claimed recent ALE-Bench runs show Chinese models like Kimi-K2.6, DeepSeek-V4, GLM-5.1 outperforming several Western releases in that setting. @ArtificialAnlys also reported Cursor Composer 2.5 as 3–18x cheaper than Opus 4.7 and 5–32x cheaper than GPT-5.5 on Coding Agent benchmarks, with notably lower token use.

Protocols, Infra, and Agent Runtime Tooling

  • MCP’s new release candidate is a substantive protocol simplification: @dsp_ announced the MCP 2026-07-28 release candidate, with the key change that the protocol is now stateless: no handshake, no session ID, and any request can hit any server instance. The RC also introduces first-class extensions like MCP Apps and Tasks, plus auth hardening and a clearer deprecation policy. For infra teams, statelessness is a big operational shift: easier scaling, simpler load balancing, fewer sticky-session concerns.

  • Sandboxes and managed execution are becoming first-class primitives: @_philschmid demoed Gemini Managed Agents + Interactions API to give an agent a secure hosted Linux sandbox with memory and code execution. @CoreWeave launched CoreWeave Sandboxes in public preview for RL, agent tool use, and model eval, while @cnakazawa released Cloudsail for per-task Cloudflare sandboxes with shell, Codex, and GitHub access without exposing tokens. At the orchestration layer, @skypilot_org argued RL doesn’t work on Slurm because modern RL is a multi-service system with heterogeneous hardware and recovery needs.

  • Open-source harnesses and memory layers are proliferating: @NVIDIAAI open-sourced AI-Q agent skills for portable deep-research pipelines that can plug into arbitrary harnesses. @Teknium added Bitwarden support for key management in Hermes and later restored 256K context for Grok Build v0.1 in Hermes here. @shannholmberg described a shared-memory “gBrain” layer under Hermes agents, with typed folders and read-first access for specialist agents. @aakashadesara updated CTOP to support Devin and a CLI for listing, searching, and killing agent sessions.

Research: RL, Distillation, Architectures, and Evaluation

  • RL post-training and reward design are under active reconsideration: @RyanBoldi introduced Vector Policy Optimization (VPO), arguing scalar reward collapse during RL can sabotage test-time scaling. VPO instead optimizes vector-valued rewards, improving search performance even on the original scalar objective. @lateinteraction framed this as a way to train LLMs for more diverse environments and goals, while @FeiziSoheil connected it to broader moves toward structured feedback instead of a single reward number. Separately, @jsuarez teased a solution to a long-standing RL problem involving extreme sparsity, with initial sweeps showing SOTA on one internal environment.

  • Agent compilation/distillation is emerging as a serious economic idea: @dair_ai highlighted a paper showing a full agentic workflow—multi-step calls, tool use, scratchpads, decision structure—can be distilled into weights and run at ~100x lower inference cost while preserving near-frontier quality. This is one of the clearest technical arguments yet for compiling expensive runtime agent loops into cheaper deployable models.

  • Architecture work remains lively beyond vanilla transformers: @ChunyuanDeng introduced LT2, a linear-time looped transformer combining sparse and linear attention to make looping practical, along with a distilled Ouro-hybrid-1.4B. @ZyphraAI shared work extending Equilibrium Propagation beyond energy-based models toward biologically realistic neurons. On MoE, @Jianlin_S proposed Moving Quantile Balancing for sequence-level load balancing without a loss penalty. Meanwhile @allen_ai launched ArtifactLinker, which predicts which benchmarks a model is likely to set SOTA on before running them—a useful meta-eval tool amid growing benchmark sprawl.

  • Math and reasoning capability discourse shifted again: @cozyblaze265065 reported 99.46% on a multi-digit multiplication experiment using gpt-5.5 with medium reasoning and no tools, and @teortaxesTex noted modern LLMs can now do 100-digit multiplication without tools. That’s not a complete theory of reasoning, but it further weakens old “autoregression can’t do arithmetic” talking points.

Multimodal Systems: Video, Speech, World Models, and Imaging

  • Google’s I/O stack pushed toward persistent agents and world simulators: @Google introduced Gemini Spark, a 24/7 personal AI agent for recurring tasks, skills, and workflows. @GoogleDeepMind also launched Project Genie + Street View, letting users turn real U.S. locations into interactive worlds; follow-up posts confirm rollout to Google AI Ultra subscribers via Google Labs. The multimodal side was reinforced by @Google announcing Gemini Omni for conversational video creation/editing and custom avatars, while @emollick emphasized the significance of a fully multimodal system that can natively edit video.

  • Runway and image/video tooling keep raising editability: @runwayml released Aleph 2.0, supporting multishot sequences up to 30s at 1080p with targeted edits that preserve the rest of the scene. @CuriousRefuge highlighted SeeDance 2 Stitcher for seamlessly extending AI-generated cinematic clips using Omni-generated continuations.

  • Speech and image generation saw notable jumps: @ArtificialAnlys ranked Cartesia Sonic-3.5 as the new #1 TTS model on their Speech Arena, citing an Elo of 1218, support for 42 languages, and strong naturalness/transcript following. Cartesia claims 82ms end-to-end first audio in production here. In image generation, @wildmindai flagged Tencent’s Z-Image 6B as a pixel-space generator with no VAE, 1K resolution, and a transfer framework for converting Flux/SD models; related ecosystem work included Pixal3D demos from @victormustar and training support for Z-Image L2P 1k in AI Toolkit from @ostrisai.

Security, Cyber, and Policy Pressure

  • Cybersecurity is quickly becoming a proving ground for advanced agents: @AnthropicAI said Project Glasswing and partners found more than ten thousand high- or critical-severity vulnerabilities in essential software within a month, and explicitly warned the industry will need to adapt to the volume of vulnerabilities that models like Claude Mythos Preview can find. Security productization is following: @perplexity_ai open-sourced Bumblebee, a read-only scanner for macOS/Linux to detect risky packages, extensions, and AI tool configs; @AravSrinivas said enterprise deployment will require agentic sandboxes plus continuous security engineering.

  • US immigration policy changes triggered sharp backlash from AI leaders: Several high-engagement posts argued a proposed rule forcing green-card applicants to apply from outside the US would directly damage the AI talent pipeline. See @Nick_Davidov, @AndrewYNg, @theo, @garrytan, and @togelius. The common argument: the rule punishes legal high-skill immigrants, undermines startups and research, and harms US competitiveness in AI.

Top tweets (by engagement)


원문 보기 https://www.latent.space/p/ainews-all-model-labs-are-now-agent