AI·News
뒤로

[AINews] 새로운 AI 인프라 유니콘들: Exa, Modal, TurboPuffer

[AINews] New AI Infra unicorns: Exa, Modal, TurboPuffer

2026 AI 엔지니어링 설문조사를 응답하고 $2k 이상의 크레딧과 AIE WF 티켓을 받으세요!


이번 주 큰 성과를 이루신 저희 과거 게스트분들을 축하합니다:

정말 곧 Latent Space 펀드를 시작해야 하는데... 그전에.. 도와주세요 저희 2026 AI 엔지니어링 설문조사에 응답하고 $2k 이상의 Notion과 Vercel 크레딧 그리고 AIE WF 티켓을 받으세요!

5/20/2026-5/21/2026 AI 뉴스입니다. 저희는 12개 서브레딧, 544개 트위터를 확인했고 추가 디스코드는 없습니다. AINews' 웹사이트를 통해 모든 과거 이슈를 검색할 수 있습니다. 상기하건대, AINews는 이제 Latent Space의 섹션입니다. 이메일 빈도를 선택할 수 있습니다!


모델, 벤치마크 및 연구 업데이트: RAEv2, Gated DeltaNet-2, 데이터 필터링 및 Open Math

  • RAEv2 및 표현-우선 토크나이제이션: 여러 연구자들이 RAEv2를 통합 비전 이해 및 생성을 위한 Representation Autoencoders의 의미 있는 후속 작업으로 강조했습니다. @1jaskiratsingh는 업데이트가 >10배 빠른 수렴, 더 나은 재구성, 그리고 더 나은 생성을 제공하며, 테스트가 텍스트-투-이미지 및 월드 모델로 확장된다고 말합니다. @recatm의 중국어 요약은 유용하게 3가지 주요 발견을 추출합니다: 마지막 계층만이 아닌 마지막 K개 인코더 계층을 합산하면 추가 추론 비용 없이 재구성과 생성을 모두 개선합니다; RAE와 REPA는 의미론 대 공간 구조에서 상호 보완적입니다; 그리고 REPA는 내부 자체 안내 메커니즘으로 재공식화할 수 있어 추가의 약한 모델 안내 통과를 피합니다. @sainingxie는 또한 FID를 넘어 새로운 평가 관점을 지적하며, 표현 강화 픽셀 디코더에 여전히 미개척된 여지가 있다고 주장합니다.

  • 표준 주의 및 토크나이저 가정에 대한 대안: NVIDIA의 Gated DeltaNet-2는 선형 주의에서 지우기쓰기 연산을 채널별 게이트로 분리하여, 1.3B 파라미터에서 KDAMamba-3를 언어 모델링과 상식 추론에서 능가하며, RULER에서 주목할 만한 장문맥 검색 이득을 얻습니다; @rasbt는 이를 더 흥미로운 하이브리드-주의 방향 중 하나로 불렀습니다. 토크나이제이션에 관해, @NousResearch서브워드 토크나이제이션이 왜 도움이 되는지에 대한 통제된 연구를 발표했으며, 7개의 가설된 이점을 1.7B 바이트 레벨 파이프라인 내에서 시뮬레이션했고, 7개 중 오직 3개만 그 규모에서 검증 손실을 변동시켰습니다. 별도로, @tatsu_hashimotoDCLM에서 놀라운 스케일링 결과를 보고했습니다: 충분한 컴퓨트가 있으면, 최고의 데이터 필터는 필터 없음일 수 있으며, 인터넷 규모 풀에 대한 교차점이 약 1e30 FLOPs 근처에 있다고 투영합니다; 다운스트림 평가는 잡음이 있지만 방향 일관성이 있습니다 (후속).

  • 기계적 해석 가능성 및 기하학: @GoodfireAI는 지배적인 "모델은 곡선 매니폴드에서 생각하고, SAE는 직선 특징을 사용한다"는 비판이 부분적으로만 맞다고 주장합니다. 그들의 제안된 해결책은 SAE 특징을 결합 발화 패턴으로 클러스터링하여, 고립된 원자가 아닌 특징 그룹을 통해 기하학을 복구하는 것입니다 (스레드 계속, 게시물). 이는 현재 SAE 담론에 대한 유용한 업데이트입니다: 희소 특징의 거부가 아니라, 해석이 단일 특징에서 구조화된 앙상블로 이동해야 한다는 경고입니다.

  • AI 연구 영역으로서의 수학: 가장 큰 과학적 논의는 Erdős 단위 거리 문제에 대한 OpenAI의 보고된 결과를 중심으로 했습니다. @markchen90는 이를 수학이 현재 AI 지원 연구 돌파구에 가장 적합한 영역이라는 증거로 표현했으며, @wtgowers는 보고된 낮은 인간 상호작용 수준이 유지되면 결과가 진정으로 흥미롭다고 지적했습니다. 담론은 즉시 회의론 및 벤치마크/게임성 우려로 형성되었으며, @memecrashes는 결과가 "3시간도 채 안 되어 인간에 의해 구식이 됐다"고 농담했고, @cloneofsimo는 정당한 AI 수학이 무엇인지에 대한 예상 가능한 "목표 이동"을 지적했습니다. 흥미로운 기술 메타 포인트는 수학이 출력을 확인하고, 토론하고, 확장할 수 있기 때문에 AI 공동 연구를 위한 상대적으로 읽기 쉬운 프론티어로 계속 작동한다는 것입니다.

에이전트, 하네스 및 개발자 도구: Codex, Gemini, Devin 및 에이전트 인프라

  • 하네스는 여전히 능력 이득의 주요 원천입니다: @lvwerraphysics-intern을 출시했으며, 이는 Gemini 3.1 Pro를 17.7에서 31.4로 부스트하는 과학 문제 하네스이며, 해당 설정에서 GPT 5.5 Pro를 능가합니다. 주목할 점은 GPT 5.5 Pro 자체는 하네스로부터 이득을 얻지 못했습니다, 이는 모델 특정 스캐폴딩 트릭 흡수를 시사합니다. 같은 정신으로, @KLieretmini-swe-agentProgramBench에서 실행 가능하게 만들었으며, 소프트웨어 엔지니어링 에이전트 주변의 하네스 혁신을 명시적으로 목표로 합니다.

  • 에이전트 설계 패턴은 "단일 에이전트 우선"에서 명시적 서브에이전트 조정으로 성숙하고 있습니다: @cwolferesearch는 실무적 종합을 제공합니다: 단일 에이전트 시스템에서 시작하고, 도구 확산 또는 프롬프트 부풀어짐이 관리 불가능해질 때만 관리자/서브에이전트 또는 분산 다중 에이전트 토폴로지로 이동합니다. 이 조언은 서브에이전트 사용자들의 더 운영적인 관찰과 일치합니다: @andrew_locke는 Cognition의 서브-Devin 워크플로우를 단계 변화로 설명하며, 이전에 2주 이상의 엔지니어 작업으로 보였던 것을 몇 시간으로 압축합니다.

  • Codex는 모델 위에 실질적인 제품 계층을 출시했습니다: OpenAI의 "Codex Thursday" 업데이트는 독립 실행형 기능보다 코딩 에이전트가 어디로 가고 있는지의 신호로서 더 중요합니다. @OpenAIDevsAppshots을 출시했으며, 이는 더 풍부한 작업 맥락을 위해 Mac 앱 윈도우에서 스크린샷과 텍스트를 모두 캡처합니다; 그들은 또한 팀 플러그인 공유 (링크)와 더 자세한 조직 분석 (링크)을 추가했습니다. 더 중요한 시스템 변화는 원격 컴퓨터 사용입니다: @OpenAIDevs는 Codex가 이제 Mac이 잠겨 있을 때도 휴대폰에서 Mac의 앱을 안전하게 사용할 수 있다고 합니다. 이는 에이전트 제품 표면이 채팅 IDE에서 지속적인 크로스 디바이스 연산자 워크플로우로 이동하고 있다는 강한 신호입니다.

  • Gemini의 에이전트/도구 스토리가 빠르게 확대되고 있습니다: @OfficialLoganKGemini 3.5 FlashAPEX-Agents-AA에서 1위를 차지하며, 더 큰 모델을 능가한다고 강조했습니다. 응용 측면에서, @_philschmid는 단일 Gemini API 호출과 조정 프레임워크 없이 구축된 GitHub 이슈 분류 에이전트를 보여주며, @skalskip92는 Gemini 3.5 Flash가 차선/자동차 추론을 위한 커스텀 비전 파이프라인을 단일 멀티모달 API 호출로 대체하는 것을 보여줍니다. Google은 또한 액션 표면을 확대했습니다: Daily Brief (공지) 그리고 OpenTable, Canva, 및 Instacart와의 연결된 앱 액션 (공지)는 본질적으로 소비자 대면 에이전트 워크플로우입니다.

  • 개발자 인프라는 검색, 스트리밍, 샌드박스 및 보안 경계 주위로 수렴하고 있습니다: Weaviate는 데이터베이스 내에 내장된 MCP 서버를 출시했으므로 코딩 에이전트는 저장소를 수집하고 추가 프로세스 없이 하이브리드 BM25 + 벡터 검색을 사용할 수 있습니다 (공지). LangChain은 샌드박스 Auth Proxy (에이전트-세계 경계를 제어하기 위해, 공지) 및 새로운 타입된 스트리밍 프로토콜을 도입했습니다 (도구, 서브에이전트, 미디어, 중단을 토큰 스트림이 아닌 일급 투영으로 렌더링하기 위해, 개요). vLLM의 Elastic Expert Parallelism은 또한 주목할 만한 시스템 작업입니다: @vllm_projectNVLink/RDMA 위의 직접 GPU-GPU 전송을 사용하여 완전한 재시작 없이 MoE DP/EP 토폴로지의 라이브 크기 조정을 설명합니다—스케일링뿐만 아니라 미래의 결함 허용 제공에 중요합니다.

인프라, 컴퓨트 및 AI 비즈니스 신호: Modal, Turbopuffer, Hark 및 컴퓨트 경쟁

  • 인프라 계층은 "돈이 여기 있다"는 가장 명확한 날 중 하나를 가졌습니다: @Sirupsenturbopuffer가 3월에 $100M 실행 속도를 넘었으며, $1M 이후 단 19개월이 지났고, 수익성이 있으며 < $1M을 모금했다고 말합니다. 회사의 포지셔닝은 직관적이고 시의적절합니다: 프론티어 팀은 "AI의 마술은 정확한 맥락을 그릴 때 일어난다"는 것을 알고 있으며, 이는 많은 제품 차별화를 검색/검색 문제로 변환합니다 (후속). 이는 @swyx의 더 넓은 정서와 일치하며, "지루한" AI 인프라(화려한 프론티어 연구뿐만 아니라)가 부의 창출이 축적되는 곳이라는 것입니다.

  • Modal은 큰 규모로 모금했으며 핵심 AI 클라우드 우승자처럼 보이기를 계속합니다: @bernhardsson$4.65B 평가에서 $355M Series C를 공지했습니다. 투자자와 사용자는 동일한 논제를 강조했습니다: AI 워크로드를 위한 클라우드 스택을 처음부터 다시 구축하며, 강한 성능과 개발자 경험이 있습니다 (Redpoint, 사용자 지지). 이는 에이전트 네이티브 컴퓨트가 자체 카테고리로 나타나고 있다는 다른 신호와 함께 앉습니다; @latentspacepod는 Daytona의 60ms 샌드박스, 75초에 50K 스타트업, 그리고 RL/평가 워크로드가 현재 대략 절반의 사용을 나타낸다는 주변 내용을 요약했습니다.

  • 컴퓨트는 전략적 병목으로 남아 있으며, 시장은 계층화된 것 같습니다: @AymericRoucher는 유용한 컴퓨트 분류를 스케치했습니다: US 리더 (OpenAI, Anthropic, Google, Meta/xAI 합류)는 멀티 기가와트 클래스에; 중국 거대 기업은 수백 MW에서 멀티 GW로 확장하며, 점점 더 국내 스택에서; 그리고 유럽 경쟁자인 Mistral은 현재 약 90 MW에서 2029년까지 1 GW을 목표로 합니다. 정확한 숫자는 논쟁의 여지가 있지만, 프레임은 @EpochAIResearch와 일치하며, OpenAI가 최근 컴퓨트 구축을 시작했더라도 프론티어 랩은 여전히 모든 글로벌 컴퓨트 용량의 훨씬 미만을 사용하므로, 구축이 얼마나 더 가속할 수 있는지에 대한 질문을 열어둡니다. 컴포넌트 경제학도 메모리로 계속 이동합니다: @EpochAIResearchHBM이 2024년 Q1에서 2025년 Q4까지 AI 칩 컴포넌트 지출의 52%에서 63%로 증가했다고 보고합니다.

  • 자본은 인프라뿐만 아니라 인터페이스/하드웨어 베팅으로 흐르고 있습니다: @adcock_brettHark$6B 평가에서 $700M을 모금했다고 공지했으며, GPU 인프라, 미래 모델 개발, 하드웨어, 그리고 멀티모달/개인 지능 제품을 목표로 합니다. 세부사항은 모집 분야—기초 모델, 인프라, 음성, 컴퓨터 사용 에이전트, 하드웨어—를 제외하고는 드물지만, 모금 규모는 수직 통합 AI 디바이스 베팅에 대한 투자자 욕구를 보여줍니다. Hark는 또한 F.03에 대해 200시간 중단 없는 자율 실행을 보고했습니다 (공지), 하지만 기본 로봇 스택을 평가할 충분한 기술 세부사항은 아직 없습니다.

멀티모달, 비디오, 생물학 및 로봇공학: Runway, Carbon, Earth Models 및 Open Humanoids

  • 비디오 편집 및 생성이 더 구성적으로 변하고 있습니다: Runway는 Aleph 2.0 및 새로운 Edit Studio를 출시했으며, 사용자가 단일 프레임을 편집하고 그 편집을 비디오의 나머지 부분 전체에 전파할 수 있도록 합니다 (Runway, 제품 리드). 이는 멀티모달 빌더가 신경 쓰는 "참조 가이드 편집 전파" 문제의 실무적 제품화입니다. 별도로, Alibaba 연구자의 MIGA@HuggingPapers에 의해 훈련 없는 메서드로 시간적 일관성을 위한 2단계 정렬 메커니즘을 갖춘 무한 프레임 비디오 생성으로 표시되었습니다. 오픈 소스 아바타 측에, Meituan은 LongCat-Video-Avatar 1.5를 출시했으며 Wav2Vec2를 대체하는 Whisper-Large, 8단계 추론, 장문 비디오 정체성 일관성, 그리고 더 넓은 스타일라이즈된 영역 일반화를 가집니다 (공지).

  • 생물학 및 지구 관찰 기초 모델이 계속해서 더 사용 가능해지고 있습니다: Hugging Face Bio의 Carbon DNA 모델 패밀리는 후속 데모와 인프라 검증을 얻었습니다. @LoubnaBenAllal1서열 설계, 변이 효과 예측 및 학습된 표현의 응용을 강조했으며, @ShekswessCarbon-500M, 3B 및 8B가 1일차에 NxD Inference를 사용하여 단일 Trainium2 trn2.3xlarge에서 컴파일되고 실행되는 것을 보여주었습니다. 지구공간 모델링의 경우, @cgeorgiawOlmoEarth v1.1이 다중 해상도 Sentinel-2 입력의 토크나이제이션을 3배 적은 토큰으로 변경하여 이차 컴퓨트 절약을 악용함으로써 3배 저렴/빠름이라고 보고했습니다.

  • 오픈 로봇공학이 더 구축 가능해지고 있습니다: Hugging Face의 LeRobot Humanoid는 쇼케이스 데모가 아닌 진정한 풀스택 오픈 릴리스로서 주목을 끌었습니다. @robotsdigest@lukas_m_ziegler는 동일한 패키지를 강조합니다: 대략 $2.5k, 3D 프린트 가능, 완전 하드웨어/CAD, 보정/런타임, 시뮬레이션, 식별 도구, 및 훈련 파이프라인. 핵심 포인트는 단순한 가격 책정이 아닙니다; 그것은 실제 로봇 학습 워크플로우를 위한 수리성과 반복 속도입니다.

상위 트윗 (참여도별)


Take the 2026 AI Engineering Survey and get >$2k in credits and AIE WF tickets!


Congrats to all our past guests who reached huge milestones this week:

We really need to be raising that Latent Space fund soon… but meanwhile.. help us out by taking the 2026 AI Engineering Survey and get >$2k in Notion and Vercel credits and AIE WF tickets!

AI News for 5/20/2026-5/21/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews’ website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!


Model, Benchmark, and Research Updates: RAEv2, Gated DeltaNet-2, Data Filtering, and Open Math

  • RAEv2 and representation-first tokenization: Several researchers highlighted RAEv2 as a meaningful follow-on to Representation Autoencoders for unified vision understanding and generation. @1jaskiratsingh says the update yields >10x faster convergence, better reconstruction, and better generation, with tests extending to text-to-image and world models. A Chinese summary from @recatm usefully extracts the three main findings: summing the last K encoder layers instead of only the final layer improves both reconstruction and generation without added inference cost; RAE and REPA are complementary across semantics vs. spatial structure; and REPA can be reformulated as an internal self-guidance mechanism, avoiding extra weak-model guidance passes. @sainingxi`e also points to new evaluation views beyond FID, arguing there is still underexplored headroom in representation-powered pixel decoders.

  • Alternatives to standard attention and tokenizer assumptions: NVIDIA’s Gated DeltaNet-2 decouples erase and write operations in linear attention with channel-wise gates, outperforming KDA and Mamba-3 at 1.3B parameters on language modeling and commonsense reasoning, with notable long-context retrieval gains on RULER; @rasbt called it one of the more interesting hybrid-attention directions. On tokenization, @NousResearch released a controlled study of why subword tokenization helps, simulating seven hypothesized benefits inside a 1.7B byte-level pipeline; only three of seven interventions moved validation loss at that scale. Separately, @tatsu_hashimoto reported a surprising scaling result on DCLM: with enough compute, the best data filter may be no filter, with projections suggesting the crossover for internet-scale pools lands around 1e30 FLOPs; downstream evals appear noisy but directionally consistent (follow-up).

  • Mechanistic interpretability and geometry: @GoodfireAI argues the dominant “models think in curved manifolds, SAEs use straight-line features” critique is only partly right. Their proposed fix is to cluster SAE features by joint firing patterns, recovering geometry through feature groups rather than isolated atoms (thread continuation, post). This is a useful update to the current SAE discourse: not a rejection of sparse features, but a warning that interpretation should move from single features to structured ensembles.

  • Math as an AI research domain: The biggest scientific discussion centered on OpenAI’s reported result on an Erdős unit-distance problem. @markchen90 framed it as evidence that mathematics is currently the domain most amenable to AI-assisted research breakthroughs, while @wtgowers noted that if the reported low human interaction level holds, the result is genuinely interesting. The discourse was immediately shaped by skepticism and benchmark/gameability concerns, with @memecrashes joking that the result was “outdated not even 3 hours later by a human,” and @cloneofsimo pointing out the predictable “goalpost moving” around what counts as legitimate AI mathematics. The interesting technical meta-point is that math continues to function as a relatively legible frontier for AI co-research because outputs can be checked, debated, and extended.

Agents, Harnesses, and Developer Tooling: Codex, Gemini, Devin, and Agent Infrastructure

  • Harnesses are still a major source of capability gains: @lvwerra released physics-intern, a science-problem harness that boosts models like Gemini 3.1 Pro from 17.7 to 31.4, surpassing GPT 5.5 Pro in that setup. The notable nuance is that GPT 5.5 Pro itself did not benefit from the harness, suggesting model-specific absorption of scaffolding tricks. In the same spirit, @KLieret made mini-swe-agent runnable on ProgramBench, explicitly aiming to improve harness innovation around software engineering agents.

  • Agent design patterns are maturing from “single agent first” to explicit subagent orchestration: @cwolferesearch gives a practical synthesis: start with single-agent systems, and only move to manager/sub-agent or decentralized multi-agent topologies when tool sprawl or prompt bloat becomes unmanageable. That advice lines up with more operational observations from users of subagents: @andrew_locke describes Cognition’s sub-Devin workflow as a step change, compressing what previously looked like 2+ engineer-weeks into a couple of hours.

  • Codex shipped a substantial product layer on top of the model: OpenAI’s “Codex Thursday” updates matter less as standalone features than as signs of where coding agents are going. @OpenAIDevs launched Appshots, which capture both screenshot and text from Mac app windows for richer working context; they also added team plugin sharing (link) and more detailed org analytics (link). The more important systems shift is remote computer use: @OpenAIDevs says Codex can now securely use apps on your Mac from your phone even when the Mac is locked. This is a strong signal that the agent product surface is moving from chat IDEs to persistent cross-device operator workflows.

  • Gemini’s agent/tool story is broadening quickly: @OfficialLoganK highlighted that Gemini 3.5 Flash ranks #1 on APEX-Agents-AA, outperforming larger models. On the applied side, @_philschmid shows a GitHub issue triage agent built with a single Gemini API call and no orchestration framework, while @skalskip92 demonstrates Gemini 3.5 Flash replacing a custom vision pipeline for lane/car reasoning with one multimodal API call. Google also expanded action surfaces: Daily Brief (announcement) and connected-app actions with OpenTable, Canva, and Instacart (announcement) are essentially consumer-facing agent workflows.

  • Developer infra is converging around retrieval, streaming, sandboxes, and security boundaries: Weaviate shipped a built-in MCP server inside the database so coding agents can ingest a repo and use hybrid BM25 + vector retrieval without extra processes (announcement). LangChain introduced both a sandbox Auth Proxy for controlling agent-world boundaries (announcement) and a new typed streaming protocol for rendering tools, subagents, media, and interrupts as first-class projections rather than token streams (overview). vLLM’s Elastic Expert Parallelism is also notable systems work: @vllm_project describes live resizing of MoE DP/EP topology without full restarts, using direct GPU-to-GPU transfers over NVLink/RDMA—important not just for scaling but for future fault-tolerant serving.

Infrastructure, Compute, and AI Business Signals: Modal, Turbopuffer, Hark, and the Compute Race

  • The infra layer had one of its clearest “this is where the money is” days: @Sirupsen said turbopuffer crossed $100M run-rate in March, just 19 months after $1M, while being profitable and raising < $1M. The company’s positioning is straightforward and timely: frontier teams know “the magic happens with AI when it draws in just the right context,” which turns a lot of product differentiation into a search/retrieval problem (follow-up). That aligns with broader sentiment from @swyx that “boring” AI infrastructure, not only glamorous frontier research, is where wealth creation is accruing.

  • Modal raised big and continues to look like a core AI cloud winner: @bernhardsson announced a $355M Series C at a $4.65B valuation. Investors and users emphasized the same thesis: rebuilding the cloud stack for AI workloads from the ground up, with strong performance and developer experience (Redpoint, user endorsement). This sits alongside other signals that agent-native compute is emerging as its own category; @latentspacepod summarized Daytona’s pitch around 60ms sandboxes, 50K startups in 75 seconds, and RL/evals workloads now representing roughly half of usage.

  • Compute remains the strategic bottleneck, and the market appears tiered: @AymericRoucher sketched a useful compute taxonomy: US leaders (OpenAI, Anthropic, Google, with Meta/xAI joining) in the multi-gigawatt class; Chinese giants scaling from hundreds of MW toward multi-GW, increasingly on domestic stacks; and European contenders such as Mistral at around 90 MW today aiming for 1 GW by 2029. The exact numbers are debatable, but the framing is consistent with @EpochAIResearch, which notes that even if OpenAI kicked off the recent compute buildout, frontier labs still use well under all global compute capacity, leaving open the question of how much further the buildout can accelerate. Component economics also continue to shift toward memory: @EpochAIResearch reports HBM grew from 52% to 63% of total AI chip component spending from Q1 2024 to Q4 2025.

  • Capital is flowing to interface/hardware bets as well as infra: @adcock_brett announced Hark raised $700M at a $6B valuation, aimed at GPU infrastructure, future model development, hardware, and multimodal/personal intelligence products. The details are sparse beyond hiring areas—foundation models, infra, speech, computer-use agents, hardware—but the size of the raise shows investor appetite for vertically integrated AI-device bets. Hark also reported a 200-hour uninterrupted autonomous run for F.03 (announcement), though without enough technical detail yet to evaluate the underlying robotics stack.

Multimodal, Video, Biology, and Robotics: Runway, Carbon, Earth Models, and Open Humanoids

  • Video editing and generation are getting more compositional: Runway launched Aleph 2.0 and the new Edit Studio, letting users edit a single frame and propagate that edit through the rest of the video (Runway, product lead). This is a practical productization of the “reference-guided edit propagation” problem that multimodal builders care about. Separately, Alibaba researchers’ MIGA was flagged by @HuggingPapers as a train-free method for infinite-frame video generation with a two-stage alignment mechanism for temporal consistency. On the open-source avatar side, Meituan released LongCat-Video-Avatar 1.5 with Whisper-Large replacing Wav2Vec2, 8-step inference, long-video identity consistency, and broader stylized-domain generalization (announcement).

  • Foundation models for biology and Earth observation continue to become more usable: Hugging Face Bio’s Carbon DNA model family got follow-on demos and infra validation. @LoubnaBenAllal1 highlighted applications in sequence design, variant effect prediction, and learned representations, while @Shekswess showed Carbon-500M, 3B, and 8B compiling and running on a single Trainium2 trn2.3xlarge with NxD Inference on day one. For geospatial modeling, @cgeorgiaw reported OlmoEarth v1.1 is 3x cheaper/faster by changing the tokenization of multi-resolution Sentinel-2 inputs into 3x fewer tokens, exploiting the quadratic compute savings.

  • Open robotics is getting more buildable: Hugging Face’s LeRobot Humanoid drew attention as a genuinely full-stack open release rather than a showcase demo. @robotsdigest and @lukas_m_ziegler both emphasize the same package: roughly $2.5k, 3D-printed, complete hardware/CAD, calibration/runtime, simulation, identification tools, and training pipelines. The key point is not just affordability; it’s repairability and iteration speed for real robot learning workflows.

Top tweets (by engagement)


원문 보기 https://www.latent.space/p/ainews-new-ai-infra-unicorns-exa