2026 AI 엔지니어링 설문조사를 응답하고 $2k 이상의 크레딧과 AIE WF 티켓을 받으세요!
이번 주 큰 성과를 이루신 저희 과거 게스트분들을 축하합니다:
정말 곧 Latent Space 펀드를 시작해야 하는데... 그전에.. 도와주세요 저희 2026 AI 엔지니어링 설문조사에 응답하고 $2k 이상의 Notion과 Vercel 크레딧 그리고 AIE WF 티켓을 받으세요!
5/20/2026-5/21/2026 AI 뉴스입니다. 저희는 12개 서브레딧, 544개 트위터를 확인했고 추가 디스코드는 없습니다. AINews' 웹사이트를 통해 모든 과거 이슈를 검색할 수 있습니다. 상기하건대, AINews는 이제 Latent Space의 섹션입니다. 이메일 빈도를 선택할 수 있습니다!
모델, 벤치마크 및 연구 업데이트: RAEv2, Gated DeltaNet-2, 데이터 필터링 및 Open Math
RAEv2 및 표현-우선 토크나이제이션: 여러 연구자들이 RAEv2를 통합 비전 이해 및 생성을 위한 Representation Autoencoders의 의미 있는 후속 작업으로 강조했습니다. @1jaskiratsingh는 업데이트가 >10배 빠른 수렴, 더 나은 재구성, 그리고 더 나은 생성을 제공하며, 테스트가 텍스트-투-이미지 및 월드 모델로 확장된다고 말합니다. @recatm의 중국어 요약은 유용하게 3가지 주요 발견을 추출합니다: 마지막 계층만이 아닌 마지막 K개 인코더 계층을 합산하면 추가 추론 비용 없이 재구성과 생성을 모두 개선합니다; RAE와 REPA는 의미론 대 공간 구조에서 상호 보완적입니다; 그리고 REPA는 내부 자체 안내 메커니즘으로 재공식화할 수 있어 추가의 약한 모델 안내 통과를 피합니다. @sainingxie는 또한 FID를 넘어 새로운 평가 관점을 지적하며, 표현 강화 픽셀 디코더에 여전히 미개척된 여지가 있다고 주장합니다.
표준 주의 및 토크나이저 가정에 대한 대안: NVIDIA의 Gated DeltaNet-2는 선형 주의에서 지우기 및 쓰기 연산을 채널별 게이트로 분리하여, 1.3B 파라미터에서 KDA 및 Mamba-3를 언어 모델링과 상식 추론에서 능가하며, RULER에서 주목할 만한 장문맥 검색 이득을 얻습니다; @rasbt는 이를 더 흥미로운 하이브리드-주의 방향 중 하나로 불렀습니다. 토크나이제이션에 관해, @NousResearch는 서브워드 토크나이제이션이 왜 도움이 되는지에 대한 통제된 연구를 발표했으며, 7개의 가설된 이점을 1.7B 바이트 레벨 파이프라인 내에서 시뮬레이션했고, 7개 중 오직 3개만 그 규모에서 검증 손실을 변동시켰습니다. 별도로, @tatsu_hashimoto는 DCLM에서 놀라운 스케일링 결과를 보고했습니다: 충분한 컴퓨트가 있으면, 최고의 데이터 필터는 필터 없음일 수 있으며, 인터넷 규모 풀에 대한 교차점이 약 1e30 FLOPs 근처에 있다고 투영합니다; 다운스트림 평가는 잡음이 있지만 방향 일관성이 있습니다 (후속).
기계적 해석 가능성 및 기하학: @GoodfireAI는 지배적인 "모델은 곡선 매니폴드에서 생각하고, SAE는 직선 특징을 사용한다"는 비판이 부분적으로만 맞다고 주장합니다. 그들의 제안된 해결책은 SAE 특징을 결합 발화 패턴으로 클러스터링하여, 고립된 원자가 아닌 특징 그룹을 통해 기하학을 복구하는 것입니다 (스레드 계속, 게시물). 이는 현재 SAE 담론에 대한 유용한 업데이트입니다: 희소 특징의 거부가 아니라, 해석이 단일 특징에서 구조화된 앙상블로 이동해야 한다는 경고입니다.
AI 연구 영역으로서의 수학: 가장 큰 과학적 논의는 Erdős 단위 거리 문제에 대한 OpenAI의 보고된 결과를 중심으로 했습니다. @markchen90는 이를 수학이 현재 AI 지원 연구 돌파구에 가장 적합한 영역이라는 증거로 표현했으며, @wtgowers는 보고된 낮은 인간 상호작용 수준이 유지되면 결과가 진정으로 흥미롭다고 지적했습니다. 담론은 즉시 회의론 및 벤치마크/게임성 우려로 형성되었으며, @memecrashes는 결과가 "3시간도 채 안 되어 인간에 의해 구식이 됐다"고 농담했고, @cloneofsimo는 정당한 AI 수학이 무엇인지에 대한 예상 가능한 "목표 이동"을 지적했습니다. 흥미로운 기술 메타 포인트는 수학이 출력을 확인하고, 토론하고, 확장할 수 있기 때문에 AI 공동 연구를 위한 상대적으로 읽기 쉬운 프론티어로 계속 작동한다는 것입니다.
에이전트, 하네스 및 개발자 도구: Codex, Gemini, Devin 및 에이전트 인프라
하네스는 여전히 능력 이득의 주요 원천입니다: @lvwerra는 physics-intern을 출시했으며, 이는 Gemini 3.1 Pro를 17.7에서 31.4로 부스트하는 과학 문제 하네스이며, 해당 설정에서 GPT 5.5 Pro를 능가합니다. 주목할 점은 GPT 5.5 Pro 자체는 하네스로부터 이득을 얻지 못했습니다, 이는 모델 특정 스캐폴딩 트릭 흡수를 시사합니다. 같은 정신으로, @KLieret는 mini-swe-agent를 ProgramBench에서 실행 가능하게 만들었으며, 소프트웨어 엔지니어링 에이전트 주변의 하네스 혁신을 명시적으로 목표로 합니다.
에이전트 설계 패턴은 "단일 에이전트 우선"에서 명시적 서브에이전트 조정으로 성숙하고 있습니다: @cwolferesearch는 실무적 종합을 제공합니다: 단일 에이전트 시스템에서 시작하고, 도구 확산 또는 프롬프트 부풀어짐이 관리 불가능해질 때만 관리자/서브에이전트 또는 분산 다중 에이전트 토폴로지로 이동합니다. 이 조언은 서브에이전트 사용자들의 더 운영적인 관찰과 일치합니다: @andrew_locke는 Cognition의 서브-Devin 워크플로우를 단계 변화로 설명하며, 이전에 2주 이상의 엔지니어 작업으로 보였던 것을 몇 시간으로 압축합니다.
Codex는 모델 위에 실질적인 제품 계층을 출시했습니다: OpenAI의 "Codex Thursday" 업데이트는 독립 실행형 기능보다 코딩 에이전트가 어디로 가고 있는지의 신호로서 더 중요합니다. @OpenAIDevs는 Appshots을 출시했으며, 이는 더 풍부한 작업 맥락을 위해 Mac 앱 윈도우에서 스크린샷과 텍스트를 모두 캡처합니다; 그들은 또한 팀 플러그인 공유 (링크)와 더 자세한 조직 분석 (링크)을 추가했습니다. 더 중요한 시스템 변화는 원격 컴퓨터 사용입니다: @OpenAIDevs는 Codex가 이제 Mac이 잠겨 있을 때도 휴대폰에서 Mac의 앱을 안전하게 사용할 수 있다고 합니다. 이는 에이전트 제품 표면이 채팅 IDE에서 지속적인 크로스 디바이스 연산자 워크플로우로 이동하고 있다는 강한 신호입니다.
Gemini의 에이전트/도구 스토리가 빠르게 확대되고 있습니다: @OfficialLoganK는 Gemini 3.5 Flash가 APEX-Agents-AA에서 1위를 차지하며, 더 큰 모델을 능가한다고 강조했습니다. 응용 측면에서, @_philschmid는 단일 Gemini API 호출과 조정 프레임워크 없이 구축된 GitHub 이슈 분류 에이전트를 보여주며, @skalskip92는 Gemini 3.5 Flash가 차선/자동차 추론을 위한 커스텀 비전 파이프라인을 단일 멀티모달 API 호출로 대체하는 것을 보여줍니다. Google은 또한 액션 표면을 확대했습니다: Daily Brief (공지) 그리고 OpenTable, Canva, 및 Instacart와의 연결된 앱 액션 (공지)는 본질적으로 소비자 대면 에이전트 워크플로우입니다.
개발자 인프라는 검색, 스트리밍, 샌드박스 및 보안 경계 주위로 수렴하고 있습니다: Weaviate는 데이터베이스 내에 내장된 MCP 서버를 출시했으므로 코딩 에이전트는 저장소를 수집하고 추가 프로세스 없이 하이브리드 BM25 + 벡터 검색을 사용할 수 있습니다 (공지). LangChain은 샌드박스 Auth Proxy (에이전트-세계 경계를 제어하기 위해, 공지) 및 새로운 타입된 스트리밍 프로토콜을 도입했습니다 (도구, 서브에이전트, 미디어, 중단을 토큰 스트림이 아닌 일급 투영으로 렌더링하기 위해, 개요). vLLM의 Elastic Expert Parallelism은 또한 주목할 만한 시스템 작업입니다: @vllm_project는 NVLink/RDMA 위의 직접 GPU-GPU 전송을 사용하여 완전한 재시작 없이 MoE DP/EP 토폴로지의 라이브 크기 조정을 설명합니다—스케일링뿐만 아니라 미래의 결함 허용 제공에 중요합니다.
인프라, 컴퓨트 및 AI 비즈니스 신호: Modal, Turbopuffer, Hark 및 컴퓨트 경쟁
인프라 계층은 "돈이 여기 있다"는 가장 명확한 날 중 하나를 가졌습니다: @Sirupsen은 turbopuffer가 3월에 $100M 실행 속도를 넘었으며, $1M 이후 단 19개월이 지났고, 수익성이 있으며 < $1M을 모금했다고 말합니다. 회사의 포지셔닝은 직관적이고 시의적절합니다: 프론티어 팀은 "AI의 마술은 정확한 맥락을 그릴 때 일어난다"는 것을 알고 있으며, 이는 많은 제품 차별화를 검색/검색 문제로 변환합니다 (후속). 이는 @swyx의 더 넓은 정서와 일치하며, "지루한" AI 인프라(화려한 프론티어 연구뿐만 아니라)가 부의 창출이 축적되는 곳이라는 것입니다.
Modal은 큰 규모로 모금했으며 핵심 AI 클라우드 우승자처럼 보이기를 계속합니다: @bernhardsson은 $4.65B 평가에서 $355M Series C를 공지했습니다. 투자자와 사용자는 동일한 논제를 강조했습니다: AI 워크로드를 위한 클라우드 스택을 처음부터 다시 구축하며, 강한 성능과 개발자 경험이 있습니다 (Redpoint, 사용자 지지). 이는 에이전트 네이티브 컴퓨트가 자체 카테고리로 나타나고 있다는 다른 신호와 함께 앉습니다; @latentspacepod는 Daytona의 60ms 샌드박스, 75초에 50K 스타트업, 그리고 RL/평가 워크로드가 현재 대략 절반의 사용을 나타낸다는 주변 내용을 요약했습니다.
컴퓨트는 전략적 병목으로 남아 있으며, 시장은 계층화된 것 같습니다: @AymericRoucher는 유용한 컴퓨트 분류를 스케치했습니다: US 리더 (OpenAI, Anthropic, Google, Meta/xAI 합류)는 멀티 기가와트 클래스에; 중국 거대 기업은 수백 MW에서 멀티 GW로 확장하며, 점점 더 국내 스택에서; 그리고 유럽 경쟁자인 Mistral은 현재 약 90 MW에서 2029년까지 1 GW을 목표로 합니다. 정확한 숫자는 논쟁의 여지가 있지만, 프레임은 @EpochAIResearch와 일치하며, OpenAI가 최근 컴퓨트 구축을 시작했더라도 프론티어 랩은 여전히 모든 글로벌 컴퓨트 용량의 훨씬 미만을 사용하므로, 구축이 얼마나 더 가속할 수 있는지에 대한 질문을 열어둡니다. 컴포넌트 경제학도 메모리로 계속 이동합니다: @EpochAIResearch는 HBM이 2024년 Q1에서 2025년 Q4까지 AI 칩 컴포넌트 지출의 52%에서 63%로 증가했다고 보고합니다.
자본은 인프라뿐만 아니라 인터페이스/하드웨어 베팅으로 흐르고 있습니다: @adcock_brett는 Hark가 $6B 평가에서 $700M을 모금했다고 공지했으며, GPU 인프라, 미래 모델 개발, 하드웨어, 그리고 멀티모달/개인 지능 제품을 목표로 합니다. 세부사항은 모집 분야—기초 모델, 인프라, 음성, 컴퓨터 사용 에이전트, 하드웨어—를 제외하고는 드물지만, 모금 규모는 수직 통합 AI 디바이스 베팅에 대한 투자자 욕구를 보여줍니다. Hark는 또한 F.03에 대해 200시간 중단 없는 자율 실행을 보고했습니다 (공지), 하지만 기본 로봇 스택을 평가할 충분한 기술 세부사항은 아직 없습니다.
멀티모달, 비디오, 생물학 및 로봇공학: Runway, Carbon, Earth Models 및 Open Humanoids
비디오 편집 및 생성이 더 구성적으로 변하고 있습니다: Runway는 Aleph 2.0 및 새로운 Edit Studio를 출시했으며, 사용자가 단일 프레임을 편집하고 그 편집을 비디오의 나머지 부분 전체에 전파할 수 있도록 합니다 (Runway, 제품 리드). 이는 멀티모달 빌더가 신경 쓰는 "참조 가이드 편집 전파" 문제의 실무적 제품화입니다. 별도로, Alibaba 연구자의 MIGA는 @HuggingPapers에 의해 훈련 없는 메서드로 시간적 일관성을 위한 2단계 정렬 메커니즘을 갖춘 무한 프레임 비디오 생성으로 표시되었습니다. 오픈 소스 아바타 측에, Meituan은 LongCat-Video-Avatar 1.5를 출시했으며 Wav2Vec2를 대체하는 Whisper-Large, 8단계 추론, 장문 비디오 정체성 일관성, 그리고 더 넓은 스타일라이즈된 영역 일반화를 가집니다 (공지).
생물학 및 지구 관찰 기초 모델이 계속해서 더 사용 가능해지고 있습니다: Hugging Face Bio의 Carbon DNA 모델 패밀리는 후속 데모와 인프라 검증을 얻었습니다. @LoubnaBenAllal1는 서열 설계, 변이 효과 예측 및 학습된 표현의 응용을 강조했으며, @Shekswess는 Carbon-500M, 3B 및 8B가 1일차에 NxD Inference를 사용하여 단일 Trainium2 trn2.3xlarge에서 컴파일되고 실행되는 것을 보여주었습니다. 지구공간 모델링의 경우, @cgeorgiaw는 OlmoEarth v1.1이 다중 해상도 Sentinel-2 입력의 토크나이제이션을 3배 적은 토큰으로 변경하여 이차 컴퓨트 절약을 악용함으로써 3배 저렴/빠름이라고 보고했습니다.
오픈 로봇공학이 더 구축 가능해지고 있습니다: Hugging Face의 LeRobot Humanoid는 쇼케이스 데모가 아닌 진정한 풀스택 오픈 릴리스로서 주목을 끌었습니다. @robotsdigest 및 @lukas_m_ziegler는 동일한 패키지를 강조합니다: 대략 $2.5k, 3D 프린트 가능, 완전 하드웨어/CAD, 보정/런타임, 시뮬레이션, 식별 도구, 및 훈련 파이프라인. 핵심 포인트는 단순한 가격 책정이 아닙니다; 그것은 실제 로봇 학습 워크플로우를 위한 수리성과 반복 속도입니다.
상위 트윗 (참여도별)