오늘은 특별한 날이었습니다. GitHub vs Agents의 현황에 대해 따라잡은 것도 있고, No Priors와 Satya Nadella와 함께 특별 팟캐스트를 녹음했기 때문입니다 — MS Build에서 Satya와 Mustafa는 7개의 새로운 MAI 모델을 발표했습니다:
이것은 인상적인 라인업입니다. 특히 MAI를 설립한 Microsoft-Inflection 거래가 2년 전에 있었고, 이것들이 모두 처음부터 시작한 사전학습이라는 점을 고려하면 더욱 그렇습니다. 오늘날 MAI는 결코 완전히 검증된 최전선 연구소는 아니지만, 영역 특화 미세조정을 지원할 명백한 인센티브가 있는 좋은 2단계 신규 연구소입니다 (최전선 연구소들이 미세조정을 거의 모두 폐지한 것과 달리).
하이라이트는 100페이지 이상의 MAI 기술 보고서였으며, 연구 커뮤니티는 찬사를 보내고 있습니다:
발표의 나머지 부분은 훌륭한 Verge 요약과 아래의 트윗 요약에서 확인할 수 있습니다:
2026년 6월 1일-6월 2일 AI 뉴스. 우리는 12개 서브레딧, 544개 Twitter를 확인했으며, Discord는 추가로 없습니다. AINews 웹사이트를 통해 모든 과거 이슈를 검색할 수 있습니다. 상기하자면, AINews는 이제 Latent Space의 섹션입니다. 이메일 빈도를 선택 참여/탈퇴할 수 있습니다!
톱 뉴스: Microsoft Build 요약 및 새로운 MAI 모델 기술 세부사항
Microsoft는 Build를 통해 광범위한 제품 출시와 함께 새로운 MAI 모델 제품군에 대해 비정상적으로 상세한 공시를 제공하면서 자신을 AI 플랫폼 회사이자 최전선 모델 연구소로 포지셔닝했습니다.
Microsoft AI는 7개의 새로운 MAI 모델을 발표했으며, 여기에는 추론, 코드, 이미지, 음성 필사, 음성을 포괄하고 MAI-Thinking-1, MAI-Code-1-Flash, MAI-Image-2.5, MAI-Transcribe-1.5, 그리고 MAI-Voice-2가 선도한다고 @MicrosoftAI와 @mustafasuleyman에 따릅니다
기함 추론 모델 MAI-Thinking-1은 Microsoft의 첫 추론 모델로 제시되었으며, 깨끗한 데이터 계보와 제3자 모델로부터의 증류 제로로 구축되었다고 @mustafasuleyman, @baseten, @tuhinone, 그리고 @HannaHajishirzi의 포스트에서 나왔습니다
Microsoft는 MAI-Thinking-1에 대한 109페이지 기술 보고서를 발표했으며, 이는 기술 지향적 독자들로부터 투명성 수준에 대해 강한 긍정적 반응을 얻었으며, 여기에는 @eliebakouch, @ethanCaballero, @nrehiew_, @yacinelearning, 그리고 @stochasticchasm이 포함됩니다
Microsoft는 또한 로컬 AI와 에이전트 네이티브 Windows를 강조했습니다: Build 메시징은 에이전트를 위한 보안 실행 계층, 새로운 Surface RTX Spark Dev Box, 더 넓은 Windows GPU 설치 기반으로의 Windows AI 접근, 그리고 Project Solara/Scout와 같은 개념 하드웨어를 강조했으며, @yusuf_i_mehdi, @TheTuringPost, @kimmonismus, 그리고 @kimmonismus에 의해 요약되었습니다
Build에는 또한 "에이전트 네이티브 소프트웨어 개발을 위한 데스크톱 홈"으로서의 주요 GitHub Copilot 앱 푸시가 포함되었으며, 캔버스, 크로스 디바이스 연속성, 그리고 더 강화된 GitHub 에이전트 워크플로우가 @pierceboggan, @lukehoban, 그리고 @techgirl1908로부터의 반응이 있었습니다
Microsoft는 Web IQ라는 새로운 기반/검색 API 스택을 AI 에이전트용으로 소개했으며, API가 이미 "업계의 거의 모든 AI 에이전트와 챗봇(Copilot 및 ChatGPT 포함)"을 구동한다고 주장했습니다. 이는 @JordiRib1으로부터 나왔습니다
Satya Nadella는 Build를 단일 제품 출시보다는 생태계 순간으로 프레이밍했으며, Mustafa Suleyman은 이를 Microsoft의 내부 "언덕 오르기 기계"의 산출물로 프레이밍했습니다. 이는 @satyanadella, @mustafasuleyman, 그리고 @nrehiew_로부터의 반응에서 나왔습니다
Microsoft는 MAI-Thinking-1을 35B 활성 매개변수 MoE와 256K 컨텍스트 윈도우로 설명했습니다. 이는 @mustafasuleyman으로부터 나왔습니다
@scaling01으로부터의 별도 요약은 모델이 1T@35B 매개변수 모델, 30T 토큰에서 사전 학습, 8192개 GB200 GPU를 사용하여 학습되었다고 말합니다. 이것은 Microsoft 마케팅 카피보다는 기술 보고서의 독서로 보입니다
@kimmonismus는 유사하게 이를 45B 활성 매개변수를 가진 중간 크기 MoE로 요약했지만, 이는 Mustafa의 자신의 35B 활성 수치와 충돌합니다. 트윗 세트에서 더 권위 있는 수치는 공식 35B 활성 번호입니다
Microsoft는 AIME 2025에서 97%와 SWE-Bench Pro에서 53%를 주장하며, Surge의 맹목적 인간 평가자들이 전반적으로 이를 Sonnet 4.6과 비교하여 선호한다고 합니다. 이는 @mustafasuleyman과 @asadovsky로부터 나왔습니다
Microsoft는 모델이 MAIA 200에서 최적화되었으며, 달러당 30% 더 나은 성능과 GB200과 비교하여 1.4배 성능 대 와트 이득을 MAI 모델을 처음부터 끝까지 실행할 때 달성한다고 합니다. 이는 @mustafasuleyman으로부터 나왔습니다
Microsoft와 파트너들은 제3자 증류 없음, "깨끗한 데이터 계보", 그리고 Baseten을 통한 "100% 눈 밖" 사후 학습 데이터와 함께 기업 통제 미세조정을 반복해서 강조했습니다. 이는 @baseten, @tuhinone, 그리고 @MicrosoftAI로부터 나왔습니다
Microsoft는 MAI-Code-1-Flash를 VS Code와 GitHub Copilot CLI를 위한 빠른 코딩 모델로 소개했으며, 처음 @pierceboggan에 의해 발표되었고 나중에 @mariorod1에 의해 강조되었습니다
@mustafasuleyman을 통한 공식 Microsoft 메시징은 Code-1-Flash가 단 5B 매개변수를 가지고도 SWE-Bench Pro에서 51%를 달성한다고 말하며, 이를 Haiku 클래스 크기/비용 근처로 포지셔닝합니다
@scaling01로부터의 경쟁 요약은 이를 137B 매개변수 MoE, 256K 컨텍스트, 10T+ 토큰에서 학습된 것으로 설명하며, "Claude 4.5 Haiku보다 더 강하고 효율적"이라고 합니다. 이는 총 매개변수보다는 5B 활성 매개변수를 나타낼 가능성이 높습니다. 트윗들은 이 구분을 완전히 조화시키지 않지만, 함께 훨씬 더 큰 MoE 내의 작은 활성 풋프린트를 의미합니다
출시 시 가용성은 GitHub Copilot / VS Code 우선으로 강조되었으며, @scaling01과 @mariorod1로부터 나왔습니다
Microsoft는 MAI-Image-2.5와 Flash 변형을 출시했으며, 둘 다 리더보드에서 #2에 도달했다고 주장했으며, @mustafasuleyman은 이들이 이미지 편집에서 Nano Banana 2를 능가한다고 말했습니다
독립적인 리더보드 계정은 높은 순위를 지지했습니다: @arena는 이미지 편집 아레나에서 #2, 점수 1401, Nano Banana 2, Grok Imagine, 그리고 ChatGPT Image Latest HF보다 10포인트 높음을 보고했습니다
@arena는 추가로 MAI-Image-2.5가 "파레토 프론티어를 발전"시킨다고 말했으며, 이는 해당 벤치마크에서 해당 가격대의 어떤 모델도 더 높은 점수를 얻지 못한다는 의미입니다
배포 파트너는 빠르게 뒤따랐으며, 여기에는 @OpenRouter와 @fal이 포함됩니다
@ArtificialAnlys는 MAI-Transcribe-1.5를 STT 프론티어에서 비정상적으로 강한 속도/정확도 포인트로 보고했습니다: 약 276배 실시간, 2.4% AA-WER, 리더보드에서 전체 #3
모델은 영어, 프랑스어, 아랍어, 일본어, 중국어를 포함한 43개 언어를 지원하며, 이름 및 의료 용어와 같은 드문 용어에 대한 키워드 편향을 지원합니다. 이는 @ArtificialAnlys로부터 나왔습니다
가격 책정은 @ArtificialAnlys에서 Microsoft Foundry를 통해 오디오 1,000분당 $6로 보고되었습니다
OpenRouter는 또한 @OpenRouter에서 같은 날 라이브로 가져온 3개의 MAI 출시 중 하나로 모델을 나열했습니다
MAI-Voice-2는 Microsoft의 "7개 모델" 우산과 @OpenRouter의 가용성 게시물에 나타납니다
트윗 세트는 Voice-2 자체에 대한 출시/가용성 이외의 기술적 세부사항을 거의 포함하지 않습니다
지배적 기술 반응은 Microsoft가 비정상적으로 상세한 최전선 모델 보고서를 발표했다는 것입니다: @eliebakouch는 이를 "이 규모의 모델 중 가장 투명"이라고 불렀으며, @nrehiew_는 이것이 "오늘날의 LLM 학습을 위한 업데이트된 교과서로 진정으로 사용될 수 있다"고 말했고, @stochasticchasm은 이를 "금광"이라고 불렀습니다
여러 독자는 보고서가 파이프라인 세부사항, 스케일링 래더 방법론, 데이터 큐레이션, 인프라 메트릭 및 MFU 숫자를 공개했다는 점을 강조했습니다. 이 수준의 특이성은 @ethanCaballero, @eliebakouch, 그리고 @nrehiew_로부터의 찬사를 끌어냈습니다
평론에서 반복된 주요 기술 주장은 MAI-Thinking-1이 합성 데이터 없음과 증류 없음을 사용했다는 것입니다. 사후 학습뿐만 아니라 공개된 전체 파이프라인 전체에 걸쳐서입니다. 이는 @eliebakouch, @stochasticchasm, 그리고 @HannaHajishirzi로부터 나왔습니다
@eliebakouch는 보고서가 명시적으로 Common Crawl과 비공개 소스의 데이터를 언급한다고 말했으며, 다양한 도메인을 위한 타겟 서브 파이프라인, 무거운 추출/중복 제거 작업, 그리고 의도적인 합성 데이터 없음 선택이 있습니다
보고서의 내부 비공개 NLL 세트는 스케일링 결정에 사용되며 @eliebakouch에 의해 다음과 같이 요약되었습니다:
코드 50%
STEM 17.5%
수학 17.5%
일반 지식 10%
다국어 5%
@eliebakouch는 스케일링 래더의 아키텍처 프로모션이 효율성 이득 (EG) 메트릭을 기반으로 했다고 말했습니다: 베이스라인이 후보의 손실과 일치하는 데 필요한 추가 계산
동일한 스레드는 대략 매개변수당 100/200개 토큰에서 절제를 주목하며, 이는 설정에 대해 약 "Chinchilla 최적"으로 설명되지만, MoE 구조로 인해 조밀 모델 휴리스틱과는 다릅니다. 이는 @eliebakouch로부터 나왔습니다
가장 논의된 기술 선택은 Microsoft가 추론 노출이 없는 체크포인트에서 RL을 시작한 것으로 보인다는 것입니다. 여러 독자가 이를 주목했습니다. @stochasticchasm은 이를 "매우 흥미로운 결정"이라고 불렀지만, @stochasticchasm은 <20% AIME25에서 >95%로의 점프를 시사하는 그래프에 반응했습니다
@HannaHajishirzi는 "처음부터 오르기" 레시피를 단순 레시피, 엄격한 과학, 자가 증류, 인내, 그리고 훌륭한 인프라로 설명했습니다
@soldni는 이 과정을 "큰 것들처럼 증류 없이 오르기"로 특성화했습니다
일부 독립적 독자는 보고서에서 합성 데이터가 광범위한 필드의 에이전트 성능에 여전히 매우 가치 있다고 추론했습니다. Microsoft가 의도적으로 여기서 회피했더라도 말입니다. 이를 보세요 @stochasticchasm
DSPy/후기 상호작용 군중을 구성하는 세부사항이 상당한 관심을 얻었습니다: Microsoft는 사전학습 데이터 큐레이션 및 품질 점수에 GEPA / DSPy 최적화 LLM 판사를 사용했습니다
이는 @bj2rn, @LakshyAAAgrawal, 그리고 @lateinteraction에 의해 강조되었습니다
Microsoft는 반복에 걸친 정확한 MFU를 공개했으며, 여러 독자는 이 규모에서 드물게 공유된다고 말했습니다. @eliebakouch에서 나왔습니다
@scaling01은 실행이 8192개 GB200 GPU를 사용했다고 요약했습니다
@eliebakouch는 보고된 와트당 약 40% 더 높은 처리량 유형의 수치를 "상당히 인상적이고 microsoft 칩에 낙관적"이라고 지적했지만, 이것은 랙 수준 예산이나 제공 구성을 언급할 수 있으며 트윗에서 완전히 풀려지지 않았습니다
Microsoft의 공식 프레이밍은 모델 설계를 MAIA 200 맞춤형 실리콘에 연결했으며 NVIDIA GB200과 비교하여 더 나은 달러당 성능과 와트당 성능을 강조했습니다. 이는 @mustafasuleyman에서 나왔습니다
Build의 광범위한 Windows/로컬 AI 내러티브는 또한 다음과 같은 하드웨어 세부사항을 중심으로 했습니다:
반응은 또한 대형 모델의 로컬 실행을 지적했습니다. 예를 들어, @kimmonismus는 RTX Spark가 120B 매개변수 모델을 로컬에서 실행하는 것을 보여줍니다
GitHub는 GitHub Copilot 앱을 공개했으며, 에이전트 네이티브 소프트웨어 개발을 위한 데스크톱 표면으로 홍보했습니다. 이는 @pierceboggan에서 나왔습니다
주요 테마는 다음을 포함했습니다:
사용자와 에이전트 간의 양방향 작업을 위한 캔버스. 이는 @Techmeme에서 나왔습니다
CLI, 모바일, 웹, 로컬, 클라우드 전체의 연속성. 이는 @lukehoban에서 나왔습니다
에이전트 워크플로의 중심으로서의 GitHub의 성장하는 역할. 이는 @techgirl1908과 @OrenMe에서 반영되었습니다
Copilot CLI는 또한 실험적인 탭이 있는 터미널 UI, 내장된 피드백/러버 덕, 프롬프트 스케줄링, 그리고 음성 입력을 받았습니다. 이는 @GHchangelog에서 나왔습니다
Microsoft의 Windows 조직은 Build를 "빠른 개발자 실행, 에이전트를 위한 보안 실행 계층, 그리고 기기에 로컬로 실행되는 측정되지 않은 지능" 주위로 프레이밍했습니다. 이는 @yusuf_i_mehdi에서 나왔습니다
여러 게시물은 Microsoft가 Windows를 Azure뿐만 아니라 에이전트를 위한 신뢰할 수 있는 실행 플랫폼이 되길 원한다고 강조했습니다
@TheTuringPost는 Project Solara를 에이전트 우선 기기를 위한 플랫폼으로 설명했으며, 개념은 다음을 포함합니다:
@kimmonismus는 이를 에이전트를 제어하기 위한 휴대용/데스크톱 기기로 보았으며, 이를 사람들이 독립형 OpenAI 하드웨어에 대해 가지고 있던 기대와 비교했습니다
@kimmonismus는 별도로 Microsoft Scout를 "일하기 위한 항상 켜져 있는 개인 에이전트"로 강조했습니다
@JordiRib1은 Microsoft Web IQ를 웹 페이지, 뉴스, 이미지, 동영상을 위한 AI 네이티브 기반 API의 스위트로 발표했습니다
그의 프레이밍은 중요한 맥락입니다: 고전적 검색 엔진은 인간을 위해 구축되었지만, Microsoft는 미래 검색 수요가 에이전트로부터 올 것으로 믿으며, 잠재적으로 인간 검색 트래픽보다 1000배 더 많은 쿼리입니다
그는 Web IQ를 Bing의 스택에서 품질, 지연 시간, 토큰 효율성을 위해 재설계했으며, 그것이 이미 Copilot 및 ChatGPT를 포함한 주요 챗봇을 구동한다고 주장했습니다
@jeffboudier는 Satya가 Microsoft Foundry에서 이용 가능한 11,000개 이상의 모델을 인용했다고 말했으며, 이 중 10,928개는 Hugging Face에서 나왔습니다
이는 Microsoft의 Build에서의 평행 정체성을 뒷받침합니다: 1차 모델 빌더이자 대형 다중 모델 호스팅/배포 플랫폼
여러 관찰자는 Build 토론 주위에 데이터 센터 확장, 커뮤니티 반발, 그리고 AI 인프라가 지역 사회의 전기 비용을 올리지 않고 확장될 수 있다는 Microsoft의 주장을 언급했습니다. 이를 보세요 @kimmonismus와 @kimmonismus
@scaling01은 Mustafa가 AI 컴퓨팅이 향후 3년 동안 1000배 성장할 것이라고 말했다고 강조했으며, 오늘의 대략 5e27 FLOPs 최전선 규모를 2029년까지 5e30 FLOPs로 가져갑니다
@mustafasuleyman은 회사의 철학적 테마를 "인문주의적 초지능"으로 요약했습니다
Microsoft는 Build에서 7개의 새로운 MAI 모델을 출시했습니다: @MicrosoftAI
MAI-Thinking-1의 공식 메트릭: 35B 활성 MoE, 256K 컨텍스트, AIME 2025에서 97%, SWE-Bench Pro에서 53%, 그리고 Sonnet 4.6과의 맹목적 인간 선호도: @mustafasuleyman
MAI-Code-1-Flash의 공식 메트릭: SWE-Bench Pro에서 51%, 트윗 사본에서 명시된 5B 매개변수: @mustafasuleyman
MAI-Image-2.5 순위 주장은 독립적으로 @arena에서 반복되었습니다
MAI-Transcribe-1.5 속도/정확도 세부사항은 독립적 벤치마크 계정 @ArtificialAnlys에서 나왔습니다
Microsoft는 109페이지 기술 보고서를 발표했습니다: @eliebakouch
@teortaxesTex의 "Microsoft는 이제 진지한 모델을 학습하고 있습니까?"는 모델/보고서 품질에 대한 해석적 반응이지 독립적 사실이 아닙니다
보고서가 "가장 투명 중 하나" 또는 "업데이트된 교과서"라는 주장은 @eliebakouch와 @nrehiew_의 의견이며, 비록 많은 독자가 공유하지만 그렇습니다
@kimmonismus와 @TheTuringPost는 Build를 클라우드 전용 AI에서 로컬 추론/에이전트로의 전략적 전환으로 프레이밍했습니다. 이것은 분석이지 공식 표현이 아닙니다
Microsoft가 Anthropic Mythos FLOPs를 "누설했다"고 주장하는 게시물. 여기에는 @swyx와 @scaling01이 있으며, 슬라이드의 추측적 해석이며, 나중에 같은 논평자 군집에 의해 이의를 제기했습니다
기술 독자들은 광범위하게 보고서의 투명성과 Microsoft의 이 규모에서 일반적으로 보류된 세부사항을 공개할 의지에 감동했습니다: @eliebakouch, @nrehiew_, @ethanCaballero, @stochasticchasm
일부는 MAI-Thinking-1을 Microsoft가 모델 재판매자나 응용 계층이 아닌 진정한 최전선 연구소가 되었다는 증거로 봤습니다. 예를 들어, @teortaxesTex, @echen, @NandoDF
엔터프라이즈/플랫폼 지지자들은 깨끗한 데이터 계보, 미세조정 가능, 특히 Baseten/Microsoft의 소유권과 제어에 대한 위치 전략 주위의 "100% 눈 밖" 사후 학습 데이터 이야기를 좋아했습니다: @baseten, @tuhinone
여러 게시물은 출시를 응원하기보다는 보고서를 읽고 풀기에 초점을 맞췄습니다. 특히 @stochasticchasm, @nrehiew_, 그리고 @eliebakouch
일부 논평가는 벤치마크 해석에 조심했습니다. @kimmonismus는 Microsoft가 일반적으로 Sonnet 4.6에 비교되었으며, Opus 수준의 비교는 SWE Pro에서만이라고 지적했습니다
@iScienceLuvr는 특히 코딩/수학만이 아닌 HealthBench Professional 및 MedXpertQA와 같은 건강 벤치마크에 대한 보고를 높이 평가했습니다
일부는 모든 숫자와 비교가 올바르게 해석되는지 의문을 제기했습니다. 특히 활성 매개변수 및 외부 모델 비교 관련
가장 눈에 띄는 회의론은 명백한 Mythos FLOP "누설"과 관련이 있습니다. @iScienceLuvr는 아마 누설이 아니라 추정이라고 제안했습니다. @scaling01는 나중에 원래 6.1e27 FLOP 수치가 비현실적이었다고 주장했으며, 더 낮은 대안 추정을 제공한 후 @scaling01에서 정정을 게시했습니다
또한 필드에서 제로 합성 / 제로 증류가 최고의 에이전트 성능을 위한 올바른 장기 레시피인지에 대한 암시적 회의론도 있었습니다. 다른 곳의 합성 데이터 델타를 강조하는 독자들이 주목했습니다. 예를 들어, @stochasticchasm
Build의 발표는 Microsoft가 이제 더 이상 다음만으로 만족하지 않는다는 것을 시사하기 때문에 중요합니다:
Azure/OpenAI의 클라우드 호스트
GitHub의 개발자 표면
Copilot의 응용 프로그램 셸
또한 자신의 모델 제품군, 실리콘 스택, 사후 학습 플랫폼이 있는 1차 최전선 모델 개발자가 되려고 시도하고 있습니다
깨끗한 계보 / 증류 없음 강조는 전략적으로 중요합니다. 이것은 엔터프라이즈 우려를 다룹니다. 지적 재산 출처, 미래 가능성 제어, 외부 연구소에 대한 의존
로컬 AI 강조는 중요합니다. Microsoft는 AI 전략을 Azure뿐만 아니라 Windows 및 기기 배포와 연결하고 있기 때문입니다. Build 메시징은 반복해서 추론 모델, 계획자, 그리고 에이전트가 클라우드뿐만 아니라 기기에서 점점 더 실행될 수 있다는 아이디어를 밀어붙였습니다: @TheTuringPost, @yusuf_i_mehdi
109페이지 보고서는 중요합니다. 최전선 모델 투명성이 일반적으로 축소되고 있기 때문입니다. 특히 데이터, 인프라, 학습 방법론 주위. 여러 연구자는 공개 수준이 이 규모에서 비정상이라고 명시적으로 언급했습니다: @eliebakouch, @nrehiew_
Build 요약은 또한 Microsoft가 스택의 모든 계층을 통합하려고 시도하고 있음을 보여줍니다:
모델: MAI 제품군
칩: MAIA 200
클라우드: Azure + Foundry
OS: Windows 에이전트 런타임
개발자 UX: Copilot 앱 / VS Code / CLI
검색/기반: Web IQ
하드웨어 폼 팩터: Solara / Scout 개념
이 조합이 여러 관찰자가 이벤트를 일반 개발 회의가 아니라 클라우드, 에지, OS, 커스텀 모델을 아우르는 에이전트 플랫폼으로의 조정된 이동으로 설명한 이유입니다. 예를 들어, @satyanadella, @mustafasuleyman, 그리고 @TheTuringPost
Build 동안/후에, 일부 사용자는 Microsoft 슬라이드가 실수로 Anthropic의 소문난 Claude Mythos의 학습 컴퓨팅을 노출시켰다고 주장했습니다. @swyx는 Mustafa가 FLOP 카운트를 누설했는지 물었습니다
@scaling01은 슬라이드가 픽셀 측정을 기반으로 신뢰 구간과 함께 6.1e27 FLOPs를 의미한다고 추정했으며, @kimmonismus는 이것이 약 Gemini 3.1 Pro 규모 계산이라고 지적했습니다
그 해석은 이후 @iScienceLuvr에 의해 도전받았으며, 아마 추정일 것이라고 주장했고, 그 다음 @scaling01에 의해, 그는 3.37e26에서 1.46e27 FLOPs 범위의 하한 모델 기반 추정을 게시했고 나중에 원래 숫자를 @scaling01에서 "거짓"이라고 말했습니다
이 에피소드는 주로 맥락으로 유용합니다: Build의 컴퓨팅/스케일링 메시징은 자세한 충분함을 유지했으며, 사람들은 발표 자료에서 경쟁사 학습 예산을 추론하기 시작했습니다
개발자 도구, 에이전트, 코딩 워크플로
OpenAI는 Codex에서 사이트를 출시했으며, 팀이 아이디어/문서/계획을 배포된 내부 웹사이트/앱으로 인증 및 동적 데이터로 변환할 수 있습니다. 처음에는 비즈니스/엔터프라이즈 사용자용입니다. 이는 @OpenAI, @TheRohanVarma, 그리고 @gdb에서 나왔습니다
OpenAI는 또한 역할 특화 Codex 플러그인을 판매, 데이터 분석, 창조적 제작, 제품 설계, 공개 주식 워크플로 전체로 확장했으며, 62개 앱과 110개 기술에 접근할 수 있습니다. 이는 @OpenAI와 @OpenAIDevs에서 나왔습니다
GitHub의 Copilot 앱과 Microsoft의 Build 주변 에이전트 네이티브 소프트웨어 개발 푸시는 그날의 도구 뉴스의 중심이었습니다: @pierceboggan, @lukehoban, @GHchangelog
Anthropic은 Claude Platform을 위한 CLI를 출시했으며, Claude Code의
/fork를 정확한 컨텍스트 + 프롬프트 캐시로 백그라운드 에이전트를 실행하도록 업그레이드했습니다. 이는 @ClaudeDevs와 @ClaudeDevs에서 나왔습니다Nous는 Hermes Desktop을 출시했습니다. Hermes 에이전트를 위한 로컬/네이티브 데스크톱 표면입니다. 이는 @NousResearch, @Teknium, 그리고 나중에 @Teknium과 @ollama로부터의 Tailscale/Ollama 통합 메모에서 나왔습니다
Cognition은 Devin Desktop을 출시했으며, 로컬/클라우드 에이전트를 관리하고 로컬 계획과 클라우드 실행 간의 핸드오프를 위한 에이전트 중립 데스크톱으로 포지셔닝했습니다. 이는 @cognition, @ScottWu46, 그리고 @russelljkaplan에서 나왔습니다
모델, 로컬 추론, 라우팅
H Company는 Holo 3.1을 출시했습니다. Qwen 스타일 아키텍처를 기반으로 한 로컬 컴퓨터 사용 모델 제품군입니다. 체크포인트는 0.8B에서 35B 형식을 포함합니다: NVFP4, FP8, 그리고 Q4 GGUF. 인기 있는 요약은 35B 모델에 대해 AndroidWorld에서 79.3%를 인용했습니다. 이는 @TeksEdge에서 나왔으며, 출시 트윗은 @hcompany_ai로부터
Perplexity는 Perplexity Computer를 위한 하이브리드 에이전트 추론을 발표했으며, 프라이버시와 토큰 효율성을 위해 기기의 로컬 모델과 최전선 클라우드 모델 간에 작업을 분할했습니다. 이는 @perplexity_ai와 @AravSrinivas에서 나왔습니다
@ttunguz가 공유한 OpenRouter 데이터는 오픈 가중치 모델이 토큰 볼륨의 69.1%를 차지했다는 것을 보여주었고, 30.9%는 폐쇄 모델이었습니다
모델 라우팅 주변 논평. 핵심 미래 추상화로서, 이는 @ClementDelangue, @garrytan, @matanSF로부터 나왔고, @glennko로부터의 반박. 그는 엔터프라이즈 생산 안정성이 애호가들이 제안하는 것보다 일반 라우팅을 더 어렵게 만든다고 주장했습니다
로컬 AI UX 개선은 또한 Hugging Face의 하드웨어 호환성 확인과 oMLX의 네이티브 macOS 앱 릴리스에 나타났습니다. 이는 @m_newhaus와 @jundotkim에서 나왔습니다
연구 및 평가
Google DeepMind는 Co-Scientist를 발표했습니다. 과학을 위한 Gemini 기반 다중 에이전트 가설 생성 시스템입니다. 간 섬유증 목표, ALS 접근, 및 노화를 위한 유전적 선도를 식별하는 데 도움이 된 협업을 주장했습니다. 이는 @GoogleDeepMind, @GoogleDeepMind, 그리고 @GoogleDeepMind에서 나왔습니다
새로운 Crafter / CraftEditor 편집 가능한 과학 그림 생성 작업은 그림을 생성 및 정제하고 래스터 대 SVG 변환을 위한 5개 에이전트 워크플로우로서 관심을 끌었습니다. 이는 @HuggingPapers, @_akhaliq, 그리고 @TheTuringPost에서 나왔습니다
Tilde Research는 Wall Attention을 소개했습니다. 대각선 망각 게이트가 있는 RoPE 없는 주의 방법입니다. 4k에서 학습하고 200k+ 토큰으로 일반화, Triton 커널, 그리고 강한 디코드 처리량을 주장했습니다. 이는 @tilderesearch에서 나왔습니다
정적 이미지 사전 학습보다는 동역학 인식을 인코딩하여 실제 세계 OOD 성공에서 +22.5%를 주장하는 로봇공학 비전 인코더를 @jbhuang0604가 게시했습니다
주목할 새로운 평가/벤치마크:
정밀 이미지 편집을 위한 PaintBench. 최고 모델이 가장 달성한 곳은 17.1%입니다. 이는 @itskaixu에서 나왔습니다
동영상 상태 추적을 위한 VSTAT. 최전선 MLLM이 진화하는 세계 상태를 추적하는 데 약함을 주장했습니다. 이는 @PinzhiHuang과 @sainingxie에서 나왔습니다
엔터프라이즈 데이터 워크플로를 위한 데이터 에이전트 벤치마크. 이는 @sh_reya에서 나왔습니다
추론, 인프라, 에이전트 시스템
Harvey + LangChain은 법률 에이전트를 위한 저가 검증자에서 작업을 공유했으며, DeepSeek V4 Flash가 Opus 4.7과의 94–96% 동의를 유지할 수 있음을 보여줬으며 기준별 모드에서 비용을 18배 감소하고 배치 모드에서 약 1000배 감소했습니다. 3,200개 RL 롤아웃의 경우 검증 비용이 $18,000에서 $18로 떨어졌습니다. 이는 @harvey, @hwchase17, 그리고 @nikogrupen에서 나왔습니다
W&B는 Weave를 에이전트 우선 관찰성으로 다시 출시했습니다. 공통 하네스 전체의 통합 및 실패 모드의 자동 감지가 있습니다. 이는 @wandb와 @neutralino1에서 나왔습니다
Prime-RL은 Mooncake Store를 vLLM과 통합했습니다. 크로스 노드 접두사 / KV 캐시 재사용. 이것은 에이전트 롤아웃을 위한 핵심으로 홍보했습니다. 이는 @m_sirovatka에서 나왔습니다
Together는 MiniMax-M3을 위한 제공 최적화를 상세히 했습니다. KV 블록 메이저 희소 주의, 페이징된 디코드, 최적화된 인덱스 점수, 다중 모드 전처리를 통해 81–125% 처리량 개선을 인용했습니다. 이는 @togethercompute에서 나왔습니다
MiniMax 자신은 1M 컨텍스트, 네이티브 다중 모드성, 데스크톱 컴퓨터 작동, 그리고 MSA가 주의의 디코드 시간 점유율을 약 30%에서 약 5%로 감소시킴을 강조했습니다. 이는 @MiniMax_AI에서 나왔습니다
생태계, 하드웨어, 산업 용량
Westmag는 미국 로봇 액추에이터 및 드론 모터를 빌드하기 위해 스텔스에서 나왔으며, a16z가 주도하고 Founders Fund, Lux, NFDG, Menlo 및 기타로부터의 참여로 $11M 모금을 했습니다. 이는 @boxcardavid, @packyM, 그리고 @oyhsu에서 나왔습니다
PyTorch는 OpenMDW-1.1 (허용 AI 모델 라이선싱 프레임워크)의 NVIDIA 채택을 4개의 오픈 모델 제품군 전체에서 언급했습니다. 이는 @PyTorch에서 나왔습니다
Martin Scorsese는 Black Forest Labs와 FLUX의 좁은 사전 제작 사용을 공개적으로 시연했으며, 생성 대체가 아닌 스토리보딩 목적으로 탐색적이고 손으로 그린 작업에 보완적인 것으로 프레이밍했습니다. 이는 @robrombach와 @TheRundownAI에서 나왔습니다