AI·News
뒤로

[AINews] 마이크로소프트 빌드: MAI-Thinking-1과 MAI 패밀리 모델

[AINews] Microsoft Build: MAI-Thinking-1 and MAI Family models

오늘은 특별한 날이었습니다. GitHub vs Agents의 현황에 대해 따라잡은 것도 있고, No Priors와 Satya Nadella와 함께 특별 팟캐스트를 녹음했기 때문입니다 — MS Build에서 Satya와 Mustafa는 7개의 새로운 MAI 모델을 발표했습니다:

이것은 인상적인 라인업입니다. 특히 MAI를 설립한 Microsoft-Inflection 거래가 2년 전에 있었고, 이것들이 모두 처음부터 시작한 사전학습이라는 점을 고려하면 더욱 그렇습니다. 오늘날 MAI는 결코 완전히 검증된 최전선 연구소는 아니지만, 영역 특화 미세조정을 지원할 명백한 인센티브가 있는 좋은 2단계 신규 연구소입니다 (최전선 연구소들이 미세조정을 거의 모두 폐지한 것과 달리).

하이라이트는 100페이지 이상의 MAI 기술 보고서였으며, 연구 커뮤니티는 찬사를 보내고 있습니다:

발표의 나머지 부분은 훌륭한 Verge 요약과 아래의 트윗 요약에서 확인할 수 있습니다:

2026년 6월 1일-6월 2일 AI 뉴스. 우리는 12개 서브레딧, 544개 Twitter를 확인했으며, Discord는 추가로 없습니다. AINews 웹사이트를 통해 모든 과거 이슈를 검색할 수 있습니다. 상기하자면, AINews는 이제 Latent Space의 섹션입니다. 이메일 빈도를 선택 참여/탈퇴할 수 있습니다!


톱 뉴스: Microsoft Build 요약 및 새로운 MAI 모델 기술 세부사항

Microsoft는 Build를 통해 광범위한 제품 출시와 함께 새로운 MAI 모델 제품군에 대해 비정상적으로 상세한 공시를 제공하면서 자신을 AI 플랫폼 회사이자 최전선 모델 연구소로 포지셔닝했습니다.

  • Microsoft AI는 7개의 새로운 MAI 모델을 발표했으며, 여기에는 추론, 코드, 이미지, 음성 필사, 음성을 포괄하고 MAI-Thinking-1, MAI-Code-1-Flash, MAI-Image-2.5, MAI-Transcribe-1.5, 그리고 MAI-Voice-2가 선도한다고 @MicrosoftAI@mustafasuleyman에 따릅니다

  • 기함 추론 모델 MAI-Thinking-1은 Microsoft의 첫 추론 모델로 제시되었으며, 깨끗한 데이터 계보제3자 모델로부터의 증류 제로로 구축되었다고 @mustafasuleyman, @baseten, @tuhinone, 그리고 @HannaHajishirzi의 포스트에서 나왔습니다

  • Microsoft는 MAI-Thinking-1에 대한 109페이지 기술 보고서를 발표했으며, 이는 기술 지향적 독자들로부터 투명성 수준에 대해 강한 긍정적 반응을 얻었으며, 여기에는 @eliebakouch, @ethanCaballero, @nrehiew_, @yacinelearning, 그리고 @stochasticchasm이 포함됩니다

  • Microsoft는 또한 로컬 AI와 에이전트 네이티브 Windows를 강조했습니다: Build 메시징은 에이전트를 위한 보안 실행 계층, 새로운 Surface RTX Spark Dev Box, 더 넓은 Windows GPU 설치 기반으로의 Windows AI 접근, 그리고 Project Solara/Scout와 같은 개념 하드웨어를 강조했으며, @yusuf_i_mehdi, @TheTuringPost, @kimmonismus, 그리고 @kimmonismus에 의해 요약되었습니다

  • Build에는 또한 "에이전트 네이티브 소프트웨어 개발을 위한 데스크톱 홈"으로서의 주요 GitHub Copilot 앱 푸시가 포함되었으며, 캔버스, 크로스 디바이스 연속성, 그리고 더 강화된 GitHub 에이전트 워크플로우가 @pierceboggan, @lukehoban, 그리고 @techgirl1908로부터의 반응이 있었습니다

  • Microsoft는 Web IQ라는 새로운 기반/검색 API 스택을 AI 에이전트용으로 소개했으며, API가 이미 "업계의 거의 모든 AI 에이전트와 챗봇(Copilot 및 ChatGPT 포함)"을 구동한다고 주장했습니다. 이는 @JordiRib1으로부터 나왔습니다

  • Satya Nadella는 Build를 단일 제품 출시보다는 생태계 순간으로 프레이밍했으며, Mustafa Suleyman은 이를 Microsoft의 내부 "언덕 오르기 기계"의 산출물로 프레이밍했습니다. 이는 @satyanadella, @mustafasuleyman, 그리고 @nrehiew_로부터의 반응에서 나왔습니다

  • Microsoft는 MAI-Thinking-135B 활성 매개변수 MoE256K 컨텍스트 윈도우로 설명했습니다. 이는 @mustafasuleyman으로부터 나왔습니다

  • @scaling01으로부터의 별도 요약은 모델이 1T@35B 매개변수 모델, 30T 토큰에서 사전 학습, 8192개 GB200 GPU를 사용하여 학습되었다고 말합니다. 이것은 Microsoft 마케팅 카피보다는 기술 보고서의 독서로 보입니다

  • @kimmonismus는 유사하게 이를 45B 활성 매개변수를 가진 중간 크기 MoE로 요약했지만, 이는 Mustafa의 자신의 35B 활성 수치와 충돌합니다. 트윗 세트에서 더 권위 있는 수치는 공식 35B 활성 번호입니다

  • Microsoft는 AIME 2025에서 97%SWE-Bench Pro에서 53%를 주장하며, Surge의 맹목적 인간 평가자들이 전반적으로 이를 Sonnet 4.6과 비교하여 선호한다고 합니다. 이는 @mustafasuleyman@asadovsky로부터 나왔습니다

  • Microsoft는 모델이 MAIA 200에서 최적화되었으며, 달러당 30% 더 나은 성능GB200과 비교하여 1.4배 성능 대 와트 이득을 MAI 모델을 처음부터 끝까지 실행할 때 달성한다고 합니다. 이는 @mustafasuleyman으로부터 나왔습니다

  • Microsoft와 파트너들은 제3자 증류 없음, "깨끗한 데이터 계보", 그리고 Baseten을 통한 "100% 눈 밖" 사후 학습 데이터와 함께 기업 통제 미세조정을 반복해서 강조했습니다. 이는 @baseten, @tuhinone, 그리고 @MicrosoftAI로부터 나왔습니다

  • Microsoft는 MAI-Code-1-FlashVS CodeGitHub Copilot CLI를 위한 빠른 코딩 모델로 소개했으며, 처음 @pierceboggan에 의해 발표되었고 나중에 @mariorod1에 의해 강조되었습니다

  • @mustafasuleyman을 통한 공식 Microsoft 메시징은 Code-1-Flash가 단 5B 매개변수를 가지고도 SWE-Bench Pro에서 51%를 달성한다고 말하며, 이를 Haiku 클래스 크기/비용 근처로 포지셔닝합니다

  • @scaling01로부터의 경쟁 요약은 이를 137B 매개변수 MoE, 256K 컨텍스트, 10T+ 토큰에서 학습된 것으로 설명하며, "Claude 4.5 Haiku보다 더 강하고 효율적"이라고 합니다. 이는 총 매개변수보다는 5B 활성 매개변수를 나타낼 가능성이 높습니다. 트윗들은 이 구분을 완전히 조화시키지 않지만, 함께 훨씬 더 큰 MoE 내의 작은 활성 풋프린트를 의미합니다

  • 출시 시 가용성은 GitHub Copilot / VS Code 우선으로 강조되었으며, @scaling01@mariorod1로부터 나왔습니다

  • Microsoft는 MAI-Image-2.5Flash 변형을 출시했으며, 둘 다 리더보드에서 #2에 도달했다고 주장했으며, @mustafasuleyman은 이들이 이미지 편집에서 Nano Banana 2를 능가한다고 말했습니다

  • 독립적인 리더보드 계정은 높은 순위를 지지했습니다: @arena이미지 편집 아레나에서 #2, 점수 1401, Nano Banana 2, Grok Imagine, 그리고 ChatGPT Image Latest HF보다 10포인트 높음을 보고했습니다

  • @arena는 추가로 MAI-Image-2.5가 "파레토 프론티어를 발전"시킨다고 말했으며, 이는 해당 벤치마크에서 해당 가격대의 어떤 모델도 더 높은 점수를 얻지 못한다는 의미입니다

  • 배포 파트너는 빠르게 뒤따랐으며, 여기에는 @OpenRouter@fal이 포함됩니다

  • @ArtificialAnlysMAI-Transcribe-1.5를 STT 프론티어에서 비정상적으로 강한 속도/정확도 포인트로 보고했습니다: 약 276배 실시간, 2.4% AA-WER, 리더보드에서 전체 #3

  • 모델은 영어, 프랑스어, 아랍어, 일본어, 중국어를 포함한 43개 언어를 지원하며, 이름 및 의료 용어와 같은 드문 용어에 대한 키워드 편향을 지원합니다. 이는 @ArtificialAnlys로부터 나왔습니다

  • 가격 책정은 @ArtificialAnlys에서 Microsoft Foundry를 통해 오디오 1,000분당 $6로 보고되었습니다

  • OpenRouter는 또한 @OpenRouter에서 같은 날 라이브로 가져온 3개의 MAI 출시 중 하나로 모델을 나열했습니다

  • MAI-Voice-2는 Microsoft의 "7개 모델" 우산과 @OpenRouter의 가용성 게시물에 나타납니다

  • 트윗 세트는 Voice-2 자체에 대한 출시/가용성 이외의 기술적 세부사항을 거의 포함하지 않습니다

  • 지배적 기술 반응은 Microsoft가 비정상적으로 상세한 최전선 모델 보고서를 발표했다는 것입니다: @eliebakouch는 이를 "이 규모의 모델 중 가장 투명"이라고 불렀으며, @nrehiew_는 이것이 "오늘날의 LLM 학습을 위한 업데이트된 교과서로 진정으로 사용될 수 있다"고 말했고, @stochasticchasm은 이를 "금광"이라고 불렀습니다

  • 여러 독자는 보고서가 파이프라인 세부사항, 스케일링 래더 방법론, 데이터 큐레이션, 인프라 메트릭 및 MFU 숫자를 공개했다는 점을 강조했습니다. 이 수준의 특이성은 @ethanCaballero, @eliebakouch, 그리고 @nrehiew_로부터의 찬사를 끌어냈습니다

  • 평론에서 반복된 주요 기술 주장은 MAI-Thinking-1이 합성 데이터 없음증류 없음을 사용했다는 것입니다. 사후 학습뿐만 아니라 공개된 전체 파이프라인 전체에 걸쳐서입니다. 이는 @eliebakouch, @stochasticchasm, 그리고 @HannaHajishirzi로부터 나왔습니다

  • @eliebakouch는 보고서가 명시적으로 Common Crawl과 비공개 소스의 데이터를 언급한다고 말했으며, 다양한 도메인을 위한 타겟 서브 파이프라인, 무거운 추출/중복 제거 작업, 그리고 의도적인 합성 데이터 없음 선택이 있습니다

  • 보고서의 내부 비공개 NLL 세트는 스케일링 결정에 사용되며 @eliebakouch에 의해 다음과 같이 요약되었습니다:

    • 코드 50%

    • STEM 17.5%

    • 수학 17.5%

    • 일반 지식 10%

    • 다국어 5%

  • @eliebakouch는 스케일링 래더의 아키텍처 프로모션이 효율성 이득 (EG) 메트릭을 기반으로 했다고 말했습니다: 베이스라인이 후보의 손실과 일치하는 데 필요한 추가 계산

  • 동일한 스레드는 대략 매개변수당 100/200개 토큰에서 절제를 주목하며, 이는 설정에 대해 약 "Chinchilla 최적"으로 설명되지만, MoE 구조로 인해 조밀 모델 휴리스틱과는 다릅니다. 이는 @eliebakouch로부터 나왔습니다

  • 가장 논의된 기술 선택은 Microsoft가 추론 노출이 없는 체크포인트에서 RL을 시작한 것으로 보인다는 것입니다. 여러 독자가 이를 주목했습니다. @stochasticchasm은 이를 "매우 흥미로운 결정"이라고 불렀지만, @stochasticchasm<20% AIME25에서 >95%로의 점프를 시사하는 그래프에 반응했습니다

  • @HannaHajishirzi는 "처음부터 오르기" 레시피를 단순 레시피, 엄격한 과학, 자가 증류, 인내, 그리고 훌륭한 인프라로 설명했습니다

  • @soldni는 이 과정을 "큰 것들처럼 증류 없이 오르기"로 특성화했습니다

  • 일부 독립적 독자는 보고서에서 합성 데이터가 광범위한 필드의 에이전트 성능에 여전히 매우 가치 있다고 추론했습니다. Microsoft가 의도적으로 여기서 회피했더라도 말입니다. 이를 보세요 @stochasticchasm

  • DSPy/후기 상호작용 군중을 구성하는 세부사항이 상당한 관심을 얻었습니다: Microsoft는 사전학습 데이터 큐레이션 및 품질 점수에 GEPA / DSPy 최적화 LLM 판사를 사용했습니다

  • 이는 @bj2rn, @LakshyAAAgrawal, 그리고 @lateinteraction에 의해 강조되었습니다

  • Microsoft는 반복에 걸친 정확한 MFU를 공개했으며, 여러 독자는 이 규모에서 드물게 공유된다고 말했습니다. @eliebakouch에서 나왔습니다

  • @scaling01은 실행이 8192개 GB200 GPU를 사용했다고 요약했습니다

  • @eliebakouch는 보고된 와트당 약 40% 더 높은 처리량 유형의 수치를 "상당히 인상적이고 microsoft 칩에 낙관적"이라고 지적했지만, 이것은 랙 수준 예산이나 제공 구성을 언급할 수 있으며 트윗에서 완전히 풀려지지 않았습니다

  • Microsoft의 공식 프레이밍은 모델 설계를 MAIA 200 맞춤형 실리콘에 연결했으며 NVIDIA GB200과 비교하여 더 나은 달러당 성능와트당 성능을 강조했습니다. 이는 @mustafasuleyman에서 나왔습니다

  • Build의 광범위한 Windows/로컬 AI 내러티브는 또한 다음과 같은 하드웨어 세부사항을 중심으로 했습니다:

  • 반응은 또한 대형 모델의 로컬 실행을 지적했습니다. 예를 들어, @kimmonismusRTX Spark가 120B 매개변수 모델을 로컬에서 실행하는 것을 보여줍니다

  • GitHub는 GitHub Copilot 앱을 공개했으며, 에이전트 네이티브 소프트웨어 개발을 위한 데스크톱 표면으로 홍보했습니다. 이는 @pierceboggan에서 나왔습니다

  • 주요 테마는 다음을 포함했습니다:

    • 사용자와 에이전트 간의 양방향 작업을 위한 캔버스. 이는 @Techmeme에서 나왔습니다

    • CLI, 모바일, 웹, 로컬, 클라우드 전체의 연속성. 이는 @lukehoban에서 나왔습니다

    • 에이전트 워크플로의 중심으로서의 GitHub의 성장하는 역할. 이는 @techgirl1908@OrenMe에서 반영되었습니다

  • Copilot CLI는 또한 실험적인 탭이 있는 터미널 UI, 내장된 피드백/러버 덕, 프롬프트 스케줄링, 그리고 음성 입력을 받았습니다. 이는 @GHchangelog에서 나왔습니다

  • Microsoft의 Windows 조직은 Build를 "빠른 개발자 실행, 에이전트를 위한 보안 실행 계층, 그리고 기기에 로컬로 실행되는 측정되지 않은 지능" 주위로 프레이밍했습니다. 이는 @yusuf_i_mehdi에서 나왔습니다

  • 여러 게시물은 Microsoft가 Windows를 Azure뿐만 아니라 에이전트를 위한 신뢰할 수 있는 실행 플랫폼이 되길 원한다고 강조했습니다

  • @TheTuringPostProject Solara에이전트 우선 기기를 위한 플랫폼으로 설명했으며, 개념은 다음을 포함합니다:

  • @kimmonismus는 이를 에이전트를 제어하기 위한 휴대용/데스크톱 기기로 보았으며, 이를 사람들이 독립형 OpenAI 하드웨어에 대해 가지고 있던 기대와 비교했습니다

  • @kimmonismus는 별도로 Microsoft Scout를 "일하기 위한 항상 켜져 있는 개인 에이전트"로 강조했습니다

  • @JordiRib1Microsoft Web IQ웹 페이지, 뉴스, 이미지, 동영상을 위한 AI 네이티브 기반 API의 스위트로 발표했습니다

  • 그의 프레이밍은 중요한 맥락입니다: 고전적 검색 엔진은 인간을 위해 구축되었지만, Microsoft는 미래 검색 수요가 에이전트로부터 올 것으로 믿으며, 잠재적으로 인간 검색 트래픽보다 1000배 더 많은 쿼리입니다

  • 그는 Web IQ를 Bing의 스택에서 품질, 지연 시간, 토큰 효율성을 위해 재설계했으며, 그것이 이미 Copilot 및 ChatGPT를 포함한 주요 챗봇을 구동한다고 주장했습니다

  • @jeffboudier는 Satya가 Microsoft Foundry에서 이용 가능한 11,000개 이상의 모델을 인용했다고 말했으며, 이 중 10,928개는 Hugging Face에서 나왔습니다

  • 이는 Microsoft의 Build에서의 평행 정체성을 뒷받침합니다: 1차 모델 빌더이자 대형 다중 모델 호스팅/배포 플랫폼

  • 여러 관찰자는 Build 토론 주위에 데이터 센터 확장, 커뮤니티 반발, 그리고 AI 인프라가 지역 사회의 전기 비용을 올리지 않고 확장될 수 있다는 Microsoft의 주장을 언급했습니다. 이를 보세요 @kimmonismus@kimmonismus

  • @scaling01은 Mustafa가 AI 컴퓨팅이 향후 3년 동안 1000배 성장할 것이라고 말했다고 강조했으며, 오늘의 대략 5e27 FLOPs 최전선 규모를 2029년까지 5e30 FLOPs로 가져갑니다

  • @mustafasuleyman은 회사의 철학적 테마를 "인문주의적 초지능"으로 요약했습니다

  • Microsoft는 Build에서 7개의 새로운 MAI 모델을 출시했습니다: @MicrosoftAI

  • MAI-Thinking-1의 공식 메트릭: 35B 활성 MoE, 256K 컨텍스트, AIME 2025에서 97%, SWE-Bench Pro에서 53%, 그리고 Sonnet 4.6과의 맹목적 인간 선호도: @mustafasuleyman

  • MAI-Code-1-Flash의 공식 메트릭: SWE-Bench Pro에서 51%, 트윗 사본에서 명시된 5B 매개변수: @mustafasuleyman

  • MAI-Image-2.5 순위 주장은 독립적으로 @arena에서 반복되었습니다

  • MAI-Transcribe-1.5 속도/정확도 세부사항은 독립적 벤치마크 계정 @ArtificialAnlys에서 나왔습니다

  • Microsoft는 109페이지 기술 보고서를 발표했습니다: @eliebakouch

  • @teortaxesTex의 "Microsoft는 이제 진지한 모델을 학습하고 있습니까?"는 모델/보고서 품질에 대한 해석적 반응이지 독립적 사실이 아닙니다

  • 보고서가 "가장 투명 중 하나" 또는 "업데이트된 교과서"라는 주장은 @eliebakouch@nrehiew_의 의견이며, 비록 많은 독자가 공유하지만 그렇습니다

  • @kimmonismus@TheTuringPost는 Build를 클라우드 전용 AI에서 로컬 추론/에이전트로의 전략적 전환으로 프레이밍했습니다. 이것은 분석이지 공식 표현이 아닙니다

  • Microsoft가 Anthropic Mythos FLOPs를 "누설했다"고 주장하는 게시물. 여기에는 @swyx@scaling01이 있으며, 슬라이드의 추측적 해석이며, 나중에 같은 논평자 군집에 의해 이의를 제기했습니다

  • 기술 독자들은 광범위하게 보고서의 투명성과 Microsoft의 이 규모에서 일반적으로 보류된 세부사항을 공개할 의지에 감동했습니다: @eliebakouch, @nrehiew_, @ethanCaballero, @stochasticchasm

  • 일부는 MAI-Thinking-1을 Microsoft가 모델 재판매자나 응용 계층이 아닌 진정한 최전선 연구소가 되었다는 증거로 봤습니다. 예를 들어, @teortaxesTex, @echen, @NandoDF

  • 엔터프라이즈/플랫폼 지지자들은 깨끗한 데이터 계보, 미세조정 가능, 특히 Baseten/Microsoft의 소유권과 제어에 대한 위치 전략 주위의 "100% 눈 밖" 사후 학습 데이터 이야기를 좋아했습니다: @baseten, @tuhinone

  • 여러 게시물은 출시를 응원하기보다는 보고서를 읽고 풀기에 초점을 맞췄습니다. 특히 @stochasticchasm, @nrehiew_, 그리고 @eliebakouch

  • 일부 논평가는 벤치마크 해석에 조심했습니다. @kimmonismus는 Microsoft가 일반적으로 Sonnet 4.6에 비교되었으며, Opus 수준의 비교는 SWE Pro에서만이라고 지적했습니다

  • @iScienceLuvr는 특히 코딩/수학만이 아닌 HealthBench Professional 및 MedXpertQA와 같은 건강 벤치마크에 대한 보고를 높이 평가했습니다

  • 일부는 모든 숫자와 비교가 올바르게 해석되는지 의문을 제기했습니다. 특히 활성 매개변수 및 외부 모델 비교 관련

  • 가장 눈에 띄는 회의론은 명백한 Mythos FLOP "누설"과 관련이 있습니다. @iScienceLuvr는 아마 누설이 아니라 추정이라고 제안했습니다. @scaling01는 나중에 원래 6.1e27 FLOP 수치가 비현실적이었다고 주장했으며, 더 낮은 대안 추정을 제공한 후 @scaling01에서 정정을 게시했습니다

  • 또한 필드에서 제로 합성 / 제로 증류가 최고의 에이전트 성능을 위한 올바른 장기 레시피인지에 대한 암시적 회의론도 있었습니다. 다른 곳의 합성 데이터 델타를 강조하는 독자들이 주목했습니다. 예를 들어, @stochasticchasm

  • Build의 발표는 Microsoft가 이제 더 이상 다음만으로 만족하지 않는다는 것을 시사하기 때문에 중요합니다:

    1. Azure/OpenAI의 클라우드 호스트

    2. GitHub의 개발자 표면

    3. Copilot의 응용 프로그램 셸
      또한 자신의 모델 제품군, 실리콘 스택, 사후 학습 플랫폼이 있는 1차 최전선 모델 개발자가 되려고 시도하고 있습니다

  • 깨끗한 계보 / 증류 없음 강조는 전략적으로 중요합니다. 이것은 엔터프라이즈 우려를 다룹니다. 지적 재산 출처, 미래 가능성 제어, 외부 연구소에 대한 의존

  • 로컬 AI 강조는 중요합니다. Microsoft는 AI 전략을 Azure뿐만 아니라 Windows 및 기기 배포와 연결하고 있기 때문입니다. Build 메시징은 반복해서 추론 모델, 계획자, 그리고 에이전트가 클라우드뿐만 아니라 기기에서 점점 더 실행될 수 있다는 아이디어를 밀어붙였습니다: @TheTuringPost, @yusuf_i_mehdi

  • 109페이지 보고서는 중요합니다. 최전선 모델 투명성이 일반적으로 축소되고 있기 때문입니다. 특히 데이터, 인프라, 학습 방법론 주위. 여러 연구자는 공개 수준이 이 규모에서 비정상이라고 명시적으로 언급했습니다: @eliebakouch, @nrehiew_

  • Build 요약은 또한 Microsoft가 스택의 모든 계층을 통합하려고 시도하고 있음을 보여줍니다:

    • 모델: MAI 제품군

    • : MAIA 200

    • 클라우드: Azure + Foundry

    • OS: Windows 에이전트 런타임

    • 개발자 UX: Copilot 앱 / VS Code / CLI

    • 검색/기반: Web IQ

    • 하드웨어 폼 팩터: Solara / Scout 개념

  • 이 조합이 여러 관찰자가 이벤트를 일반 개발 회의가 아니라 클라우드, 에지, OS, 커스텀 모델을 아우르는 에이전트 플랫폼으로의 조정된 이동으로 설명한 이유입니다. 예를 들어, @satyanadella, @mustafasuleyman, 그리고 @TheTuringPost

  • Build 동안/후에, 일부 사용자는 Microsoft 슬라이드가 실수로 Anthropic의 소문난 Claude Mythos의 학습 컴퓨팅을 노출시켰다고 주장했습니다. @swyx는 Mustafa가 FLOP 카운트를 누설했는지 물었습니다

  • @scaling01은 슬라이드가 픽셀 측정을 기반으로 신뢰 구간과 함께 6.1e27 FLOPs를 의미한다고 추정했으며, @kimmonismus는 이것이 약 Gemini 3.1 Pro 규모 계산이라고 지적했습니다

  • 그 해석은 이후 @iScienceLuvr에 의해 도전받았으며, 아마 추정일 것이라고 주장했고, 그 다음 @scaling01에 의해, 그는 3.37e26에서 1.46e27 FLOPs 범위의 하한 모델 기반 추정을 게시했고 나중에 원래 숫자를 @scaling01에서 "거짓"이라고 말했습니다

  • 이 에피소드는 주로 맥락으로 유용합니다: Build의 컴퓨팅/스케일링 메시징은 자세한 충분함을 유지했으며, 사람들은 발표 자료에서 경쟁사 학습 예산을 추론하기 시작했습니다

개발자 도구, 에이전트, 코딩 워크플로

  • OpenAI는 Codex에서 사이트를 출시했으며, 팀이 아이디어/문서/계획을 배포된 내부 웹사이트/앱으로 인증 및 동적 데이터로 변환할 수 있습니다. 처음에는 비즈니스/엔터프라이즈 사용자용입니다. 이는 @OpenAI, @TheRohanVarma, 그리고 @gdb에서 나왔습니다

  • OpenAI는 또한 역할 특화 Codex 플러그인을 판매, 데이터 분석, 창조적 제작, 제품 설계, 공개 주식 워크플로 전체로 확장했으며, 62개 앱과 110개 기술에 접근할 수 있습니다. 이는 @OpenAI@OpenAIDevs에서 나왔습니다

  • GitHub의 Copilot 앱과 Microsoft의 Build 주변 에이전트 네이티브 소프트웨어 개발 푸시는 그날의 도구 뉴스의 중심이었습니다: @pierceboggan, @lukehoban, @GHchangelog

  • Anthropic은 Claude Platform을 위한 CLI를 출시했으며, Claude Code의 /fork를 정확한 컨텍스트 + 프롬프트 캐시로 백그라운드 에이전트를 실행하도록 업그레이드했습니다. 이는 @ClaudeDevs@ClaudeDevs에서 나왔습니다

  • Nous는 Hermes Desktop을 출시했습니다. Hermes 에이전트를 위한 로컬/네이티브 데스크톱 표면입니다. 이는 @NousResearch, @Teknium, 그리고 나중에 @Teknium@ollama로부터의 Tailscale/Ollama 통합 메모에서 나왔습니다

  • Cognition은 Devin Desktop을 출시했으며, 로컬/클라우드 에이전트를 관리하고 로컬 계획과 클라우드 실행 간의 핸드오프를 위한 에이전트 중립 데스크톱으로 포지셔닝했습니다. 이는 @cognition, @ScottWu46, 그리고 @russelljkaplan에서 나왔습니다

모델, 로컬 추론, 라우팅

  • H Company는 Holo 3.1을 출시했습니다. Qwen 스타일 아키텍처를 기반으로 한 로컬 컴퓨터 사용 모델 제품군입니다. 체크포인트는 0.8B에서 35B 형식을 포함합니다: NVFP4, FP8, 그리고 Q4 GGUF. 인기 있는 요약은 35B 모델에 대해 AndroidWorld에서 79.3%를 인용했습니다. 이는 @TeksEdge에서 나왔으며, 출시 트윗은 @hcompany_ai로부터

  • Perplexity는 Perplexity Computer를 위한 하이브리드 에이전트 추론을 발표했으며, 프라이버시와 토큰 효율성을 위해 기기의 로컬 모델과 최전선 클라우드 모델 간에 작업을 분할했습니다. 이는 @perplexity_ai@AravSrinivas에서 나왔습니다

  • @ttunguz가 공유한 OpenRouter 데이터는 오픈 가중치 모델이 토큰 볼륨의 69.1%를 차지했다는 것을 보여주었고, 30.9%는 폐쇄 모델이었습니다

  • 모델 라우팅 주변 논평. 핵심 미래 추상화로서, 이는 @ClementDelangue, @garrytan, @matanSF로부터 나왔고, @glennko로부터의 반박. 그는 엔터프라이즈 생산 안정성이 애호가들이 제안하는 것보다 일반 라우팅을 더 어렵게 만든다고 주장했습니다

  • 로컬 AI UX 개선은 또한 Hugging Face의 하드웨어 호환성 확인과 oMLX의 네이티브 macOS 앱 릴리스에 나타났습니다. 이는 @m_newhaus@jundotkim에서 나왔습니다

연구 및 평가

  • Google DeepMind는 Co-Scientist를 발표했습니다. 과학을 위한 Gemini 기반 다중 에이전트 가설 생성 시스템입니다. 간 섬유증 목표, ALS 접근, 및 노화를 위한 유전적 선도를 식별하는 데 도움이 된 협업을 주장했습니다. 이는 @GoogleDeepMind, @GoogleDeepMind, 그리고 @GoogleDeepMind에서 나왔습니다

  • 새로운 Crafter / CraftEditor 편집 가능한 과학 그림 생성 작업은 그림을 생성 및 정제하고 래스터 대 SVG 변환을 위한 5개 에이전트 워크플로우로서 관심을 끌었습니다. 이는 @HuggingPapers, @_akhaliq, 그리고 @TheTuringPost에서 나왔습니다

  • Tilde Research는 Wall Attention을 소개했습니다. 대각선 망각 게이트가 있는 RoPE 없는 주의 방법입니다. 4k에서 학습하고 200k+ 토큰으로 일반화, Triton 커널, 그리고 강한 디코드 처리량을 주장했습니다. 이는 @tilderesearch에서 나왔습니다

  • 정적 이미지 사전 학습보다는 동역학 인식을 인코딩하여 실제 세계 OOD 성공에서 +22.5%를 주장하는 로봇공학 비전 인코더를 @jbhuang0604가 게시했습니다

  • 주목할 새로운 평가/벤치마크:

    • 정밀 이미지 편집을 위한 PaintBench. 최고 모델이 가장 달성한 곳은 17.1%입니다. 이는 @itskaixu에서 나왔습니다

    • 동영상 상태 추적을 위한 VSTAT. 최전선 MLLM이 진화하는 세계 상태를 추적하는 데 약함을 주장했습니다. 이는 @PinzhiHuang@sainingxie에서 나왔습니다

    • 엔터프라이즈 데이터 워크플로를 위한 데이터 에이전트 벤치마크. 이는 @sh_reya에서 나왔습니다

추론, 인프라, 에이전트 시스템

  • Harvey + LangChain은 법률 에이전트를 위한 저가 검증자에서 작업을 공유했으며, DeepSeek V4 FlashOpus 4.7과의 94–96% 동의를 유지할 수 있음을 보여줬으며 기준별 모드에서 비용을 18배 감소하고 배치 모드에서 약 1000배 감소했습니다. 3,200개 RL 롤아웃의 경우 검증 비용이 $18,000에서 $18로 떨어졌습니다. 이는 @harvey, @hwchase17, 그리고 @nikogrupen에서 나왔습니다

  • W&B는 Weave를 에이전트 우선 관찰성으로 다시 출시했습니다. 공통 하네스 전체의 통합 및 실패 모드의 자동 감지가 있습니다. 이는 @wandb@neutralino1에서 나왔습니다

  • Prime-RL은 Mooncake Store를 vLLM과 통합했습니다. 크로스 노드 접두사 / KV 캐시 재사용. 이것은 에이전트 롤아웃을 위한 핵심으로 홍보했습니다. 이는 @m_sirovatka에서 나왔습니다

  • Together는 MiniMax-M3을 위한 제공 최적화를 상세히 했습니다. KV 블록 메이저 희소 주의, 페이징된 디코드, 최적화된 인덱스 점수, 다중 모드 전처리를 통해 81–125% 처리량 개선을 인용했습니다. 이는 @togethercompute에서 나왔습니다

  • MiniMax 자신은 1M 컨텍스트, 네이티브 다중 모드성, 데스크톱 컴퓨터 작동, 그리고 MSA가 주의의 디코드 시간 점유율을 약 30%에서 약 5%로 감소시킴을 강조했습니다. 이는 @MiniMax_AI에서 나왔습니다

생태계, 하드웨어, 산업 용량

  • Westmag는 미국 로봇 액추에이터 및 드론 모터를 빌드하기 위해 스텔스에서 나왔으며, a16z가 주도하고 Founders Fund, Lux, NFDG, Menlo 및 기타로부터의 참여로 $11M 모금을 했습니다. 이는 @boxcardavid, @packyM, 그리고 @oyhsu에서 나왔습니다

  • PyTorch는 OpenMDW-1.1 (허용 AI 모델 라이선싱 프레임워크)의 NVIDIA 채택을 4개의 오픈 모델 제품군 전체에서 언급했습니다. 이는 @PyTorch에서 나왔습니다

  • Martin Scorsese는 Black Forest Labs와 FLUX의 좁은 사전 제작 사용을 공개적으로 시연했으며, 생성 대체가 아닌 스토리보딩 목적으로 탐색적이고 손으로 그린 작업에 보완적인 것으로 프레이밍했습니다. 이는 @robrombach@TheRundownAI에서 나왔습니다


Today was a big day, not least because we caught up on the state of GitHub vs Agents, and recorded a special pod with No Priors and Satya Nadella — at MS Build, Satya and Mustafa announced 7 new MAI models:

This is an impressive lineup, especially considering that the Microsoft-Inflection deal that set up MAI only happened 2 years ago, and that these are all from-scratch pretrains. MAI today is by no means an unqualified frontier lab, but it is a good tier 2 neolab with obvious incentives to support domain specific finetunes (as opposed to the frontier labs who have ~all killed finetuning).

The star of the show was the 100+ page MAI tech report, which the research community is giving glowing reviews:

You can catch up on all the rest of the announcement in the excellent Verge recap, and the tweet summaries below:

AI News for 06/1/2026-6/2/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews’ website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!


Top Story: Microsoft Build recap, and new MAI model technical details

Microsoft used Build to position itself as both an AI platform company and a frontier-model lab, pairing broad product launches with unusually detailed disclosures about its new MAI model family.

  • Microsoft AI announced seven new MAI models spanning reasoning, code, image, speech transcription, and voice, led by MAI-Thinking-1, MAI-Code-1-Flash, MAI-Image-2.5, MAI-Transcribe-1.5, and MAI-Voice-2 according to @MicrosoftAI and @mustafasuleyman

  • The flagship reasoning model MAI-Thinking-1 was presented as Microsoft’s first reasoning model, built with clean data lineage and zero distillation from third-party models in posts from @mustafasuleyman, @baseten, @tuhinone, and @HannaHajishirzi

  • Microsoft released a 109-page technical report for MAI-Thinking-1, which drew strong positive reactions from technically oriented readers for its level of transparency, including @eliebakouch, @ethanCaballero, @nrehiew_, @yacinelearning, and @stochasticchasm

  • Microsoft also emphasized local AI and agent-native Windows: Build messaging highlighted secure execution layers for agents, a new Surface RTX Spark Dev Box, Windows AI access to the broader Windows GPU install base, and concept hardware such as Project Solara/Scout, summarized by @yusuf_i_mehdi, @TheTuringPost, @kimmonismus, and @kimmonismus

  • Build also included a major GitHub Copilot app push as the “desktop home for agent-native software development,” with canvases, cross-device continuity, and tighter GitHub agent workflows, from @pierceboggan, @lukehoban, and reactions from @techgirl1908

  • Microsoft introduced Web IQ, a new grounding/search API stack for AI agents, claiming the APIs already power “nearly all AI agents and chatbots in the industry today, including Copilot and ChatGPT,” via @JordiRib1

  • Satya Nadella framed Build as an ecosystem moment rather than a single-product launch, while Mustafa Suleyman framed it as the output of Microsoft’s internal “hill-climbing machine,” in @satyanadella, @mustafasuleyman, and reaction from @nrehiew_

  • Microsoft described MAI-Thinking-1 as a 35B active parameter MoE with a 256K context window in @mustafasuleyman

  • A separate summary from @scaling01 says the model is a 1T@35B parameter model, pre-trained on 30T tokens, and trained using 8192 GB200 GPUs; this appears to be a reading of the technical report rather than Microsoft marketing copy

  • @kimmonismus similarly summarized it as a mid-size MoE with 45B active params, but this conflicts with Mustafa’s own 35B active figure; the more authoritative figure in the tweet set is the official 35B active number

  • Microsoft claims 97% on AIME 2025 and 53% on SWE-Bench Pro, with blind human raters on Surge preferring it overall to Sonnet 4.6, from @mustafasuleyman and @asadovsky

  • Microsoft says the model is optimized on MAIA 200, with 30% better performance per dollar and 1.4x performance-per-watt gain versus GB200 when running MAI models end-to-end, per @mustafasuleyman

  • Microsoft and partners repeatedly stressed no third-party distillation, “clean data lineage,” and enterprise-controlled fine-tuning with “100% eyes-off” post-training data through Baseten, in @baseten, @tuhinone, and @MicrosoftAI

  • Microsoft introduced MAI-Code-1-Flash as a fast coding model for VS Code and GitHub Copilot CLI, first announced by @pierceboggan and later highlighted by @mariorod1

  • Official Microsoft messaging via @mustafasuleyman says Code-1-Flash achieves 51% on SWE-Bench Pro despite having just 5B parameters, positioning it near Haiku-class size/cost

  • A competing summary from @scaling01 describes it as a 137B parameter MoE, 256K context, trained on 10T+ tokens, and “stronger and more efficient than Claude 4.5 Haiku.” That likely indicates 5B active parameters rather than total parameters; the tweets do not fully reconcile this distinction, but together imply small active footprint within a much larger MoE

  • Availability at launch was highlighted as GitHub Copilot / VS Code-first, per @scaling01 and @mariorod1

  • Microsoft launched MAI-Image-2.5 and a Flash variant, claiming both reached #2 on leaderboards, with @mustafasuleyman saying they surpass Nano Banana 2 on image editing

  • Independent leaderboard accounts supported the high ranking: @arena reported #2 in Image Edit Arena with score 1401, +10 points over Nano Banana 2, Grok Imagine, and ChatGPT Image Latest HF

  • @arena further said MAI-Image-2.5 “advances the Pareto frontier,” meaning no model at its price tier scores higher on that benchmark

  • Distribution partners quickly followed, including @OpenRouter and @fal

  • @ArtificialAnlys reported MAI-Transcribe-1.5 as an unusually strong speed/accuracy point on the STT frontier: ~276x realtime, 2.4% AA-WER, #3 overall on its leaderboard

  • The model supports 43 languages, including English, French, Arabic, Japanese, and Chinese, and supports keyword biasing for rarer terms such as names and medical terminology, per @ArtificialAnlys

  • Pricing was reported as $6 per 1,000 minutes of audio via Microsoft Foundry in @ArtificialAnlys

  • OpenRouter also listed the model among the three MAI launches it brought live the same day in @OpenRouter

  • MAI-Voice-2 appears in Microsoft’s “seven models” umbrella and in OpenRouter’s availability post at @OpenRouter

  • The tweet set contains little technical detail on Voice-2 itself beyond launch/availability

  • The dominant technical reaction was that Microsoft released an unusually detailed frontier-model report: @eliebakouch called it “one of the most transparent for a model at this scale,” @nrehiew_ said it “could really serve as an updated textbook for LLM training today,” and @stochasticchasm called it a “gold mine”

  • Multiple readers highlighted that the report disclosed pipeline details, scaling ladder methodology, data curation, infra metrics, and MFU numbers; this level of specificity is what drew praise from @ethanCaballero, @eliebakouch, and @nrehiew_

  • A major technical claim repeated across commentary is that MAI-Thinking-1 used no synthetic data and no distillation, not only in post-training but throughout the disclosed pipeline, from @eliebakouch, @stochasticchasm, and @HannaHajishirzi

  • @eliebakouch says the report explicitly notes data from Common Crawl plus private sources, with targeted sub-pipelines for different domains, heavy extraction/dedup work, and an intentional choice of no synthetic data

  • The report’s internal private NLL set used for scaling decisions was summarized by @eliebakouch as:

    • 50% code

    • 17.5% STEM

    • 17.5% math

    • 10% general knowledge

    • 5% multilingual

  • @eliebakouch says architecture promotion in the scaling ladder was based on an Efficiency Gain (EG) metric: how much extra compute the baseline would need to match the candidate’s loss

  • The same thread notes ablations at roughly 100/200 tokens per parameter, described as around “Chinchilla optimal” for the setup, while also remarking this differs from dense-model heuristics due to MoE structure in @eliebakouch

  • The most discussed technical choice was that Microsoft appears to have started RL from a checkpoint with no prior reasoning exposure, which several readers found notable. @stochasticchasm called this a “very interesting decision,” while @stochasticchasm reacted to graphs suggesting a jump from <20% AIME25 to >95%

  • @HannaHajishirzi described the “climbing from scratch” recipe as simple recipes, rigorous science, self-distillation, patience, and great infra

  • @soldni characterized the process as “climbing with no distillation, like the big boys do”

  • Some independent readers inferred from the report that synth data remains very valuable for agentic performance in the broader field, even if Microsoft deliberately avoided it here; see @stochasticchasm

  • A detail that got substantial attention from the DSPy/late-interaction crowd: Microsoft reportedly used GEPA / DSPy-optimized LLM judges in pretraining data curation and quality scoring

  • This was highlighted by @bj2rn, @LakshyAAAgrawal, and @lateinteraction

  • Microsoft reportedly disclosed exact MFU across iterations, which multiple readers said is rarely shared at this scale, per @eliebakouch

  • @scaling01 summarized the run as using 8192 GB200 GPUs

  • @eliebakouch singled out a reported ~40% higher throughput per watt-type figure as “pretty impressive and bullish on microsoft chips,” though this may refer to rack-level budget or serving configuration and was not fully unpacked in-tweet

  • Microsoft’s official framing connected model design to MAIA 200 custom silicon and emphasized better performance-per-dollar and performance-per-watt vs NVIDIA GB200 in @mustafasuleyman

  • Build’s broader Windows/local-AI narrative also centered on hardware specifics such as:

  • Reactions also pointed to local runs of large models, e.g. @kimmonismus on RTX Spark running a 120B parameter model locally

  • GitHub unveiled the GitHub Copilot app, pitched as a desktop surface for agent-native software development by @pierceboggan

  • Key themes included:

    • canvases for bidirectional work between users and agents, per @Techmeme

    • continuity across CLI, mobile, web, local, and cloud, per @lukehoban

    • a growing role for GitHub as the center of agent workflows, reflected in @techgirl1908 and @OrenMe

  • Copilot CLI also got an experimental terminal UI with tabs, built-in feedback/rubber duck, prompt scheduling, and voice input, per @GHchangelog

  • Microsoft’s Windows org framed Build around “faster developer execution, a secure execution layer for agents, and unmetered intelligence that runs locally on device,” per @yusuf_i_mehdi

  • Several posts stressed that Microsoft wants Windows to be the trusted execution platform for agents, not just Azure

  • @TheTuringPost described Project Solara as a platform for agent-first devices, with concepts including:

  • @kimmonismus saw these as handheld/desktop devices for controlling agents and compared them to expectations people had for standalone OpenAI hardware

  • @kimmonismus separately highlighted Microsoft Scout as an “always-on personal agent for work”

  • @JordiRib1 announced Microsoft Web IQ as a suite of AI-native grounding APIs for web pages, news, images, and videos

  • His framing is important context: classic search engines were built for humans, but Microsoft believes future search demand will come from agents, potentially 1000x more queries than human search traffic

  • He claimed Web IQ was re-architected from Bing’s stack for quality, latency, and token efficiency, and that it already powers major chatbots including Copilot and ChatGPT

  • @jeffboudier said Satya cited 11,000+ models available in Microsoft Foundry, of which 10,928 come from Hugging Face

  • This supports Microsoft’s parallel identity at Build: both a first-party model builder and a large multi-model hosting/distribution platform

  • Several observers noted Build discussion around data center expansion, community backlash, and Microsoft’s argument that AI infra can expand without raising electricity costs to local communities; see @kimmonismus and @kimmonismus

  • @scaling01 highlighted Mustafa saying AI compute will grow 1000x in the next 3 years, taking today’s rough 5e27 FLOPs frontier scale to 5e30 FLOPs by 2029

  • @mustafasuleyman summarized the company’s philosophical theme as “Humanist superintelligence”

  • Microsoft launched seven new MAI models at Build: @MicrosoftAI

  • Official metrics for MAI-Thinking-1: 35B active MoE, 256K context, 97% AIME 2025, 53% SWE-Bench Pro, and blind human preference over Sonnet 4.6: @mustafasuleyman

  • Official metrics for MAI-Code-1-Flash: 51% SWE-Bench Pro, 5B parameters as stated in tweet copy: @mustafasuleyman

  • MAI-Image-2.5 ranking claims were independently echoed by @arena

  • MAI-Transcribe-1.5 speed/accuracy details came from independent benchmark account @ArtificialAnlys

  • Microsoft released a 109-page technical report: @eliebakouch

  • “Microsoft is training serious models now?” from @teortaxesTex is an interpretive reaction to the model/report quality, not a standalone fact

  • Claims that the report is “one of the most transparent” or “an updated textbook” are opinions from @eliebakouch and @nrehiew_, albeit shared by many readers

  • @kimmonismus and @TheTuringPost framed Build as a strategic shift from cloud-only AI toward local reasoning/agents; that is analysis rather than official wording

  • Posts claiming Microsoft “leaked” Anthropic Mythos FLOPs, including @swyx and @scaling01, are speculative interpretations of a slide, later contested by the same cluster of commenters

  • Technical readers were broadly impressed by the report’s transparency and Microsoft’s willingness to publish details usually withheld at this scale: @eliebakouch, @nrehiew_, @ethanCaballero, @stochasticchasm

  • Some saw MAI-Thinking-1 as proof Microsoft is becoming a genuine frontier lab rather than just a model reseller or application layer, e.g. @teortaxesTex, @echen, @NandoDF

  • Enterprise/platform supporters liked the clean-data-lineage, fine-tunable, eyes-off post-training data story, especially Baseten/Microsoft’s positioning around ownership and control: @baseten, @tuhinone

  • Several posts focused on reading and unpacking the report rather than cheering the launch, especially @stochasticchasm, @nrehiew_, and @eliebakouch

  • Some commentators were careful on benchmark interpretation. @kimmonismus noted Microsoft appeared to compare to Sonnet 4.6 generally, with Opus-level comparability only on SWE Pro

  • @iScienceLuvr specifically appreciated reporting on health benchmarks such as HealthBench Professional and MedXpertQA rather than only coding/math

  • A subset questioned whether all numbers and comparisons were being interpreted correctly, especially around active params and external-model comparisons

  • The most visible skepticism concerned the apparent Mythos FLOP “leak”. @iScienceLuvr suggested it was probably just an estimate, not a leak; @scaling01 later argued the original 6.1e27 FLOP figure was unrealistic and supplied a lower alternative estimate before posting a correction in @scaling01

  • There was also implicit skepticism in the field about whether zero synth / zero distillation is the right long-term recipe for best agentic performance, as noted by readers emphasizing synth-data deltas elsewhere, e.g. @stochasticchasm

  • Build’s announcements matter because they suggest Microsoft is no longer content with being only:

    1. Azure/OpenAI’s cloud host

    2. GitHub’s developer surface

    3. Copilot’s application shell
      It is also trying to be a first-party frontier model developer with its own model family, silicon stack, and post-training platform

  • The clean lineage / no distillation emphasis is strategically significant. It addresses enterprise concerns around IP provenance, future controllability, and dependence on external labs

  • The local AI emphasis matters because Microsoft is tying AI strategy to Windows and device distribution, not just to Azure. Build messaging repeatedly pushed the idea that reasoning models, planners, and agents can increasingly run on-device, not only in the cloud: @TheTuringPost, @yusuf_i_mehdi

  • The 109-page report matters because frontier-model transparency has generally been shrinking, especially around data, infra, and training methodology. Multiple researchers explicitly noted the disclosure level is uncommon at this scale: @eliebakouch, @nrehiew_

  • The Build recap also showed Microsoft trying to integrate all layers of the stack:

    • models: MAI family

    • chips: MAIA 200

    • cloud: Azure + Foundry

    • OS: Windows agent runtime

    • developer UX: Copilot app / VS Code / CLI

    • retrieval/grounding: Web IQ

    • hardware form factors: Solara / Scout concepts

  • This combination is why several observers described the event less as a normal dev conference and more as a coordinated move toward an agent platform spanning cloud, edge, OS, and custom models, e.g. @satyanadella, @mustafasuleyman, and @TheTuringPost

  • During/after Build, some users claimed a Microsoft slide inadvertently revealed training compute for Anthropic’s rumored Claude Mythos, with @swyx asking if Mustafa had leaked the FLOP count

  • @scaling01 estimated the slide implied 6.1e27 FLOPs with a confidence interval based on pixel measurement, while @kimmonismus noted that would be around Gemini 3.1 Pro-scale compute

  • That interpretation was subsequently challenged by @iScienceLuvr, who argued it was probably an estimate, and then by @scaling01, who posted a lower-range model-based estimate of 3.37e26 to 1.46e27 FLOPs and later said the original numbers were bogus in @scaling01

  • The episode is useful mostly as context: Build’s compute/scaling messaging was detailed enough that people started trying to infer competitor training budgets from presentation materials

Developer tools, agents, and coding workflows

  • OpenAI launched Sites in Codex, letting teams turn ideas/docs/plans into deployed internal websites/apps with auth and dynamic data, first for business/enterprise users, in @OpenAI, @TheRohanVarma, and @gdb

  • OpenAI also expanded role-specific Codex plugins across sales, data analytics, creative production, product design, and public equity workflows, with access to 62 apps and 110 skills, from @OpenAI and @OpenAIDevs

  • GitHub’s Copilot app and Microsoft’s Build push around agent-native software development were central to the day’s tooling news: @pierceboggan, @lukehoban, @GHchangelog

  • Anthropic shipped a CLI for Claude Platform and upgraded Claude Code’s /fork to run a background agent with exact context + prompt cache, in @ClaudeDevs and @ClaudeDevs

  • Nous launched Hermes Desktop, a local/native desktop surface for Hermes agents, in @NousResearch, @Teknium, and later Tailscale/Ollama integration notes from @Teknium and @ollama

  • Cognition launched Devin Desktop, positioned as an agent-neutral desktop for managing local/cloud agents and handoff between local planning and cloud execution, in @cognition, @ScottWu46, and @russelljkaplan

Models, local inference, and routing

  • H Company launched Holo 3.1, a local computer-use model family based on Qwen-style architecture, with checkpoints from 0.8B to 35B and formats including NVFP4, FP8, and Q4 GGUF; a popular summary cited 79.3% on AndroidWorld for the 35B model in @TeksEdge, with launch tweet from @hcompany_ai

  • Perplexity announced hybrid agentic inference for Perplexity Computer, splitting work between local models on-device and frontier cloud models for privacy and token efficiency, in @perplexity_ai and @AravSrinivas

  • OpenRouter data shared by @ttunguz showed open-weight models at 69.1% of token volume, versus 30.9% for closed models

  • Commentary around model routing as a key future abstraction came from @ClementDelangue, @garrytan, @matanSF, and the counterpoint from @glennko, who argued enterprise production reliability makes generic routing harder than enthusiasts suggest

  • Local-AI UX improvements also appeared in Hugging Face’s hardware compatibility checks and oMLX’s native macOS app release from @m_newhaus and @jundotkim

Research and evals

  • Google DeepMind announced Co-Scientist, a Gemini-based multi-agent hypothesis generation system for science, claiming collaborations that helped identify liver fibrosis targets, ALS approaches, and genetic leads for aging, in @GoogleDeepMind, @GoogleDeepMind, and @GoogleDeepMind

  • The new Crafter / CraftEditor work on editable scientific figure generation drew attention as a five-agent workflow for producing and refining figures plus raster-to-SVG conversion, in @HuggingPapers, @_akhaliq, and @TheTuringPost

  • Tilde Research introduced Wall Attention, a RoPE-free attention method with diagonal forget gates, claiming training at 4k and generalization to 200k+ tokens plus Triton kernels and strong decode throughput, in @tilderesearch

  • A robotics vision encoder claiming +22.5% real-world OOD success by encoding dynamics-awareness rather than relying on static-image pretraining was posted by @jbhuang0604

  • New evals/benchmarks of note:

    • PaintBench for precise image editing, where best model reached only 17.1%, from @itskaixu

    • VSTAT for video state tracking, arguing frontier MLLMs remain weak at tracking evolving world state, from @PinzhiHuang and @sainingxie

    • Data Agent Benchmark for enterprise data workflows, from @sh_reya

Inference, infrastructure, and agent systems

  • Harvey + LangChain shared work on cheap verifiers for legal agents, showing DeepSeek V4 Flash could preserve 94–96% agreement with Opus 4.7 while reducing cost 18x in per-criterion mode and ~1000x in batch mode; for 3,200 RL rollouts, verification cost dropped from $18,000 to $18, in @harvey, @hwchase17, and @nikogrupen

  • W&B relaunched Weave as agent-first observability with integrations across common harnesses and automated detection of failure modes, in @wandb and @neutralino1

  • Prime-RL integrated Mooncake Store with vLLM for cross-node prefix / KV cache reuse, pitched as key for agentic rollouts, in @m_sirovatka

  • Together detailed serving optimizations for MiniMax-M3, citing 81–125% throughput improvements via KV-block-major sparse attention, paged decode, optimized index scoring, and multimodal preprocessing, in @togethercompute

  • MiniMax itself highlighted 1M context, native multimodality, desktop-computer operation, and MSA reducing attention’s share of decode time from ~30% to ~5%, in @MiniMax_AI

Ecosystem, hardware, and industrial capacity

  • Westmag emerged from stealth to build American robot actuators and drone motors, with $11M raised led by a16z and participation from Founders Fund, Lux, NFDG, Menlo and others, in @boxcardavid, @packyM, and @oyhsu

  • PyTorch noted NVIDIA adoption of OpenMDW-1.1, a permissive AI-model licensing framework, across four open-model families in @PyTorch

  • Martin Scorsese publicly demonstrated narrow, preproduction use of FLUX for storyboarding with Black Forest Labs, framed as exploratory and complementary to hand-drawn work rather than generative replacement, in @robrombach and @TheRundownAI