Google I/O 전날이며, 다음의 주요 Gemini 릴리스가 프리뷰될 것으로 예상되고, 경쟁사들의 활동은 조용할 것으로 예상되지만 Anthropic과 OpenAI 모두 오늘 작은 승리를 거두었으며, Cursor는 첫 번째 SpaceXAI 모델을 출시했고 합성 데이터/보상 해킹에 대한 좋은 세부 정보와 Muon을 통한 지속적인 사전 학습을 제공합니다. 그러나 오늘의 가장 오래 지속될 제목 후보는 Vlad Feinberg의 (이해할 수 있게도 Google/TPU 중심의) 직업 준비 노트, 특히 사전 학습에 관한 것입니다:
특히 그는 지난해의 DeepMind의 확장 핸드북을 언급하고 있으며, 커널 작업이 중요한 부분입니다:
모든 LLM 작업의 가장 큰 병목 지점이자 가장 안쪽 루프는 추상적이고 논리적인 변화를 LLM을 실제로 실행 가능하게 만드는 성능 작업입니다. 모든 프로젝트는 커널 수준에서 LLM을 튜닝할 수 있는 사람들이 필요합니다. 이는 습득할 수 있는 기술이며 실험실로 들어가는 가장 직접적인 경로입니다.
커널 개발용 DSL에 대한 놀라운 언급이 있으며, 이에 대한 간결한 역사가 있습니다:
이 수준의 스택에 있는 사람으로서 놀랍게도 그는 autoresearch와 AlphaEvolve 같은 에이전트 작업도 지적합니다. 그는 놀랍게도 간단한 연습으로 마무리합니다:
그러나 실제 채용 테스트는 맨 아래 단락에 있습니다:
이에 대해 Chinchilla 법칙을 도출하세요; 그들이 조밀 아키텍처 대 MoE에 대해 어떻게 다른지 확인하세요.
다음으로, jax.lax.ragged_dot을 MoE 계층에 사용했다고 가정하면, F > D일 때 ragged dot을 이기는 pallas 커널을 작성하세요 업/다운 프로젝션을 융합합니다.
이를 커뮤니티의 나머지에 가르칠 수 있다면, 우리는 워크숍 스피커로 당신을 소개하고 싶습니다.
2026년 5월 16일-5월 18일에 대한 AI 뉴스. 우리는 12개의 서브레딧, 544개의 트위터와 추가 Discord를 확인하지 않았습니다. AINews 웹사이트를 사용하면 모든 과거 문제를 검색할 수 있습니다. 알림으로, AINews는 이제 Latent Space의 섹션입니다. 이메일 빈도를 선택/거부할 수 있습니다!
코딩 에이전트, 에이전트 옵스 및 채팅에서 자동화로의 이동
에이전트 인프라는 관찰성 + 자동화 루프로 수렴되고 있습니다: 여러 게시물이 프로덕션 에이전트를 위한 성숙한 스택을 가리킵니다. LangSmith Engine은 프로덕션 추적에서 자동으로 실패를 감지하고, 문제를 클러스터링하고, 수정/평가안을 작성하는 에이전트를 위한 누락된 CI/CD 루프로 표현되고 있으며, LangChain은 또한 SmithDB를 에이전트 관찰성/평가 워크로드를 위한 목적별 데이터 계층으로 강조하고 있으며 대규모 추적에 대한 낮은 지연 쿼리 및 자체 호스팅/멀티 클라우드 요구 사항 @krishdpi, @LangChain. 병행하여, Cognition은 Devin Auto-Triage를 출시했으며, 이를 버그, 경고 및 인시던트를 위한 항상 켜진 "첫 번째 응답자"로 위치시키며 장기 기억, 관리자/서브에이전트 구조 및 PR 생성이 있습니다. Modal 같은 초기 사용자들은 이를 일반적인 자체 제작 분류 자동화보다 더 유용하다고 설명합니다 @cognition, @walden_yan, @russelljkaplan. 일반적인 패턴은 "에이전트와 채팅" 덜이고 더 추적, 메모리 및 평가에 연결된 지속적인 자동화입니다.
코딩 에이전트의 운영 패턴이 더 구체적으로 진행되고 있습니다: Anthropic은 Claude Code를 수백만 줄 모노레포, 레거시 시스템 및 마이크로서비스에 걸쳐 실행하기 위한 모범 사례를 발표했으며, 프롬프트 캐시 진단을 추가하고 빠른 모드를 기본값으로 Opus 4.7로 설정하여 낮은 지연 코딩 워크플로우를 제공합니다 @ClaudeDevs, @ClaudeDevs, @ClaudeDevs. OpenAI는 Codex 워크플로우를 Zoom 플러그인, 모바일/데스크톱 원격 실행 및 "Mac을 깨우다" 지원으로 확장하여 더 오래 실행되는 작업이 휴대폰 앱에서 계속되도록 합니다 @coreyching, @OpenAIDevs. Microsoft는 GitHub Copilot CLI 및 VS Code의 원격 제어를 GA로 밀어냈습니다 @code. 이들 사이에서 제품 방향은 명확합니다: 백그라운드 실행, 원격 감독 및 에이전트 팬아웃, 단지 대화식 완료만이 아닙니다.
실무자들은 같은 정신 모델로 수렴하고 있습니다: 제약, 검증, 분해: François Chollet의 코딩 에이전트를 신중하게 배치된 검증 가능한 제약이 필요한 "눈먼 다람쥐"로 표현하는 것은 깔끔하게 하네스 중심 엔지니어링으로의 광범위한 전환과 일치합니다 @fchollet. 관련 조언에는 Python/ML 코드에서 어설션을 많이 사용하여 빠르게 실패하는 것 @gabriberton, 장기 실행 에이전트를 위한 종단 간 및 증분 평가 모두 구축 @palashshah, 그리고 멀티 에이전트 시스템을 에이전트 개수를 너무 일찍 최대화하는 대신 단계적 성숙도 수준으로 구조화하는 것이 포함됩니다 @shannholmberg. 실질적인 합의: 에이전트 품질은 검증 표면, 분해 및 피드백 루프에 더 많이 달려 있습니다 프롬프트 영리함보다.
모델 릴리스, 순위 변화 및 프론티어 코딩 모델
Cursor의 Composer 2.5는 이 배치에서 두드러진 모델 출시입니다: Cursor는 Composer 2.5를 지금까지 가장 강력한 모델로 발표했으며, 장기 실행 작업에 대한 더 나은 지속적인 작업과 더 안정적인 명령 준수를 강조한 다음, 더 깊은 전략적 이동을 공개했습니다: "SpaceXAI"를 사용하여 처음부터 훨씬 더 큰 모델을 훈련하며, 10배 더 많은 총 계산과 Colossus 2의 백만 H100 동등물에 대한 액세스를 사용합니다 @cursor_ai, @cursor_ai. 커뮤니티 반응은 효율성/비용 성능 프로필 및 강력한 코딩 품질에 중점을 두었으며, 사용자들은 이를 Composer 2에서 크게 향상된 것으로 부르고 더 나은 협업 동작을 메시지/업데이트에서 지적했습니다. 단순한 벤치마크 이득만이 아닙니다 @mntruell, @jonas_nelle, @kimmonismus.
Alibaba의 Qwen 라인은 계속 올라가고 있습니다: Qwen3.7 Preview는 Arena에 착륙했으며 Qwen3.7 Max Preview는 텍스트에서 전체 순위 13위로 수학 7위, 전문가 9위, 소프트웨어 & IT 9위, 그리고 코딩 10위입니다. Qwen3.7 Plus Preview는 비전에서 전체 순위 16위에 도달했으며, Alibaba를 Arena의 계산에 따라 텍스트에서 6위 랩, 비전에서 5위로 만들었습니다 @arena, @Alibaba_Qwen. 이는 중국 랩들이 헤드라인 채팅 벤치마크만이 아닌 일반 및 전문 분야 전체에서 꾸준히 개선되고 있다는 광범위한 추세를 강화합니다.
개방형 모델 및 멀티모달 릴리스는 메가 프론티어 아래에서 계속됩니다: ByteDance는 Lance를 오픈소스로 제공했으며, 이미지/비디오 이해, 생성 및 편집을 위한 통합 멀티모달 모델로 설명되며, 3B 비디오 + 3B 이미지 + 3B 디코더 구성 요소가 있습니다 @bdsqlsz. Perplexity는 pplx-embed-0.6b의 지속적인 학습 변형으로 작은 오픈 다언어 ColBERT 모델을 출시했으며, MaxSim 커널 사용에 대한 노트가 있습니다 @bo_wangbo. 이들은 프론티어 규모 출시가 아니지만, 기술적으로 의미가 있습니다. 왜냐하면 검색 품질 및 네이티브 멀티모달 통합을 대상으로 하기 때문입니다. 이 두 영역은 오픈 도구가 여전히 중요합니다.
추론, 배포 및 로컬/엔터프라이즈 서빙
로컬 추론은 llama.cpp의 MTP를 통해 눈에 띄는 속도 향상을 얻었습니다: Georgi Gerganov는 llama.cpp에서 Qwen3.6 패밀리에 대한 MTP 지원을 발표했으며, 이를 로컬 AI의 중요한 이정표라고 불렀습니다 @ggerganov. 뒤따르는 보고서는 의미 있는 처리량 이득을 보여주었으며, Qwen3.6-27B 조밀은 draft-MTP 플래그를 사용하는 A10G에서 25 tok/s에서 45 tok/s(+78%)로 점프했습니다 @victormustar. 이것은 중요합니다. 왜냐하면 상용 하드웨어에서 로컬과 호스팅된 코딩/일반 어시스턴트 사이의 유용성 격차를 좁히기 때문입니다.
엔터프라이즈/온프레미스 배포 모멘텀은 여전히 강합니다: Hugging Face와 Dell은 Kimi K2.6, DeepSeek V4 Pro/Flash, GLM 5.1, MiniMax M2.7을 포함한 모델에 대한 원클릭 액세스를 PowerEdge XE9780과 NVIDIA B300으로 최적화된 Dell Enterprise Hub를 통해 홍보했습니다 @jeffboudier. Clement Delangue는 오픈소스 모델을 기반으로 한 온프레미스/로컬 AI가 GPU 부족에 대한 중요한 답변이 될 것이라고 주장하며, 비용, 지연 시간, 보안/데이터 제어의 장점이 있습니다 @ClementDelangue.
크로스 하드웨어 추론 최적화가 더욱 정교해지고 있습니다: Zyphra는 AMD Instinct MI355X에서 종단 간 추론 벤치마크를 발표했으며, AMD의 기준을 능가하고 Kimi K2.6, GLM 5.1, DeepSeek V3.2를 제공할 때 NVIDIA B200으로의 간격을 좁혔다고 주장합니다 @ZyphraAI. 이를 보완하여, Quentin Anthony는 벤치마킹이 하드웨어 한계 대 현재 소프트웨어 상태를 구별해야 하는 이유에 대한 유용한 스레드를 게시했으며, 많은 크로스 스택 비교가 공급업체 최대값, 달성 가능한 GEMM 성능 및 소프트웨어 성숙도를 혼동한다고 주장합니다 @QuentinAnthon15. 인프라 엔지니어의 경우, 벤치마크 차트를 스택 종속 스냅샷으로 취급하기 위한 강력한 알림이며, 절대 진실이 아닙니다.
연구: MoE, RL/데이터 혼합, 아키텍처 검색 및 에이전트 평가
이번 주의 여러 논문은 더 큰 모델보다 더 나은 훈련 신호에 중점을 두었습니다: LeCun/Timor 등의 "상상 속에서의 훈련"의 요약은 모델 기반 RL에서 더 부드러운 세계/보상 모델이 낮은 Lipschitz 상수를 조이고 있음을 강조했습니다. 보상 모델은 종종 역학 모델보다 빠르게 확장됩니다. 그리고 많은 시끄러운 보상 레이블이 적은 수의 고품질 레이블을 이길 수 있습니다, 편향된 보상은 특히 위험합니다 @TheTuringPost. 교육학적 RL에 대한 별도의 스레드는 올바른 추론 추적도 학생 정책에 비해 너무 놀라우면 나쁜 훈련 데이터가 될 수 있다고 주장했습니다. 이 방법은 특권 교사 플러스 스파이크 인식 보상 및 놀라움 게이트형 모방을 사용하여 학생이 실제로 배울 수 있는 궤적을 생성합니다 @blc_16, @NoahZiems.
아키텍처 및 확장 연구는 여전히 매우 실질적입니다: Meta의 AIRA 작업은 에이전트형 신경 아키텍처 발견에 대한 주목을 끌었습니다. 왜냐하면 검색을 계획 에이전트(AIRA-Compose)와 구현 에이전트(AIRA-Design)로 분할하여 24시간 계산 예산 내에서 350M, 1B, 3B 규모에서 Llama 3.2를 능가합니다 @omarsar0, @dair_ai. 별도로, "MoE 슬라이싱 및 분해"는 2,000개 이상의 MoE LM을 훈련하고 디자인 공간의 대부분이 전문가 크기 및 전문가 수로 축소된다고 결론짓습니다. MoE 구성 노브에 대한 더 많은 시끄러운 담론보다 @margs_li.
데이터 선택/평가 방법론은 일류 연구 문제로 떠오르고 있습니다: 온-정책 혼합은 데이터 분포가 계속 이동하면서 올바른 데이터 혼합을 찾는 미해결 문제를 대상으로 하며, 사전 학습, 중간 학습 및 명령 튜닝에 걸쳐 적용 가능성이 있습니다 @michahu8. 평가에서 Cameron Wolfe는 에이전트 평가 가이드를 발표했으며, 더 긴 Zhihu 요약은 에이전트 시대가 위임 지능을 측정할 것을 요구한다고 주장했습니다—검색, 코드, 추론 또는 도구 호출의 시기—단순한 정적 지식 또는 내부 사고 체인 능력이 아닙니다 @cwolferesearch, @ZhihuFrontier. 이는 현재 제품 실무와 밀접하게 정렬됩니다: 어려운 부분은 점점 더 도구 선택 및 검증 정책이며, 텍스트 전용 추론이 아닙니다.
생태계 이동: SDK, 수익 포착 및 개방형 도구
Anthropic이 Stainless를 인수했습니다: Anthropic은 Stainless 인수를 발표했으며, 초기 API 이후 Anthropic SDK를 강화한 SDK 및 MCP 서버 플랫폼입니다 @AnthropicAI. 전략적으로, 이는 모델 품질뿐 아니라 개발자 인체 공학, SDK 생성 및 프로토콜 표면 주변의 지속적인 수직 통합을 가리킵니다.
기초 모델 공급자 주변의 수익 집중은 증가하고 있는 것으로 보입니다: 한 게시물은 Anthropic 및 OpenAI의 34개 상위 AI 스타트업이 생성한 AI 모델/애플리케이션 수익 점유율이 증가하고 있다고 주장했으며, 이는 모델 선택이 증가하더라도 생태계가 경제적으로 통합되고 있을 수 있음을 신호합니다 @amir.
도구 및 배포 큐레이션은 수요가 계속됩니다: Turing Post의 기초 모델 배포를 위한 13가지 오픈소스 도구 라운드업—vLLM, TGI, SGLang, llama.cpp, Ollama, BentoML, Kubeflow, MLflow 등을 포함—은 세트에서 가장 실질적으로 유용한 큐레이션 게시물 중 하나였습니다 @TheTuringPost. 한편, Papers With Code는 AI 에이전트 지원 방법, 리더보드 및 SOTA 추적 파싱으로 부활되고 있으며, 연구 발견성에 대한 갱신된 초점을 강조합니다 @NielsRogge.
상위 트윗 (참여도별)
Cursor의 Composer 2.5 + 더 큰 학습 추진: 가장 높은 신호의 높은 참여 제품 뉴스는 Composer 2.5와 Cursor의 공개였습니다. 그것이 10배 더 많은 계산으로 처음부터 훨씬 더 큰 모델을 훈련하고 있습니다 @cursor_ai, @cursor_ai.
OpenAI/Anthropic 제품 업데이트 개발자 영향 포함: Sam Altman은 ChatGPT가 최신 업데이트로 크게 개선되었다고 말했으며 @sama, Anthropic은 빠른 모드가 Opus 4.7로 기본값 설정되고 Claude Console에서 프롬프트 캐시 진단을 제공합니다 @ClaudeDevs, @ClaudeDevs.
지속적인 연구/엔지니어링 형식: Richard Sutton의 Bitter Lesson의 26단어 응축—컴퓨팅, 검색 및 학습과 같이 확장되는 지식을 만드는 방법에 중점을 두세요—는 가장 참여한 연구 인접 게시물 중 하나였으며 에이전트 하네스, 검색 및 검증기 중심 시스템 주변의 이번 주의 많은 테마와 공명했습니다 @RichardSSutton.