AI·News
뒤로

[AINews] 프론티어 랩에서 일자리를 얻는 방법 (사전학습 분야)

[AINews] How to land a job at a frontier lab (on Pretraining)

Google I/O 전날이며, 다음의 주요 Gemini 릴리스가 프리뷰될 것으로 예상되고, 경쟁사들의 활동은 조용할 것으로 예상되지만 AnthropicOpenAI 모두 오늘 작은 승리를 거두었으며, Cursor는 첫 번째 SpaceXAI 모델을 출시했고 합성 데이터/보상 해킹에 대한 좋은 세부 정보와 Muon을 통한 지속적인 사전 학습을 제공합니다. 그러나 오늘의 가장 오래 지속될 제목 후보는 Vlad Feinberg의 (이해할 수 있게도 Google/TPU 중심의) 직업 준비 노트, 특히 사전 학습에 관한 것입니다:

특히 그는 지난해의 DeepMind의 확장 핸드북을 언급하고 있으며, 커널 작업이 중요한 부분입니다:

모든 LLM 작업의 가장 큰 병목 지점이자 가장 안쪽 루프는 추상적이고 논리적인 변화를 LLM을 실제로 실행 가능하게 만드는 성능 작업입니다. 모든 프로젝트는 커널 수준에서 LLM을 튜닝할 수 있는 사람들이 필요합니다. 이는 습득할 수 있는 기술이며 실험실로 들어가는 가장 직접적인 경로입니다.

커널 개발용 DSL에 대한 놀라운 언급이 있으며, 이에 대한 간결한 역사가 있습니다:

이 수준의 스택에 있는 사람으로서 놀랍게도 그는 autoresearch와 AlphaEvolve 같은 에이전트 작업도 지적합니다. 그는 놀랍게도 간단한 연습으로 마무리합니다:

그러나 실제 채용 테스트는 맨 아래 단락에 있습니다:

  • 이에 대해 Chinchilla 법칙을 도출하세요; 그들이 조밀 아키텍처 대 MoE에 대해 어떻게 다른지 확인하세요.

  • 다음으로, jax.lax.ragged_dot을 MoE 계층에 사용했다고 가정하면, F > D일 때 ragged dot을 이기는 pallas 커널을 작성하세요 업/다운 프로젝션을 융합합니다.

이를 커뮤니티의 나머지에 가르칠 수 있다면, 우리는 워크숍 스피커로 당신을 소개하고 싶습니다.

2026년 5월 16일-5월 18일에 대한 AI 뉴스. 우리는 12개의 서브레딧, 544개의 트위터와 추가 Discord를 확인하지 않았습니다. AINews 웹사이트를 사용하면 모든 과거 문제를 검색할 수 있습니다. 알림으로, AINews는 이제 Latent Space의 섹션입니다. 이메일 빈도를 선택/거부할 수 있습니다!


코딩 에이전트, 에이전트 옵스 및 채팅에서 자동화로의 이동

  • 에이전트 인프라는 관찰성 + 자동화 루프로 수렴되고 있습니다: 여러 게시물이 프로덕션 에이전트를 위한 성숙한 스택을 가리킵니다. LangSmith Engine은 프로덕션 추적에서 자동으로 실패를 감지하고, 문제를 클러스터링하고, 수정/평가안을 작성하는 에이전트를 위한 누락된 CI/CD 루프로 표현되고 있으며, LangChain은 또한 SmithDB를 에이전트 관찰성/평가 워크로드를 위한 목적별 데이터 계층으로 강조하고 있으며 대규모 추적에 대한 낮은 지연 쿼리 및 자체 호스팅/멀티 클라우드 요구 사항 @krishdpi, @LangChain. 병행하여, CognitionDevin Auto-Triage를 출시했으며, 이를 버그, 경고 및 인시던트를 위한 항상 켜진 "첫 번째 응답자"로 위치시키며 장기 기억, 관리자/서브에이전트 구조 및 PR 생성이 있습니다. Modal 같은 초기 사용자들은 이를 일반적인 자체 제작 분류 자동화보다 더 유용하다고 설명합니다 @cognition, @walden_yan, @russelljkaplan. 일반적인 패턴은 "에이전트와 채팅" 덜이고 더 추적, 메모리 및 평가에 연결된 지속적인 자동화입니다.

  • 코딩 에이전트의 운영 패턴이 더 구체적으로 진행되고 있습니다: Anthropic은 Claude Code를 수백만 줄 모노레포, 레거시 시스템 및 마이크로서비스에 걸쳐 실행하기 위한 모범 사례를 발표했으며, 프롬프트 캐시 진단을 추가하고 빠른 모드를 기본값으로 Opus 4.7로 설정하여 낮은 지연 코딩 워크플로우를 제공합니다 @ClaudeDevs, @ClaudeDevs, @ClaudeDevs. OpenAI는 Codex 워크플로우를 Zoom 플러그인, 모바일/데스크톱 원격 실행 및 "Mac을 깨우다" 지원으로 확장하여 더 오래 실행되는 작업이 휴대폰 앱에서 계속되도록 합니다 @coreyching, @OpenAIDevs. Microsoft는 GitHub Copilot CLI 및 VS Code의 원격 제어를 GA로 밀어냈습니다 @code. 이들 사이에서 제품 방향은 명확합니다: 백그라운드 실행, 원격 감독 및 에이전트 팬아웃, 단지 대화식 완료만이 아닙니다.

  • 실무자들은 같은 정신 모델로 수렴하고 있습니다: 제약, 검증, 분해: François Chollet의 코딩 에이전트를 신중하게 배치된 검증 가능한 제약이 필요한 "눈먼 다람쥐"로 표현하는 것은 깔끔하게 하네스 중심 엔지니어링으로의 광범위한 전환과 일치합니다 @fchollet. 관련 조언에는 Python/ML 코드에서 어설션을 많이 사용하여 빠르게 실패하는 것 @gabriberton, 장기 실행 에이전트를 위한 종단 간 및 증분 평가 모두 구축 @palashshah, 그리고 멀티 에이전트 시스템을 에이전트 개수를 너무 일찍 최대화하는 대신 단계적 성숙도 수준으로 구조화하는 것이 포함됩니다 @shannholmberg. 실질적인 합의: 에이전트 품질은 검증 표면, 분해 및 피드백 루프에 더 많이 달려 있습니다 프롬프트 영리함보다.

모델 릴리스, 순위 변화 및 프론티어 코딩 모델

  • Cursor의 Composer 2.5는 이 배치에서 두드러진 모델 출시입니다: Cursor는 Composer 2.5를 지금까지 가장 강력한 모델로 발표했으며, 장기 실행 작업에 대한 더 나은 지속적인 작업과 더 안정적인 명령 준수를 강조한 다음, 더 깊은 전략적 이동을 공개했습니다: "SpaceXAI"를 사용하여 처음부터 훨씬 더 큰 모델을 훈련하며, 10배 더 많은 총 계산Colossus 2의 백만 H100 동등물에 대한 액세스를 사용합니다 @cursor_ai, @cursor_ai. 커뮤니티 반응은 효율성/비용 성능 프로필 및 강력한 코딩 품질에 중점을 두었으며, 사용자들은 이를 Composer 2에서 크게 향상된 것으로 부르고 더 나은 협업 동작을 메시지/업데이트에서 지적했습니다. 단순한 벤치마크 이득만이 아닙니다 @mntruell, @jonas_nelle, @kimmonismus.

  • Alibaba의 Qwen 라인은 계속 올라가고 있습니다: Qwen3.7 Preview는 Arena에 착륙했으며 Qwen3.7 Max Preview는 텍스트에서 전체 순위 13위수학 7위, 전문가 9위, 소프트웨어 & IT 9위, 그리고 코딩 10위입니다. Qwen3.7 Plus Preview는 비전에서 전체 순위 16위에 도달했으며, Alibaba를 Arena의 계산에 따라 텍스트에서 6위 랩, 비전에서 5위로 만들었습니다 @arena, @Alibaba_Qwen. 이는 중국 랩들이 헤드라인 채팅 벤치마크만이 아닌 일반 및 전문 분야 전체에서 꾸준히 개선되고 있다는 광범위한 추세를 강화합니다.

  • 개방형 모델 및 멀티모달 릴리스는 메가 프론티어 아래에서 계속됩니다: ByteDance는 Lance를 오픈소스로 제공했으며, 이미지/비디오 이해, 생성 및 편집을 위한 통합 멀티모달 모델로 설명되며, 3B 비디오 + 3B 이미지 + 3B 디코더 구성 요소가 있습니다 @bdsqlsz. Perplexity는 pplx-embed-0.6b의 지속적인 학습 변형으로 작은 오픈 다언어 ColBERT 모델을 출시했으며, MaxSim 커널 사용에 대한 노트가 있습니다 @bo_wangbo. 이들은 프론티어 규모 출시가 아니지만, 기술적으로 의미가 있습니다. 왜냐하면 검색 품질네이티브 멀티모달 통합을 대상으로 하기 때문입니다. 이 두 영역은 오픈 도구가 여전히 중요합니다.

추론, 배포 및 로컬/엔터프라이즈 서빙

  • 로컬 추론은 llama.cpp의 MTP를 통해 눈에 띄는 속도 향상을 얻었습니다: Georgi Gerganov는 llama.cpp에서 Qwen3.6 패밀리에 대한 MTP 지원을 발표했으며, 이를 로컬 AI의 중요한 이정표라고 불렀습니다 @ggerganov. 뒤따르는 보고서는 의미 있는 처리량 이득을 보여주었으며, Qwen3.6-27B 조밀은 draft-MTP 플래그를 사용하는 A10G에서 25 tok/s에서 45 tok/s(+78%)로 점프했습니다 @victormustar. 이것은 중요합니다. 왜냐하면 상용 하드웨어에서 로컬과 호스팅된 코딩/일반 어시스턴트 사이의 유용성 격차를 좁히기 때문입니다.

  • 엔터프라이즈/온프레미스 배포 모멘텀은 여전히 강합니다: Hugging Face와 Dell은 Kimi K2.6, DeepSeek V4 Pro/Flash, GLM 5.1, MiniMax M2.7을 포함한 모델에 대한 원클릭 액세스를 PowerEdge XE9780과 NVIDIA B300으로 최적화된 Dell Enterprise Hub를 통해 홍보했습니다 @jeffboudier. Clement Delangue는 오픈소스 모델을 기반으로 한 온프레미스/로컬 AIGPU 부족에 대한 중요한 답변이 될 것이라고 주장하며, 비용, 지연 시간, 보안/데이터 제어의 장점이 있습니다 @ClementDelangue.

  • 크로스 하드웨어 추론 최적화가 더욱 정교해지고 있습니다: Zyphra는 AMD Instinct MI355X에서 종단 간 추론 벤치마크를 발표했으며, AMD의 기준을 능가하고 Kimi K2.6, GLM 5.1, DeepSeek V3.2를 제공할 때 NVIDIA B200으로의 간격을 좁혔다고 주장합니다 @ZyphraAI. 이를 보완하여, Quentin Anthony는 벤치마킹이 하드웨어 한계 대 현재 소프트웨어 상태를 구별해야 하는 이유에 대한 유용한 스레드를 게시했으며, 많은 크로스 스택 비교가 공급업체 최대값, 달성 가능한 GEMM 성능 및 소프트웨어 성숙도를 혼동한다고 주장합니다 @QuentinAnthon15. 인프라 엔지니어의 경우, 벤치마크 차트를 스택 종속 스냅샷으로 취급하기 위한 강력한 알림이며, 절대 진실이 아닙니다.

연구: MoE, RL/데이터 혼합, 아키텍처 검색 및 에이전트 평가

  • 이번 주의 여러 논문은 더 큰 모델보다 더 나은 훈련 신호에 중점을 두었습니다: LeCun/Timor 등의 "상상 속에서의 훈련"의 요약은 모델 기반 RL에서 더 부드러운 세계/보상 모델이 낮은 Lipschitz 상수를 조이고 있음을 강조했습니다. 보상 모델은 종종 역학 모델보다 빠르게 확장됩니다. 그리고 많은 시끄러운 보상 레이블이 적은 수의 고품질 레이블을 이길 수 있습니다, 편향된 보상은 특히 위험합니다 @TheTuringPost. 교육학적 RL에 대한 별도의 스레드는 올바른 추론 추적도 학생 정책에 비해 너무 놀라우면 나쁜 훈련 데이터가 될 수 있다고 주장했습니다. 이 방법은 특권 교사 플러스 스파이크 인식 보상놀라움 게이트형 모방을 사용하여 학생이 실제로 배울 수 있는 궤적을 생성합니다 @blc_16, @NoahZiems.

  • 아키텍처 및 확장 연구는 여전히 매우 실질적입니다: Meta의 AIRA 작업은 에이전트형 신경 아키텍처 발견에 대한 주목을 끌었습니다. 왜냐하면 검색을 계획 에이전트(AIRA-Compose)와 구현 에이전트(AIRA-Design)로 분할하여 24시간 계산 예산 내에서 350M, 1B, 3B 규모에서 Llama 3.2를 능가합니다 @omarsar0, @dair_ai. 별도로, "MoE 슬라이싱 및 분해"2,000개 이상의 MoE LM을 훈련하고 디자인 공간의 대부분이 전문가 크기 및 전문가 수로 축소된다고 결론짓습니다. MoE 구성 노브에 대한 더 많은 시끄러운 담론보다 @margs_li.

  • 데이터 선택/평가 방법론은 일류 연구 문제로 떠오르고 있습니다: 온-정책 혼합은 데이터 분포가 계속 이동하면서 올바른 데이터 혼합을 찾는 미해결 문제를 대상으로 하며, 사전 학습, 중간 학습 및 명령 튜닝에 걸쳐 적용 가능성이 있습니다 @michahu8. 평가에서 Cameron Wolfe는 에이전트 평가 가이드를 발표했으며, 더 긴 Zhihu 요약은 에이전트 시대가 위임 지능을 측정할 것을 요구한다고 주장했습니다—검색, 코드, 추론 또는 도구 호출의 시기—단순한 정적 지식 또는 내부 사고 체인 능력이 아닙니다 @cwolferesearch, @ZhihuFrontier. 이는 현재 제품 실무와 밀접하게 정렬됩니다: 어려운 부분은 점점 더 도구 선택 및 검증 정책이며, 텍스트 전용 추론이 아닙니다.

생태계 이동: SDK, 수익 포착 및 개방형 도구

  • Anthropic이 Stainless를 인수했습니다: Anthropic은 Stainless 인수를 발표했으며, 초기 API 이후 Anthropic SDK를 강화한 SDK 및 MCP 서버 플랫폼입니다 @AnthropicAI. 전략적으로, 이는 모델 품질뿐 아니라 개발자 인체 공학, SDK 생성 및 프로토콜 표면 주변의 지속적인 수직 통합을 가리킵니다.

  • 기초 모델 공급자 주변의 수익 집중은 증가하고 있는 것으로 보입니다: 한 게시물은 Anthropic 및 OpenAI의 34개 상위 AI 스타트업이 생성한 AI 모델/애플리케이션 수익 점유율이 증가하고 있다고 주장했으며, 이는 모델 선택이 증가하더라도 생태계가 경제적으로 통합되고 있을 수 있음을 신호합니다 @amir.

  • 도구 및 배포 큐레이션은 수요가 계속됩니다: Turing Post의 기초 모델 배포를 위한 13가지 오픈소스 도구 라운드업—vLLM, TGI, SGLang, llama.cpp, Ollama, BentoML, Kubeflow, MLflow 등을 포함—은 세트에서 가장 실질적으로 유용한 큐레이션 게시물 중 하나였습니다 @TheTuringPost. 한편, Papers With Code는 AI 에이전트 지원 방법, 리더보드 및 SOTA 추적 파싱으로 부활되고 있으며, 연구 발견성에 대한 갱신된 초점을 강조합니다 @NielsRogge.

상위 트윗 (참여도별)

  • Cursor의 Composer 2.5 + 더 큰 학습 추진: 가장 높은 신호의 높은 참여 제품 뉴스는 Composer 2.5와 Cursor의 공개였습니다. 그것이 10배 더 많은 계산으로 처음부터 훨씬 더 큰 모델을 훈련하고 있습니다 @cursor_ai, @cursor_ai.

  • OpenAI/Anthropic 제품 업데이트 개발자 영향 포함: Sam Altman은 ChatGPT가 최신 업데이트로 크게 개선되었다고 말했으며 @sama, Anthropic은 빠른 모드가 Opus 4.7로 기본값 설정되고 Claude Console에서 프롬프트 캐시 진단을 제공합니다 @ClaudeDevs, @ClaudeDevs.

  • 지속적인 연구/엔지니어링 형식: Richard Sutton의 Bitter Lesson의 26단어 응축—컴퓨팅, 검색 및 학습과 같이 확장되는 지식을 만드는 방법에 중점을 두세요—는 가장 참여한 연구 인접 게시물 중 하나였으며 에이전트 하네스, 검색 및 검증기 중심 시스템 주변의 이번 주의 많은 테마와 공명했습니다 @RichardSSutton.


It is the day before Google I/O, when the next major Gemini releases are expected to be previewed, and it will probably be a quiet week from competitors, though Anthropic and OpenAI both had minor wins today, and Cursor shipped their first SpaceXAI model with some nice detail on synthetic data/reward hacking and continued pretraining with Muon. However the probable lasting title story candidate from today will be Vlad Feinberg’s (understandably Google/TPU centric) notes on job preparation, specifically on Pretraining:

Specifically he references last year’s Scaling handbook from DeepMind, and kernel work is an important part:

The biggest bottleneck and innermost loop of all LLM work is performance work that makes abstract, logical changes to the LLM practical to run. Every project needs people who can tune the LLMs at the kernel level. It is a skill you can pick up and is the most direct path into the labs.

There’s a surprise mention of DSLs for kernel dev, of which there is a concise history:

For someone at this level of the stack, surprisingly he also calls out Agent Work like autoresearch and AlphaEvolve. He ends with a surprisingly simple exercise:

But the real hiring test is in the bottom paragraphs:

  • Derive Chinchilla laws for this; see how they differ for dense vs MoE architectures.

  • Next, assuming you used jax.lax.ragged_dot for the MoE layer; write a pallas kernel that beats ragged dot for F > D by fusing the up/down projections.

If you can teach this to the rest of the community, we’d love to feature you as a workshop speaker.

AI News for 5/16/2026-5/18/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews’ website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!


Coding Agents, Agent Ops, and the Move from Chat to Automation

  • Agent infrastructure is converging on observability + automation loops: Several posts point to a maturing stack for production agents. LangSmith Engine is framed as the missing CI/CD loop for agents, automatically detecting failures from production traces, clustering issues, and drafting fixes/evals, with LangChain also highlighting SmithDB as a purpose-built data layer for agent observability/eval workloads with low-latency querying over large traces and self-hosting/multi-cloud requirements @krishdpi, @LangChain. In parallel, Cognition launched Devin Auto-Triage, positioning it as an always-on “first responder” for bugs, alerts, and incidents with long-term memory, manager/subagent structure, and PR generation; early users like Modal describe it as more useful than typical homegrown triage automations @cognition, @walden_yan, @russelljkaplan. The common pattern is less “chat with an agent” and more persistent automation tied to traces, memory, and evals.

  • Operational patterns for coding agents are getting more concrete: Anthropic published best practices for running Claude Code across multi-million-line monorepos, legacy systems, and microservices, while adding prompt cache diagnostics and making Fast mode default to Opus 4.7 for lower-latency coding workflows @ClaudeDevs, @ClaudeDevs, @ClaudeDevs. OpenAI expanded Codex workflows with a Zoom plugin, mobile/desktop remote execution, and “keep your Mac awake” support so longer-running jobs continue from the phone app @coreyching, @OpenAIDevs. Microsoft pushed remote control for GitHub Copilot CLI and VS Code to GA @code. Across these, the product direction is clear: background execution, remote supervision, and agent fan-out, not just interactive completions.

  • Practitioners are converging on the same mental model: constrain, verify, decompose: François Chollet’s framing of coding agents as “blind squirrels” that need carefully placed verifiable constraints succinctly matches a broader shift toward harness-centric engineering @fchollet. Related advice includes using asserts heavily in Python/ML code to fail fast @gabriberton, building both end-to-end and incremental evals for long-running agents @palashshah, and structuring multi-agent systems in staged maturity levels rather than maximizing agent count prematurely @shannholmberg. The practical consensus: agent quality depends more on verification surfaces, decomposition, and feedback loops than on prompt cleverness alone.

Model Releases, Ranking Shifts, and Frontier Coding Models

  • Cursor’s Composer 2.5 is the standout model launch in this batch: Cursor announced Composer 2.5 as its strongest model yet, emphasizing better sustained work on long-running tasks and more reliable instruction following, then disclosed a deeper strategic move: training a much larger model from scratch with “SpaceXAI,” using 10× more total compute and access to Colossus 2’s million H100-equivalents @cursor_ai, @cursor_ai. Community reactions centered on its efficiency/cost-performance profile and strong coding quality, with users calling it a major step up from Composer 2 and noting better collaboration behavior in messages/updates, not just raw benchmark gains @mntruell, @jonas_nelle, @kimmonismus.

  • Alibaba’s Qwen line continues to climb: Qwen3.7 Preview landed on Arena with Qwen3.7 Max Preview at #13 overall in text, including #7 Math, #9 Expert, #9 Software & IT, and #10 Coding; Qwen3.7 Plus Preview reached #16 overall in vision, making Alibaba the #6 lab in text and #5 in vision by Arena’s counts @arena, @Alibaba_Qwen. That reinforces the broader trend of Chinese labs steadily improving across both general and specialist arenas rather than only headline chat benchmarks.

  • Open model and multimodal releases continue below the mega-frontier: ByteDance open-sourced Lance, described as a unified multimodal model for image/video understanding, generation, and editing, with 3B video + 3B image + 3B decoder components @bdsqlsz. Perplexity released a small open multilingual ColBERT model as a continued-training variant of pplx-embed-0.6b, with notes on using the MaxSim kernel @bo_wangbo. These are not frontier-scale launches, but they are technically meaningful because they target retrieval quality and native multimodal unification, two areas where open tooling still matters.

Inference, Deployment, and Local/Enterprise Serving

  • Local inference got a notable speed boost via MTP in llama.cpp: Georgi Gerganov announced MTP support for the Qwen3.6 family in llama.cpp, calling it a significant milestone for local AI @ggerganov. Follow-on reports showed meaningful throughput gains, including a Qwen3.6-27B dense jump from 25 tok/s to 45 tok/s (+78%) on an A10G using draft-MTP flags @victormustar. This matters because it narrows the usability gap between local and hosted coding/general assistants on commodity hardware.

  • Enterprise/on-prem deployment momentum remains strong: Hugging Face and Dell promoted one-click access to models including Kimi K2.6, DeepSeek V4 Pro/Flash, GLM 5.1, and MiniMax M2.7 through Dell Enterprise Hub optimized for PowerEdge XE9780 with NVIDIA B300 @jeffboudier. Clement Delangue argued that on-prem/local AI based on open-source models will be an important answer to GPU shortages, with advantages in cost, latency, and safety/data control @ClementDelangue.

  • Cross-hardware inference optimization is becoming more sophisticated: Zyphra published end-to-end inference benchmarks on AMD Instinct MI355X, claiming strong outperformance over AMD’s baseline and a narrowed gap to NVIDIA B200 when serving Kimi K2.6, GLM 5.1, and DeepSeek V3.2 @ZyphraAI. Complementing that, Quentin Anthony posted a useful thread on why benchmarking needs to distinguish hardware ceilings vs current software state, arguing that many cross-stack comparisons conflate vendor maxes, achievable GEMM performance, and software maturity @QuentinAnthon15. For infra engineers, that’s a strong reminder to treat benchmark charts as stack-dependent snapshots, not absolute truths.

Research: MoEs, RL/Data Mixing, Architecture Search, and Agent Evaluation

  • Several papers this week focused on better training signals rather than bigger models: A summary of LeCun/Timor et al.’s “On Training in Imagination” highlighted that in model-based RL, smoother world/reward models with low Lipschitz constants tighten error bounds; reward models often scale faster than dynamics models; and many noisy reward labels can beat fewer high-quality ones, while biased rewards are especially dangerous @TheTuringPost. A separate thread on Pedagogical RL argued that even correct reasoning traces can be poor training data if they are too surprising relative to the student policy; the method uses a privileged teacher plus spike-aware rewards and surprisal-gated imitation to generate trajectories the student can actually learn from @blc_16, @NoahZiems.

  • Architecture and scaling studies remain highly actionable: Meta’s AIRA work on agentic neural architecture discovery drew attention because it beats Llama 3.2 at 350M, 1B, and 3B scales within a 24-hour compute budget by splitting search into a planning agent (AIRA-Compose) and an implementation agent (AIRA-Design) @omarsar0, @dair_ai. Separately, “Slicing and Dicing MoEs” reports training 2,000+ MoE LMs and concludes that much of the design space reduces to expert size and expert count rather than the noisier discourse around MoE configuration knobs @margs_li.

  • Data selection/eval methodology are emerging as first-class research problems: On-Policy Mix targets the unsolved problem of finding the right data mix as data distributions keep shifting, with applicability across pretraining, midtraining, and instruction tuning @michahu8. On evals, Cameron Wolfe published a guide to agent evaluation, and a longer Zhihu summary argued that the agent era requires measuring delegation intelligence—when to search, code, reason, or call tools—rather than only static knowledge or internal chain-of-thought prowess @cwolferesearch, @ZhihuFrontier. That aligns closely with current product practice: the hard part is increasingly tool choice and verification policy, not text-only reasoning.

Ecosystem Moves: SDKs, Revenue Capture, and Open Tooling

  • Anthropic acquired Stainless: Anthropic announced the acquisition of Stainless, the SDK and MCP server platform that has powered Anthropic SDKs since early API days @AnthropicAI. Strategically, this points to continued vertical integration around developer ergonomics, SDK generation, and protocol surfaces, not just model quality.

  • Revenue concentration around foundation model providers appears to be increasing: One post claimed that Anthropic and OpenAI’s share of AI model/application revenues generated by 34 top AI startups is rising, a signal that the ecosystem may be consolidating economically even as model choices proliferate @amir.

  • Tooling and deployment curation remains in demand: The Turing Post’s roundup of 13 open-source tools for foundation model deployment—including vLLM, TGI, SGLang, llama.cpp, Ollama, BentoML, Kubeflow, MLflow and others—was one of the more practically useful curation posts in the set @TheTuringPost. Meanwhile, Papers With Code is being revived with AI-agent-assisted parsing of methods, leaderboards, and SOTA tracking, underscoring renewed focus on research discoverability @NielsRogge.

Top Tweets (by engagement)

  • Cursor’s Composer 2.5 + bigger training push: The highest-signal high-engagement product news was Composer 2.5 and Cursor’s disclosure that it is training a much larger model from scratch with 10× more compute @cursor_ai, @cursor_ai.

  • OpenAI/Anthropic product updates with developer impact: Sam Altman said ChatGPT improved significantly with the latest update @sama, while Anthropic shipped Fast mode defaulting to Opus 4.7 and prompt cache diagnostics in Claude Console @ClaudeDevs, @ClaudeDevs.

  • Enduring research/engineering framing: Richard Sutton’s 26-word condensation of the Bitter Lesson—focus on methods for creating knowledge that scale with compute, like search and learning—was among the most engaged research-adjacent posts and resonated with many of the week’s themes around agent harnesses, search, and verifier-driven systems @RichardSSutton.


원문 보기 https://www.latent.space/p/ainews-how-to-land-a-job-at-a-frontier