전체 키노트 라이브스트림은 2시간이었지만, 늘 그렇듯이 The Verge가 30분으로 최고의 하이라이트 영상을 만들었으며, 전체 맥락을 파악하는 데 충분히 가치 있습니다:
메인라인 Gemini 3.5 Flash가 오늘부터 GA(일반 공개)되었으며 (단계별 출시와 비교하면 매우 좋음), 3.1 Pro와 비교해도 괜찮은 업그레이드로 평가되고 있고, 3.5 Pro는 다음 달에 출시될 예정입니다. 더욱 인상적인 것은 Gemini Live(음성), Omni(동영상), Google Pics/Flow(이미지/VFX/음악) 모드로, Google이 업계 최고 수준의 능력과 지연시간을 시연했으며, 이 모든 것이 업계 최고 수준의 하드웨어와 모델로 가능해진 것으로 보입니다.
최근 모든 빅테크 키노트에서의 오랜 전통에 따라, Google도 스마트 안경 기술을 시연했는데, Google과 경쟁사의 이전 버전들보다 실제로 거리에서 볼 가능성이 조금 더 높아 보입니다.
2026년 5월 18일-5월 19일 AI 뉴스. 12개의 서브레딧, 544개의 Twitter를 확인했으며 추가 Discord는 없습니다. AINews의 웹사이트에서 모든 과거 이슈를 검색할 수 있습니다. 상기하시다시피, AINews는 이제 Latent Space의 섹션입니다. 이메일 빈도를 선택/해제할 수 있습니다!
Google은 I/O를 통해 Gemini를 소비자 AI 표면과 개발자/에이전트 플랫폼 모두로 재포지셔닝했으며, 세 가지 핵심 기술 발표가 있었습니다: 빠른 에이전트/코딩 작업을 위한 Gemini 3.5 Flash, 비디오로 시작하는 멀티모달 생성/편집을 위한 Gemini Omni, 그리고 데스크톱/CLI/SDK/API에 걸쳐 있는 더 광범위한 Antigravity 에이전트 스택. 공식 게시물은 규모를 강조했습니다 — Google은 현재 월 3.2조 개 이상의 토큰을 처리하고 있으며, 연전 대비 7배 증가했습니다 월 480조에서, Gemini 앱은 9억 명 이상의 월간 사용자를 보유하고 있으며 230개 이상의 국가와 70개 이상의 언어에서 이용 가능합니다 (Google, Google, GeminiApp). 가장 기술적으로 실질적인 릴리스는 Gemini 3.5 Flash였으며, Google이 가장 강력한 에이전트/코딩 모델로 평가했고, 즉시 GA, 100만 토큰 컨텍스트, 최대 6만 5천 출력, 4가지 사고 수준 ("최소/낮음/중간/높음")과 "사고 보존"이 여러 턴에 걸쳐 가능합니다 (GoogleDeepMind, Google, _philschmid). Google은 이와 함께 Gemini Omni를 출시했으며, Gemini 추론을 생성 미디어와 결합하는 새로운 패밀리로, 처음에는 Omni Flash를 통해 텍스트/이미지/동영상/오디오 입력을 받을 수 있고 Gemini, Flow, Shorts, 그리고 나중의 API에서 동영상 편집/생성을 생성할 수 있습니다 (GoogleDeepMind, Google, GeminiApp). 이 모델들을 중심으로 Google은 Antigravity 2.0 데스크톱, CLI, SDK, Gemini API의 관리형 에이전트, Search 기본 제공 생성형 UI/코딩, Gemini Spark 클라우드 VM의 백그라운드 에이전트, 그리고 Gemini 앱/Workspace/커머스/미디어 통합의 긴 목록을 출시하거나 확장했습니다 (Google, Google, Google).
Google은 현재 월 3.2조 개 토큰을 처리하고 있다고 말합니다, 1년 전 480조 개에서 증가 (Google).
Google은 Gemini가 9억 명 이상의 월간 사용자를 보유하고 있다고 말합니다 (Google).
Google은 Gemini 3.5 Flash가 오늘부터 GA라고 말합니다 (Gemini 앱, Search AI 모드, Gemini API, AI Studio, Antigravity, Android Studio, 기업 표면 전반) (Google, GeminiApp).
Google은 Gemini 3.5 Flash가 100만 컨텍스트, 최대 6만 5천 출력, 4가지 사고 수준, "사고 보존" 기능이 여러 턴에 걸쳐 있다고 말합니다 ( _philschmid).
Google은 3.5 Flash가 Terminal-Bench 2.1, GDPval-AA, MCP Atlas에서 Gemini 3.1 Pro를 능가한다고 말합니다 (GoogleDeepMind, Google).
Google은 3.5 Flash가 비슷한 프론티어 모델보다 4배 빠르게 실행되고, Antigravity에서는 최대 12배 빠르다고 말합니다 (Google, JeffDean).
독립적인 벤치마크 업체 Artificial Analysis는 Gemini 3.5 Flash가 Intelligence Index에서 55점을 받았다고 보고합니다, Gemini 3 Flash 대비 +9, 초당 280 이상의 출력 토큰으로, MMMU-Pro 84%, GDPval-AA Elo 1656, 가격은 입력/출력 토큰 백만 개당 $1.50 / $9.00; 또한 모델이 자신의 스위트에서 Gemini 3 Flash보다 5.5배 비용이 더 들고 Gemini 3.1 Pro보다 75% 더 비싸다고 보고합니다 (ArtificialAnlys).
Arena는 Gemini 3.5 Flash가 Text Arena에서 #9 전체, Code Arena: Frontend에서 #9에 도달했다고 보고합니다, 1507점으로 점수를 받았으며, Gemini 3 Flash 대비 +70 상승했으며, 가격대의 최고 점수가 되었습니다 (arena).
Google은 Gemini Omni Flash가 지금 Gemini/Flow에서 유료 사용자에게 이용 가능하고, Shorts/Create에서 이번 주부터 무료로 시작되며, 향후 API를 통해 제공된다고 말합니다 (Google).
Google은 Spark가 Google Cloud 가상 머신에서 실행되며, 사용자 디바이스가 닫혀 있어도 장기 실행 작업을 허용한다고 말합니다 (Google).
Google은 Antigravity + Gemini 3.5 Flash 데모가 12시간 만에 기능 OS를 구축했으며 93개의 병렬 부에이전트, 15,000개 이상의 모델 요청, 26억 개의 토큰, 1,000달러 미만의 API 크레딧을 사용했다고 주장합니다 (Google).
Google은 Search가 Antigravity + 3.5 Flash를 사용하여 맞춤형 시각 도구/시뮬레이션을 즉석에서 생성한다고 말합니다 (Google).
긍정적인 평가: "Google이 돌아왔다", "Flash 모델의 미친 평가들", "AGI로 향한 월드 모델", "마인드 블로잉" for Search + Antigravity 등 (kimmonismus, Kseniase_, demishassabis).
중립적 주의: 일부 포스터는 자체 보고 벤치마크로 인한 과장을 명시적으로 피했으며 가격/성능 우려를 언급했습니다 (scaling01, simonw).
부정적/회의적 평가는 다음에 초점을 맞췄습니다:
이전 Flash 모델 대비 가격 인상 (enricoros).
GPT-5.5-medium이 더 똑똑하고/저렴하고/빠를 수 있는 비교 (scaling01, scaling01).
약한 TerminalBench-Hard, 평범한 MRCR / ARC-AGI-2, 또는 일부 영역에서 Kimi/GLM을 명확히 능가하지 못하는 것과 같은 벤치마크 주의사항 (scaling01, teortaxesTex, scaling01).
Gemini CLI vs Antigravity CLI의 제품명/UX 혼란과 광범위한 인터페이스 설계 비판 (zachtratar, kchonyc, teortaxesTex).
Google/DeepMind는 반복해서 Gemini 3.5 Flash를 회사의 에이전트와 코딩을 위한 가장 강력한 모델로 설명했으며, 절대적인 플래그십 인텔리전스 모델이 아닙니다. 이는 Pareto 프론티어의 높은 속도, 높은 유틸리티 부분에 앉아 있으며, Google 제품과 개발자 워크로드 모두에 전력을 공급합니다 (GoogleDeepMind, Google, SundarPichai).
Google 및 관련 게시물에서:
지금 GA 이용 가능 (Google)
100만 토큰 컨텍스트 윈도우
최대 6만 5천 출력 토큰
사고 수준: 최소, 낮음, 중간 (새로운 기본값), 높음
멀티턴 대화 전반에 걸친 사고 보존
텍스트 출력
입력 모드: 텍스트, 이미지, 동영상, 음성 (Artificial Analysis 기준) ( _philschmid, ArtificialAnlys)
가격: 입력 백만 개당 $1.50, 출력 백만 개당 $9.00, 캐시된 입력에 대해 90% 할인 (scaling01, ArtificialAnlys)
공식 벤치마크 주장:
Terminal-Bench 2.1: 76.2%
GDPval-AA: 1656 Elo
MCP Atlas: 83.6%
Google 인용 멀티모달 결과: 한 엔지니어 게시물에서 MMMU-Pro 83.6%; Artificial Analysis는 84%를 보고하며, 자신의 설정에서 가장 높은 기록입니다 (koraykv, ArtificialAnlys)
속도 주장:
Google 마케팅 주장: 비슷한 프론티어 모델보다 4배 빠름 (Google)
Antigravity에서 Google은 최대 12배 빠르다고 말합니다 (JeffDean, scaling01)
Artificial Analysis는 초당 280개 이상의 출력 토큰을 관찰했습니다
일부 논의는 Antigravity 특화 최적화 서빙에서 초당 약 867개의 토큰을 언급했습니다 (scaling01, scaling01)
제3자 평가:
Arena:
#9 Text Arena
#9 Code Arena: Frontend
1507점, Gemini-3 Flash 대비 +70
주목할 점은 Google이 이전 사이클에서 단순히 저가 경량 계층이 아니라 배포에 최적화된 고급 제품 모델로 설명했을 모델에 "Flash" 라벨을 사용하고 있다는 것입니다. 여러 포스터가 이를 직접 지적했으며, Flash가 더 비싸지고 있고 이전 Pro 영역을 흡수하고 있을 수 있다고 주장했습니다 (enricoros, simonw).
가장 강력한 기술 신호는 "최고의 절대 벤치마크 모델"이 아니라:
상당한 에이전트 이득
극단적인 서빙 속도
제품 표면에 깊은 통합
부에이전트와 장기 실행 중심의 도구
이는 일부 경쟁사가 특정 제3자 비교에서 원가 조정 인텔리전스를 여전히 능가하더라도 3.5 Flash를 전략적으로 중요하게 만듭니다.
Google은 Gemini Omni를 Gemini 추론/세계 지식을 Google의 생성 미디어 스택과 병합하는 새로운 패밀리로 소개했으며, 동영상 생성 및 편집으로 시작합니다. 공식 메시징은 "모든 입력에서 무엇이든 생성"이라고 설명했지만, 현재 출시는 더 좁습니다:
입력: 텍스트, 이미지, 오디오, 동영상
초기 출력 강조: 동영상
제품 이용 가능성: Gemini 앱, Flow, YouTube Shorts/Create, 나중에 API
현재 배송 모델: Gemini Omni Flash (GoogleDeepMind, Google, Google)
Google/DeepMind 주장:
출시 세부사항:
전 세계 유료 Gemini 사용자 앱/Flow에서 "지금"
YouTube Shorts/Create에서 "이번 주부터" 출시 무료로
지지: 사용자와 Google 직원들은 Omni를 특히 동영상 편집과 일관성 측면에서 주요 품질 도약으로 설명했습니다 (joshwoodward, fofrAI, osanseviero).
전략적 해석: 여러 포스터는 Omni를 Google이 월드 모델과 구현된/물리적 우선순위에 투자하고 있다는 증거로 해석했으며, 텍스트/코드 경쟁만 하는 것이 아닙니다 (demishassabis, jparkerholder, kimmonismus).
회의: 일부 UI/출력 예제는 "B급 비디오 게임 인터페이스" 같거나 너무 세련된/템플릿 같다는 비판을 받았습니다 (teortaxesTex, shlomifruchter).
Omni는 "또 다른 동영상 모델"보다 Google의 다음을 통합하려는 시도가 더 중요합니다:
이는 DeepMind의 오래 실행 중인 월드 모델 의제 및 Google의 제품 배포 이점과 일치합니다.
I/O의 주요 과소평가 테마는 Google이 더 이상 에이전트를 채팅 모델 주위의 얇은 래퍼로 제시하지 않는다는 것입니다. Antigravity는 실행 기판이 되고 있습니다.
Antigravity 2.0 데스크톱 앱: 에이전트 우선 데스크톱 (핵심 대화, 아티팩트, 멀티 에이전트 오케스트레이션) (Google, Google)
Antigravity SDK (Google)
Gemini API의 관리형 에이전트: 단일 API 호출이 에이전트와 호스팅된 Linux 샌드박스를 제공; Bash/Python/Node, 파일, 브라우징, 맞춤형 마크다운 정의 스킬, 리포/GCS 마운트를 지원합니다 (Google, GoogleAIStudio, _philschmid)
AI Studio, Android, Firebase, Workspace, web와의 통합 (Google, Google)
AI Studio에서 Antigravity로의 원클릭 내보내기 (Google)
AI Studio / Android의 Antigravity 지원에서의 네이티브 Android 앱 생성 (Google, AndroidDev)
Google의 자체 데모는 병렬 부에이전트, 호스팅된 실행, 높은 빈도 반복 루프, 아티팩트 중심 워크플로우에 초점을 맞췄습니다. Jeff Dean은 명시적으로 3.5 Flash를 "부에이전트를 배포하는 강력한 엔진이며, 협력하고, 높은 빈도 반복 루프를 실행하고, 규모 있는 실제 문제를 해결한다"고 설명했습니다 (JeffDean).
주요 증거 포인트:
OS가 12시간 만에 구축됨
93개의 병렬 부에이전트
15,000개 이상의 요청
26억 개의 토큰
1,000달러 미만의 크레딧 (Google)
설령 이것이 대부분 무대에서 관리되는 벤치마크/데모라고 해도, 이는 Google이 개발자에게 채택하기를 원하는 아키텍처를 보여줍니다: 느린 단일 모놀리식 실행보다 많은 빠른 에이전트.
긍정적: 이는 Codex/Claude Code/OpenClaw/Hermes 스타일 워크플로우에 대한 Google의 답변이며, 더 강력한 인프라 스토리를 가지고 있습니다 (iScienceLuvr, theo).
비판적: 브랜딩 및 제품 산포는 혼란스럽게 남아 있습니다; 일부 사용자는 Gemini CLI 또는 Antigravity CLI를 사용해야 하는지 확실하지 않으며, Google의 디자인 선택이 불만을 받았습니다 (kchonyc, zachtratar, teortaxesTex).
Google은 재설계된 AI 기반 Search 상자, 멀티모달 쿼리 지원, 가장 야심 찬 소비자 대면 이동을 발표했습니다: Search는 Antigravity + Gemini 3.5 Flash를 사용하여 즉석에서 맞춤형 시각 도구 및 시뮬레이션을 생성합니다 (Google, Google).
또한 Search에서 정보 에이전트를 미리 보았습니다:
이는 주목할 만한 전략 전환입니다: Search는 검색/순위에서 백그라운드 에이전트 모니터링 + 생성 애플릿으로 이동합니다.
소비자 Gemini 업데이트 포함:
새로운 "Neural Expressive" 디자인 언어 (Google)
인라인/즉시 Gemini Live 음성 (Google)
Gemini Spark (클라우드 VM의 24/7 개인 AI 에이전트로, 주요 작업 전에 사용자에게 확인) (Google, GeminiApp)
Google은 새로운 가격 책정 구조를 소개했습니다:
이것은 특히 코더와 크리에이터를 위한 프리미엄 파워 사용자에 대한 더욱 공격적인 입찰으로 읽힙니다.
Google은 Search, Gemini, Chrome, 하드웨어/미디어 표면에 걸쳐 SynthID를 밀어붙였으며, OpenAI, NVIDIA, Kakao, ElevenLabs와의 파트너십을 발표하여 생성된 콘텐츠에 SynthID를 가져옵니다 (Google, Google).
이는 I/O의 더 중대한 표준 이동 중 하나입니다:
이는 Google에게 생성 미디어의 증명 계층을 소유할 기회를 제공합니다;
주목할 점은 OpenAI가 별도로 SynthID 워터마크 + C2PA 자격 증명을 통해 OpenAI 생성 이미지를 확인하기 위한 지원을 발표했다는 것입니다 (OpenAI).
이는 Omni/3.5 Flash만큼 화려하지는 않았지만, 증명이 필수 인프라가 되면 아마도 더 지속 가능할 것입니다.
여러 I/O 항목은 Google이 코딩/채팅에만 경쟁하기를 원하지 않는다는 것을 강화했습니다:
이 광범위한 컨텍스트는 왜 일부 관찰자들이 Omni를 "월드 모델 진행"이 아닌 "월드 모델 진행"으로 해석했는지 설명합니다 (demishassabis, jparkerholder).
Gemini 3.5 Flash는 속도 계층 모델에 대한 주요 도약으로 보았으며, 특히 에이전트 코딩에서 (kimmonismus, SundarPichai).
Search + Antigravity는 Google이 엄청난 규모로 생성된 UI/도구를 배포할 수 있기 때문에 잠재적으로 변혁적이라고 보았습니다 (Kseniase_, TheTuringPost).
Omni는 편집 품질과 더 깊은 월드 모델 로드맵을 암시하기 위해 칭찬받았습니다 (joshwoodward, kimmonismus).
Google이 자체 보고 벤치마크에 의존하고 있다는 우려, 독립적인 비교는 경쟁자들에게 여전히 여지를 남깁니다 (scaling01).
"Flash"는 더 이상 이름을 정당화하기에 충분히 저렴하지 않다는 우려; 가격은 이전 Flash 세대에서 크게 올랐습니다 (enricoros, simonw).
일부는 GPT-5.5-medium이 여전히 결합된 스마트/저렴/지연시간 기준으로 지배한다고 믿었습니다 (scaling01).
일부 벤치마크 슬라이스는 불균형을 암시합니다 — 예를 들어 약한 TerminalBench-Hard 또는 평범한 추론 메트릭 (scaling01, teortaxesTex).
Artificial Analysis는 가장 강력한 균형 잡힌 견해를 제시했습니다: 뛰어난 속도-인텔리전스 프론티어 위치, 실질적인 에이전트 이득, 그러나 이전 Flash보다 재료적으로 나쁜 비용 그리고 자신의 엔드 투 엔드 스위트에서 3.1 Pro보다도 높습니다 (ArtificialAnlys).
Arena의 데이터도 "단순 마케팅이 아니라 실제 개선"을 지원하며, 특히 프론트엔드/코드 작업의 경우, 카테고리 지배를 주장하지 않으면서 (arena).
Google은 이제 일관된 배포 스토리를 가지고 있습니다.
이전 Gemini 사이클은 종종 벤치마크 중심이고 제품 조각화가 느껴졌습니다. I/O에서 Google은 모델, 인프라, 도구, API, 소비자 표면, 엔터프라이즈 출시를 함께 묶었습니다.중력의 중심이 채팅봇 UX에서 에이전트 실행으로 이동하고 있습니다.
중요한 기본 요소는 모델 IQ뿐만이 아닙니다: 부에이전트, 호스팅된 샌드박스, 장기 실행 작업, 생성된 아티팩트, Search/Workspace/Android와의 통합이었습니다.Gemini 3.5 Flash는 "많은 에이전트를 오케스트레이션할 수 있을 정도로 충분히 빠름"이 최대 벤치마크 점수보다 더 중요할 수 있음을 시사합니다.
코딩 및 도구 사용의 경우, 처리량과 지연시간이 점점 제품 정의를 하고 있습니다.Omni는 Google의 차별화 논제를 드러냅니다.
Google은 순수 텍스트 중심 경쟁이 아니라 멀티모달/월드 접지 시스템에 베팅하고 있습니다.신뢰/증명은 플랫폼 인프라가 되고 있습니다.
OpenAI/NVIDIA/ElevenLabs/Kakao와의 SynthID 파트너십은 생성 미디어 콘텐츠 인증 증명 계층 주변의 일부 수렴을 시사합니다.가장 큰 미결 문제는 경제입니다.
기술적으로 강력하든 아니든, 3.5 Flash는 비용 인상에 대한 상당한 반발을 그렸습니다. "Flash"가 더 이상 저렴한 일꾼 계층이 아니라면, Google은 기능 배포에서 이길 수 있지만 예측 가능성과 가격 책정 단순성에서 개발자 마음을 잃을 수 있습니다.
인재, 랩 및 생태계 이동
Karpathy가 Anthropic에 합류합니다: 그 날의 가장 많이 참여한 AI 트윗은 Andrej Karpathy의 발표였습니다. 그는 Anthropic에 합류하여 "R&D로 돌아가려고" 합니다. 이 트윗은 논의를 지배했으며, @scaling01의 후속 추측에서 Axios를 인용하여 그가 RSI/autoresearch에서 일하고 새로운 사전 훈련 중심 노력을 시작할 것이라고 합니다. 세부사항은 Anthropic에서 확인되지 않았지만, 이 이동은 Anthropic의 주요 인재 승리로 광범위하게 해석되었습니다.
OpenAI 용량 제품: OpenAI는 보장된 용량을 발표했습니다. 고객이 중요한 워크로드를 위해 장기 컴퓨팅 액세스를 확보할 수 있는 상업적 제안입니다. Sam Altman은 모델이 더 유용해지면서 용량이 제한된 세계에 대한 응답으로, 1–3년 약정에 대해 할인된 토큰을 제공합니다.
GitHub 및 코딩 도구 체인 통합: GitHub은 Gemini 3.5 Flash가 Copilot에서 출시되고 있다고 말했습니다, 강력한 도구 사용, 빠른 응답 시간, 반복 에이전트 코딩 효율을 인용합니다. Cursor는 Jira와의 통합을 출시했으며, 클라우드 에이전트가 작업 항목을 수행하고 병합 준비 PR을 생성할 수 있습니다. Code/VS Code도 Gemini 3.5 Flash 이용 가능성을 발표했습니다.
훈련 알고리즘, 벤치마크 및 에이전트 평가
RL/포스트 훈련 논의는 더 조밀한 신용 할당을 향해 이동 중입니다: @nrehiew_는 다음 확장 가능한 훈련 돌파구가 GRPO를 기반으로 구축되지만 더 조밀하고 저편향 신용 할당을 가지고 있을 수 있다고 주장했으며, ECHO, Composer2, 자아 증류, OPD와 같은 방향을 인용합니다. @lateinteraction은 "교육학적 RL" 프레이밍으로 대응했습니다: 자체 선생님을 훈련하여 올바르고 따르기 쉬운 롤아웃을 샘플합니다.
코딩 에이전트가 연구를 수행할 수 있습니까? 아직 아닙니다: Intology AI는 NanoGPT-Bench를 출시했으며, NanoGPT Speedrun 경쟁을 기반으로 한 자율 벤치마크로, 코딩 에이전트가 실제 AI R&D 진행에 기여할 수 있는지 테스트합니다. 그들의 주요 결과: Codex, Claude Code, Autoresearch는 인간 진행의 9.3%만 복구합니다, 대부분 알고리즘 혁신이 아닌 하이퍼파라미터 튜닝을 통해서입니다.
에이전트 하네스 및 메모리는 더욱 형식화되고 있습니다: @omarsar0은 코드 에이전트 하네스에 관한 100+ 페이지 조사를 강조했으며, 향후 시스템이 실행 가능하고 검사 가능하며 상태가 있고 관리되어야한다고 주장했습니다. François Chollet은 실제 작업이 드물게 Markovian이므로, 고충실도 궤적 압축이 없는 에이전트는 극적으로 덜 유용하다는 관련 포인트를 만들었습니다.
검증자 품질이 병목으로 나타나고 있습니다: @Shahules786의 스레드는 에이전트 벤치마크 확장이 이제 작업 추가보다 검증자 품질 개선에 덜 의존하고 있음을 강조했으며, SWE-bench Verified, OSWorld-Verified, ComputerRL, BenchGuard를 인용합니다.
과학, 생물 모델 및 도메인별 시스템
Hugging Face, Carbon DNA 모델 릴리스: 가장 기술적으로 흥미로운 오픈 릴리스 중 하나는 Carbon으로, 생성 DNA 기초 모델 패밀리입니다. 팀은 Carbon-3B가 Evo2-7B와 일치하면서 추론에서 250–275배 빠르게 실행된다고 말합니다. 이는 단일 GPU에서 전체 인간 게놈을 2일 이내에 처리하기에 충분합니다. 주요 레시피 변경: 결정적인 6-mer 토큰화, 훈련 말기에 순수 교차 엔트로피를 대체하는 인수분해 손실 (FNS), 그리고 @LoubnaBenAllal1에 따른 기능 DNA + mRNA 데이터의 큐레이팅된 단계별 혼합. 릴리스는 모델, 훈련 코드, 평가, 데이터, 데모를 포함합니다.
Google이 과학 AI를 제품 카테고리로 밀어붙입니다: Google은 Gemini for Science를 소개했습니다. 연구원용 프로토타입 스위트: Literature Insights (NotebookLM을 통한 논문 합성), Hypothesis Generation (Co-Scientist 스타일 멀티 에이전트 "아이디어 토너먼트"), Computational Discovery (AlphaEvolve 및 ERA로 구축하여 병렬로 수천 개의 코드 변형을 생성하고 점수 매김). Google Research는 또한 ERA가 이제 Nature에 출판되었다고 언급했습니다 (Google Research).
전문화된 사전 훈련은 지원을 얻고 있습니다: @pratyushmaini는 초기 노출 / 전문화된 사전 훈련이 망각에 대한 견고성을 개선한다는 증거를 지적했으며, 엔터프라이즈가 도메인 사용 사례에 진지한 경우 단순 포스트 훈련이 아니라 처음부터 맞춤형 모델을 훈련하는 것을 고려해야 한다고 주장했습니다.
안전, 거버넌스 및 내부 에이전트 모니터링
METR의 첫 번째 Frontier Risk Report: METR은 Anthropic, Google, Meta, OpenAI에 걸친 특별히 깊은 액세스를 기반으로 한 주요 새로운 보고서를 출시했으며, 모델 CoT 및 능력, 정렬 및 제어에 대한 비공개 정보를 포함합니다. 보고서는 랩이 자신의 내부 배포 에이전트에 대한 제어를 잃을 수 있는지에 초점을 맞추고 있으며 광범위한 부록 및 필사본을 포함합니다 (METR).
내부 에이전트 모니터링은 이제 활발한 실무입니다: @idavidrein은 내부 AI 에이전트가 "폭주할 수 있는지" 감지하도록 설계된 시스템을 스트레스 테스트하면서 Anthropic에 매장된 한 달을 설명했습니다. 그가 언급한 주요 주의사항은 운동이 Anthropic에 민감한 정보를 수정할 재량을 허용했으므로, 그는 이를 형식적인 감사가 아닌 운동으로 구성하고 있다는 것입니다.
새로운 안전 표준 조직: Steven Adler는 Guidelight를 발표했으며, Page Hedley와 공동 설립한 새로운 AI 안전 표준 조직으로, 첫 두 표준을 출시했습니다. 데이터 세트의 트윗 스레드가 부분적이지만, 이 이동은 모델 평가가 아닌 운영 표준을 중심으로 필드가 전문화되고 있다는 또 다른 신호로 주목할 만합니다.
상위 트윗 (참여도별)
Karpathy가 Anthropic에 합류합니다: @karpathy
Google이 Gemini 3.5 모델 시리즈를 소개합니다: @Google
Google DeepMind가 Gemini Omni를 출시합니다: @GoogleDeepMind
Gemini 3.5 Flash GA (에이전트 및 코딩용): @Google
OpenAI 보장 용량: @OpenAI
Google의 24/7 개인 에이전트, Gemini Spark: @Google