AI·News
뒤로

[AINews] Google I/O 2026: Gemini 3.5 Flash, Omni (비디오용 NanoBanana), Spark (백그라운드 에이전트), Antigravity 2.0

[AINews] Google I/O 2026: Gemini 3.5 Flash, Omni (NanoBanana for Video), Spark (background agents), and Antigravity 2.0

전체 키노트 라이브스트림은 2시간이었지만, 늘 그렇듯이 The Verge가 30분으로 최고의 하이라이트 영상을 만들었으며, 전체 맥락을 파악하는 데 충분히 가치 있습니다:

메인라인 Gemini 3.5 Flash가 오늘부터 GA(일반 공개)되었으며 (단계별 출시와 비교하면 매우 좋음), 3.1 Pro와 비교해도 괜찮은 업그레이드로 평가되고 있고, 3.5 Pro는 다음 달에 출시될 예정입니다. 더욱 인상적인 것은 Gemini Live(음성), Omni(동영상), Google Pics/Flow(이미지/VFX/음악) 모드로, Google이 업계 최고 수준의 능력과 지연시간을 시연했으며, 이 모든 것이 업계 최고 수준의 하드웨어와 모델로 가능해진 것으로 보입니다.

최근 모든 빅테크 키노트에서의 오랜 전통에 따라, Google도 스마트 안경 기술을 시연했는데, Google과 경쟁사의 이전 버전들보다 실제로 거리에서 볼 가능성이 조금 더 높아 보입니다.

2026년 5월 18일-5월 19일 AI 뉴스. 12개의 서브레딧, 544개의 Twitter를 확인했으며 추가 Discord는 없습니다. AINews의 웹사이트에서 모든 과거 이슈를 검색할 수 있습니다. 상기하시다시피, AINews는 이제 Latent Space의 섹션입니다. 이메일 빈도를 선택/해제할 수 있습니다!


Google은 I/O를 통해 Gemini를 소비자 AI 표면과 개발자/에이전트 플랫폼 모두로 재포지셔닝했으며, 세 가지 핵심 기술 발표가 있었습니다: 빠른 에이전트/코딩 작업을 위한 Gemini 3.5 Flash, 비디오로 시작하는 멀티모달 생성/편집을 위한 Gemini Omni, 그리고 데스크톱/CLI/SDK/API에 걸쳐 있는 더 광범위한 Antigravity 에이전트 스택. 공식 게시물은 규모를 강조했습니다 — Google은 현재 월 3.2조 개 이상의 토큰을 처리하고 있으며, 연전 대비 7배 증가했습니다 월 480조에서, Gemini 앱은 9억 명 이상의 월간 사용자를 보유하고 있으며 230개 이상의 국가와 70개 이상의 언어에서 이용 가능합니다 (Google, Google, GeminiApp). 가장 기술적으로 실질적인 릴리스는 Gemini 3.5 Flash였으며, Google이 가장 강력한 에이전트/코딩 모델로 평가했고, 즉시 GA, 100만 토큰 컨텍스트, 최대 6만 5천 출력, 4가지 사고 수준 ("최소/낮음/중간/높음")과 "사고 보존"이 여러 턴에 걸쳐 가능합니다 (GoogleDeepMind, Google, _philschmid). Google은 이와 함께 Gemini Omni를 출시했으며, Gemini 추론을 생성 미디어와 결합하는 새로운 패밀리로, 처음에는 Omni Flash를 통해 텍스트/이미지/동영상/오디오 입력을 받을 수 있고 Gemini, Flow, Shorts, 그리고 나중의 API에서 동영상 편집/생성을 생성할 수 있습니다 (GoogleDeepMind, Google, GeminiApp). 이 모델들을 중심으로 Google은 Antigravity 2.0 데스크톱, CLI, SDK, Gemini API의 관리형 에이전트, Search 기본 제공 생성형 UI/코딩, Gemini Spark 클라우드 VM의 백그라운드 에이전트, 그리고 Gemini 앱/Workspace/커머스/미디어 통합의 긴 목록을 출시하거나 확장했습니다 (Google, Google, Google).

  • Google은 현재 월 3.2조 개 토큰을 처리하고 있다고 말합니다, 1년 전 480조 개에서 증가 (Google).

  • Google은 Gemini가 9억 명 이상의 월간 사용자를 보유하고 있다고 말합니다 (Google).

  • Google은 Gemini 3.5 Flash가 오늘부터 GA라고 말합니다 (Gemini 앱, Search AI 모드, Gemini API, AI Studio, Antigravity, Android Studio, 기업 표면 전반) (Google, GeminiApp).

  • Google은 Gemini 3.5 Flash가 100만 컨텍스트, 최대 6만 5천 출력, 4가지 사고 수준, "사고 보존" 기능이 여러 턴에 걸쳐 있다고 말합니다 ( _philschmid).

  • Google은 3.5 Flash가 Terminal-Bench 2.1, GDPval-AA, MCP Atlas에서 Gemini 3.1 Pro를 능가한다고 말합니다 (GoogleDeepMind, Google).

  • Google은 3.5 Flash가 비슷한 프론티어 모델보다 4배 빠르게 실행되고, Antigravity에서는 최대 12배 빠르다고 말합니다 (Google, JeffDean).

  • 독립적인 벤치마크 업체 Artificial Analysis는 Gemini 3.5 Flash가 Intelligence Index에서 55점을 받았다고 보고합니다, Gemini 3 Flash 대비 +9, 초당 280 이상의 출력 토큰으로, MMMU-Pro 84%, GDPval-AA Elo 1656, 가격은 입력/출력 토큰 백만 개당 $1.50 / $9.00; 또한 모델이 자신의 스위트에서 Gemini 3 Flash보다 5.5배 비용이 더 들고 Gemini 3.1 Pro보다 75% 더 비싸다고 보고합니다 (ArtificialAnlys).

  • Arena는 Gemini 3.5 Flash가 Text Arena에서 #9 전체, Code Arena: Frontend에서 #9에 도달했다고 보고합니다, 1507점으로 점수를 받았으며, Gemini 3 Flash 대비 +70 상승했으며, 가격대의 최고 점수가 되었습니다 (arena).

  • Google은 Gemini Omni Flash가 지금 Gemini/Flow에서 유료 사용자에게 이용 가능하고, Shorts/Create에서 이번 주부터 무료로 시작되며, 향후 API를 통해 제공된다고 말합니다 (Google).

  • Google은 Spark가 Google Cloud 가상 머신에서 실행되며, 사용자 디바이스가 닫혀 있어도 장기 실행 작업을 허용한다고 말합니다 (Google).

  • Google은 Antigravity + Gemini 3.5 Flash 데모가 12시간 만에 기능 OS를 구축했으며 93개의 병렬 부에이전트, 15,000개 이상의 모델 요청, 26억 개의 토큰, 1,000달러 미만의 API 크레딧을 사용했다고 주장합니다 (Google).

  • Google은 Search가 Antigravity + 3.5 Flash를 사용하여 맞춤형 시각 도구/시뮬레이션을 즉석에서 생성한다고 말합니다 (Google).

  • 긍정적인 평가: "Google이 돌아왔다", "Flash 모델의 미친 평가들", "AGI로 향한 월드 모델", "마인드 블로잉" for Search + Antigravity 등 (kimmonismus, Kseniase_, demishassabis).

  • 중립적 주의: 일부 포스터는 자체 보고 벤치마크로 인한 과장을 명시적으로 피했으며 가격/성능 우려를 언급했습니다 (scaling01, simonw).

  • 부정적/회의적 평가는 다음에 초점을 맞췄습니다:

    • 이전 Flash 모델 대비 가격 인상 (enricoros).

    • GPT-5.5-medium이 더 똑똑하고/저렴하고/빠를 수 있는 비교 (scaling01, scaling01).

    • 약한 TerminalBench-Hard, 평범한 MRCR / ARC-AGI-2, 또는 일부 영역에서 Kimi/GLM을 명확히 능가하지 못하는 것과 같은 벤치마크 주의사항 (scaling01, teortaxesTex, scaling01).

    • Gemini CLI vs Antigravity CLI의 제품명/UX 혼란과 광범위한 인터페이스 설계 비판 (zachtratar, kchonyc, teortaxesTex).

Google/DeepMind는 반복해서 Gemini 3.5 Flash를 회사의 에이전트와 코딩을 위한 가장 강력한 모델로 설명했으며, 절대적인 플래그십 인텔리전스 모델이 아닙니다. 이는 Pareto 프론티어의 높은 속도, 높은 유틸리티 부분에 앉아 있으며, Google 제품과 개발자 워크로드 모두에 전력을 공급합니다 (GoogleDeepMind, Google, SundarPichai).

Google 및 관련 게시물에서:

  • 지금 GA 이용 가능 (Google)

  • 100만 토큰 컨텍스트 윈도우

  • 최대 6만 5천 출력 토큰

  • 사고 수준: 최소, 낮음, 중간 (새로운 기본값), 높음

  • 멀티턴 대화 전반에 걸친 사고 보존

  • 텍스트 출력

  • 입력 모드: 텍스트, 이미지, 동영상, 음성 (Artificial Analysis 기준) ( _philschmid, ArtificialAnlys)

  • 가격: 입력 백만 개당 $1.50, 출력 백만 개당 $9.00, 캐시된 입력에 대해 90% 할인 (scaling01, ArtificialAnlys)

공식 벤치마크 주장:

  • Terminal-Bench 2.1: 76.2%

  • GDPval-AA: 1656 Elo

  • MCP Atlas: 83.6%

  • Google 인용 멀티모달 결과: 한 엔지니어 게시물에서 MMMU-Pro 83.6%; Artificial Analysis는 84%를 보고하며, 자신의 설정에서 가장 높은 기록입니다 (koraykv, ArtificialAnlys)

속도 주장:

  • Google 마케팅 주장: 비슷한 프론티어 모델보다 4배 빠름 (Google)

  • Antigravity에서 Google은 최대 12배 빠르다고 말합니다 (JeffDean, scaling01)

  • Artificial Analysis는 초당 280개 이상의 출력 토큰을 관찰했습니다

  • 일부 논의는 Antigravity 특화 최적화 서빙에서 초당 약 867개의 토큰을 언급했습니다 (scaling01, scaling01)

제3자 평가:

Arena:

  • #9 Text Arena

  • #9 Code Arena: Frontend

  • 1507점, Gemini-3 Flash 대비 +70

  • 프론트엔드 코딩 평가에서 모든 카테고리에서 Gemini 3.1 Pro를 능가 (arena, arena)

주목할 점은 Google이 이전 사이클에서 단순히 저가 경량 계층이 아니라 배포에 최적화된 고급 제품 모델로 설명했을 모델에 "Flash" 라벨을 사용하고 있다는 것입니다. 여러 포스터가 이를 직접 지적했으며, Flash가 더 비싸지고 있고 이전 Pro 영역을 흡수하고 있을 수 있다고 주장했습니다 (enricoros, simonw).

가장 강력한 기술 신호는 "최고의 절대 벤치마크 모델"이 아니라:

  1. 상당한 에이전트 이득

  2. 극단적인 서빙 속도

  3. 제품 표면에 깊은 통합

  4. 부에이전트와 장기 실행 중심의 도구

이는 일부 경쟁사가 특정 제3자 비교에서 원가 조정 인텔리전스를 여전히 능가하더라도 3.5 Flash를 전략적으로 중요하게 만듭니다.

Google은 Gemini Omni를 Gemini 추론/세계 지식을 Google의 생성 미디어 스택과 병합하는 새로운 패밀리로 소개했으며, 동영상 생성 및 편집으로 시작합니다. 공식 메시징은 "모든 입력에서 무엇이든 생성"이라고 설명했지만, 현재 출시는 더 좁습니다:

  • 입력: 텍스트, 이미지, 오디오, 동영상

  • 초기 출력 강조: 동영상

  • 제품 이용 가능성: Gemini 앱, Flow, YouTube Shorts/Create, 나중에 API

  • 현재 배송 모델: Gemini Omni Flash (GoogleDeepMind, Google, Google)

Google/DeepMind 주장:

  • 더 나은 월드 이해

  • 더욱 견고한 물리

  • 장면/캐릭터 일관성이 유지되는 멀티턴 편집

  • "다시 상상하기" 사용자 동영상 footage 대화형 편집 기능 (Google, Google)

출시 세부사항:

  • 전 세계 유료 Gemini 사용자 앱/Flow에서 "지금"

  • YouTube Shorts/Create에서 "이번 주부터" 출시 무료로

  • 개발자/엔터프라이즈용 API (Google, GeminiApp)

  • 지지: 사용자와 Google 직원들은 Omni를 특히 동영상 편집과 일관성 측면에서 주요 품질 도약으로 설명했습니다 (joshwoodward, fofrAI, osanseviero).

  • 전략적 해석: 여러 포스터는 Omni를 Google이 월드 모델과 구현된/물리적 우선순위에 투자하고 있다는 증거로 해석했으며, 텍스트/코드 경쟁만 하는 것이 아닙니다 (demishassabis, jparkerholder, kimmonismus).

  • 회의: 일부 UI/출력 예제는 "B급 비디오 게임 인터페이스" 같거나 너무 세련된/템플릿 같다는 비판을 받았습니다 (teortaxesTex, shlomifruchter).

Omni는 "또 다른 동영상 모델"보다 Google의 다음을 통합하려는 시도가 더 중요합니다:

이는 DeepMind의 오래 실행 중인 월드 모델 의제 및 Google의 제품 배포 이점과 일치합니다.

I/O의 주요 과소평가 테마는 Google이 더 이상 에이전트를 채팅 모델 주위의 얇은 래퍼로 제시하지 않는다는 것입니다. Antigravity는 실행 기판이 되고 있습니다.

  • Antigravity 2.0 데스크톱 앱: 에이전트 우선 데스크톱 (핵심 대화, 아티팩트, 멀티 에이전트 오케스트레이션) (Google, Google)

  • Antigravity CLI (Google, Google)

  • Antigravity SDK (Google)

  • Gemini API의 관리형 에이전트: 단일 API 호출이 에이전트와 호스팅된 Linux 샌드박스를 제공; Bash/Python/Node, 파일, 브라우징, 맞춤형 마크다운 정의 스킬, 리포/GCS 마운트를 지원합니다 (Google, GoogleAIStudio, _philschmid)

  • AI Studio, Android, Firebase, Workspace, web와의 통합 (Google, Google)

  • AI Studio에서 Antigravity로의 원클릭 내보내기 (Google)

  • AI Studio / Android의 Antigravity 지원에서의 네이티브 Android 앱 생성 (Google, AndroidDev)

Google의 자체 데모는 병렬 부에이전트, 호스팅된 실행, 높은 빈도 반복 루프, 아티팩트 중심 워크플로우에 초점을 맞췄습니다. Jeff Dean은 명시적으로 3.5 Flash를 "부에이전트를 배포하는 강력한 엔진이며, 협력하고, 높은 빈도 반복 루프를 실행하고, 규모 있는 실제 문제를 해결한다"고 설명했습니다 (JeffDean).

주요 증거 포인트:

  • OS가 12시간 만에 구축됨

  • 93개의 병렬 부에이전트

  • 15,000개 이상의 요청

  • 26억 개의 토큰

  • 1,000달러 미만의 크레딧 (Google)

설령 이것이 대부분 무대에서 관리되는 벤치마크/데모라고 해도, 이는 Google이 개발자에게 채택하기를 원하는 아키텍처를 보여줍니다: 느린 단일 모놀리식 실행보다 많은 빠른 에이전트.

  • 긍정적: 이는 Codex/Claude Code/OpenClaw/Hermes 스타일 워크플로우에 대한 Google의 답변이며, 더 강력한 인프라 스토리를 가지고 있습니다 (iScienceLuvr, theo).

  • 비판적: 브랜딩 및 제품 산포는 혼란스럽게 남아 있습니다; 일부 사용자는 Gemini CLI 또는 Antigravity CLI를 사용해야 하는지 확실하지 않으며, Google의 디자인 선택이 불만을 받았습니다 (kchonyc, zachtratar, teortaxesTex).

Google은 재설계된 AI 기반 Search 상자, 멀티모달 쿼리 지원, 가장 야심 찬 소비자 대면 이동을 발표했습니다: Search는 Antigravity + Gemini 3.5 Flash를 사용하여 즉석에서 맞춤형 시각 도구 및 시뮬레이션을 생성합니다 (Google, Google).

또한 Search에서 정보 에이전트를 미리 보았습니다:

  • 지속적인 모니터링 작업

  • 웹/뉴스/소셜/실시간 신호

  • 링크 및 작업과 함께 합성된 업데이트

  • 이번 여름 Pro/Ultra로 출시 (Google, Google)

이는 주목할 만한 전략 전환입니다: Search는 검색/순위에서 백그라운드 에이전트 모니터링 + 생성 애플릿으로 이동합니다.

소비자 Gemini 업데이트 포함:

  • 새로운 "Neural Expressive" 디자인 언어 (Google)

  • 인라인/즉시 Gemini Live 음성 (Google)

  • Daily Brief 받은편지함/일정/작업의 개인화된 요약 (Google, GeminiApp)

  • Gemini Spark (클라우드 VM의 24/7 개인 AI 에이전트로, 주요 작업 전에 사용자에게 확인) (Google, GeminiApp)

  • macOS 앱 + 향후 Spark/음성 데스크톱 워크플로우 (Google, GeminiApp)

Google은 새로운 가격 책정 구조를 소개했습니다:

이것은 특히 코더와 크리에이터를 위한 프리미엄 파워 사용자에 대한 더욱 공격적인 입찰으로 읽힙니다.

Google은 Search, Gemini, Chrome, 하드웨어/미디어 표면에 걸쳐 SynthID를 밀어붙였으며, OpenAI, NVIDIA, Kakao, ElevenLabs와의 파트너십을 발표하여 생성된 콘텐츠에 SynthID를 가져옵니다 (Google, Google).

이는 I/O의 더 중대한 표준 이동 중 하나입니다:

  • 이는 Google에게 생성 미디어의 증명 계층을 소유할 기회를 제공합니다;

  • 주목할 점은 OpenAI가 별도로 SynthID 워터마크 + C2PA 자격 증명을 통해 OpenAI 생성 이미지를 확인하기 위한 지원을 발표했다는 것입니다 (OpenAI).

이는 Omni/3.5 Flash만큼 화려하지는 않았지만, 증명이 필수 인프라가 되면 아마도 더 지속 가능할 것입니다.

여러 I/O 항목은 Google이 코딩/채팅에만 경쟁하기를 원하지 않는다는 것을 강화했습니다:

이 광범위한 컨텍스트는 왜 일부 관찰자들이 Omni를 "월드 모델 진행"이 아닌 "월드 모델 진행"으로 해석했는지 설명합니다 (demishassabis, jparkerholder).

  • Gemini 3.5 Flash는 속도 계층 모델에 대한 주요 도약으로 보았으며, 특히 에이전트 코딩에서 (kimmonismus, SundarPichai).

  • Search + Antigravity는 Google이 엄청난 규모로 생성된 UI/도구를 배포할 수 있기 때문에 잠재적으로 변혁적이라고 보았습니다 (Kseniase_, TheTuringPost).

  • Omni는 편집 품질과 더 깊은 월드 모델 로드맵을 암시하기 위해 칭찬받았습니다 (joshwoodward, kimmonismus).

  • Google이 자체 보고 벤치마크에 의존하고 있다는 우려, 독립적인 비교는 경쟁자들에게 여전히 여지를 남깁니다 (scaling01).

  • "Flash"는 더 이상 이름을 정당화하기에 충분히 저렴하지 않다는 우려; 가격은 이전 Flash 세대에서 크게 올랐습니다 (enricoros, simonw).

  • 일부는 GPT-5.5-medium이 여전히 결합된 스마트/저렴/지연시간 기준으로 지배한다고 믿었습니다 (scaling01).

  • 일부 벤치마크 슬라이스는 불균형을 암시합니다 — 예를 들어 약한 TerminalBench-Hard 또는 평범한 추론 메트릭 (scaling01, teortaxesTex).

  • Artificial Analysis는 가장 강력한 균형 잡힌 견해를 제시했습니다: 뛰어난 속도-인텔리전스 프론티어 위치, 실질적인 에이전트 이득, 그러나 이전 Flash보다 재료적으로 나쁜 비용 그리고 자신의 엔드 투 엔드 스위트에서 3.1 Pro보다도 높습니다 (ArtificialAnlys).

  • Arena의 데이터도 "단순 마케팅이 아니라 실제 개선"을 지원하며, 특히 프론트엔드/코드 작업의 경우, 카테고리 지배를 주장하지 않으면서 (arena).

  1. Google은 이제 일관된 배포 스토리를 가지고 있습니다.
    이전 Gemini 사이클은 종종 벤치마크 중심이고 제품 조각화가 느껴졌습니다. I/O에서 Google은 모델, 인프라, 도구, API, 소비자 표면, 엔터프라이즈 출시를 함께 묶었습니다.

  2. 중력의 중심이 채팅봇 UX에서 에이전트 실행으로 이동하고 있습니다.
    중요한 기본 요소는 모델 IQ뿐만이 아닙니다: 부에이전트, 호스팅된 샌드박스, 장기 실행 작업, 생성된 아티팩트, Search/Workspace/Android와의 통합이었습니다.

  3. Gemini 3.5 Flash는 "많은 에이전트를 오케스트레이션할 수 있을 정도로 충분히 빠름"이 최대 벤치마크 점수보다 더 중요할 수 있음을 시사합니다.
    코딩 및 도구 사용의 경우, 처리량과 지연시간이 점점 제품 정의를 하고 있습니다.

  4. Omni는 Google의 차별화 논제를 드러냅니다.
    Google은 순수 텍스트 중심 경쟁이 아니라 멀티모달/월드 접지 시스템에 베팅하고 있습니다.

  5. 신뢰/증명은 플랫폼 인프라가 되고 있습니다.
    OpenAI/NVIDIA/ElevenLabs/Kakao와의 SynthID 파트너십은 생성 미디어 콘텐츠 인증 증명 계층 주변의 일부 수렴을 시사합니다.

  6. 가장 큰 미결 문제는 경제입니다.
    기술적으로 강력하든 아니든, 3.5 Flash는 비용 인상에 대한 상당한 반발을 그렸습니다. "Flash"가 더 이상 저렴한 일꾼 계층이 아니라면, Google은 기능 배포에서 이길 수 있지만 예측 가능성과 가격 책정 단순성에서 개발자 마음을 잃을 수 있습니다.

인재, 랩 및 생태계 이동

  • Karpathy가 Anthropic에 합류합니다: 그 날의 가장 많이 참여한 AI 트윗은 Andrej Karpathy의 발표였습니다. 그는 Anthropic에 합류하여 "R&D로 돌아가려고" 합니다. 이 트윗은 논의를 지배했으며, @scaling01의 후속 추측에서 Axios를 인용하여 그가 RSI/autoresearch에서 일하고 새로운 사전 훈련 중심 노력을 시작할 것이라고 합니다. 세부사항은 Anthropic에서 확인되지 않았지만, 이 이동은 Anthropic의 주요 인재 승리로 광범위하게 해석되었습니다.

  • OpenAI 용량 제품: OpenAI는 보장된 용량을 발표했습니다. 고객이 중요한 워크로드를 위해 장기 컴퓨팅 액세스를 확보할 수 있는 상업적 제안입니다. Sam Altman은 모델이 더 유용해지면서 용량이 제한된 세계에 대한 응답으로, 1–3년 약정에 대해 할인된 토큰을 제공합니다.

  • GitHub 및 코딩 도구 체인 통합: GitHubGemini 3.5 FlashCopilot에서 출시되고 있다고 말했습니다, 강력한 도구 사용, 빠른 응답 시간, 반복 에이전트 코딩 효율을 인용합니다. CursorJira와의 통합을 출시했으며, 클라우드 에이전트가 작업 항목을 수행하고 병합 준비 PR을 생성할 수 있습니다. Code/VS Code도 Gemini 3.5 Flash 이용 가능성을 발표했습니다.

훈련 알고리즘, 벤치마크 및 에이전트 평가

  • RL/포스트 훈련 논의는 더 조밀한 신용 할당을 향해 이동 중입니다: @nrehiew_는 다음 확장 가능한 훈련 돌파구가 GRPO를 기반으로 구축되지만 더 조밀하고 저편향 신용 할당을 가지고 있을 수 있다고 주장했으며, ECHO, Composer2, 자아 증류, OPD와 같은 방향을 인용합니다. @lateinteraction은 "교육학적 RL" 프레이밍으로 대응했습니다: 자체 선생님을 훈련하여 올바르고 따르기 쉬운 롤아웃을 샘플합니다.

  • 코딩 에이전트가 연구를 수행할 수 있습니까? 아직 아닙니다: Intology AINanoGPT-Bench를 출시했으며, NanoGPT Speedrun 경쟁을 기반으로 한 자율 벤치마크로, 코딩 에이전트가 실제 AI R&D 진행에 기여할 수 있는지 테스트합니다. 그들의 주요 결과: Codex, Claude Code, Autoresearch는 인간 진행의 9.3%만 복구합니다, 대부분 알고리즘 혁신이 아닌 하이퍼파라미터 튜닝을 통해서입니다.

  • 에이전트 하네스 및 메모리는 더욱 형식화되고 있습니다: @omarsar0코드 에이전트 하네스에 관한 100+ 페이지 조사를 강조했으며, 향후 시스템이 실행 가능하고 검사 가능하며 상태가 있고 관리되어야한다고 주장했습니다. François Chollet은 실제 작업이 드물게 Markovian이므로, 고충실도 궤적 압축이 없는 에이전트는 극적으로 덜 유용하다는 관련 포인트를 만들었습니다.

  • 검증자 품질이 병목으로 나타나고 있습니다: @Shahules786의 스레드는 에이전트 벤치마크 확장이 이제 작업 추가보다 검증자 품질 개선에 덜 의존하고 있음을 강조했으며, SWE-bench Verified, OSWorld-Verified, ComputerRL, BenchGuard를 인용합니다.

과학, 생물 모델 및 도메인별 시스템

  • Hugging Face, Carbon DNA 모델 릴리스: 가장 기술적으로 흥미로운 오픈 릴리스 중 하나는 Carbon으로, 생성 DNA 기초 모델 패밀리입니다. 팀은 Carbon-3B가 Evo2-7B와 일치하면서 추론에서 250–275배 빠르게 실행된다고 말합니다. 이는 단일 GPU에서 전체 인간 게놈을 2일 이내에 처리하기에 충분합니다. 주요 레시피 변경: 결정적인 6-mer 토큰화, 훈련 말기에 순수 교차 엔트로피를 대체하는 인수분해 손실 (FNS), 그리고 @LoubnaBenAllal1에 따른 기능 DNA + mRNA 데이터의 큐레이팅된 단계별 혼합. 릴리스는 모델, 훈련 코드, 평가, 데이터, 데모를 포함합니다.

  • Google이 과학 AI를 제품 카테고리로 밀어붙입니다: Google은 Gemini for Science를 소개했습니다. 연구원용 프로토타입 스위트: Literature Insights (NotebookLM을 통한 논문 합성), Hypothesis Generation (Co-Scientist 스타일 멀티 에이전트 "아이디어 토너먼트"), Computational Discovery (AlphaEvolve 및 ERA로 구축하여 병렬로 수천 개의 코드 변형을 생성하고 점수 매김). Google Research는 또한 ERA가 이제 Nature에 출판되었다고 언급했습니다 (Google Research).

  • 전문화된 사전 훈련은 지원을 얻고 있습니다: @pratyushmaini초기 노출 / 전문화된 사전 훈련이 망각에 대한 견고성을 개선한다는 증거를 지적했으며, 엔터프라이즈가 도메인 사용 사례에 진지한 경우 단순 포스트 훈련이 아니라 처음부터 맞춤형 모델을 훈련하는 것을 고려해야 한다고 주장했습니다.

안전, 거버넌스 및 내부 에이전트 모니터링

  • METR의 첫 번째 Frontier Risk Report: METRAnthropic, Google, Meta, OpenAI에 걸친 특별히 깊은 액세스를 기반으로 한 주요 새로운 보고서를 출시했으며, 모델 CoT 및 능력, 정렬 및 제어에 대한 비공개 정보를 포함합니다. 보고서는 랩이 자신의 내부 배포 에이전트에 대한 제어를 잃을 수 있는지에 초점을 맞추고 있으며 광범위한 부록 및 필사본을 포함합니다 (METR).

  • 내부 에이전트 모니터링은 이제 활발한 실무입니다: @idavidrein은 내부 AI 에이전트가 "폭주할 수 있는지" 감지하도록 설계된 시스템을 스트레스 테스트하면서 Anthropic에 매장된 한 달을 설명했습니다. 그가 언급한 주요 주의사항은 운동이 Anthropic에 민감한 정보를 수정할 재량을 허용했으므로, 그는 이를 형식적인 감사가 아닌 운동으로 구성하고 있다는 것입니다.

  • 새로운 안전 표준 조직: Steven AdlerGuidelight를 발표했으며, Page Hedley와 공동 설립한 새로운 AI 안전 표준 조직으로, 첫 두 표준을 출시했습니다. 데이터 세트의 트윗 스레드가 부분적이지만, 이 이동은 모델 평가가 아닌 운영 표준을 중심으로 필드가 전문화되고 있다는 또 다른 신호로 주목할 만합니다.

상위 트윗 (참여도별)

  • Karpathy가 Anthropic에 합류합니다: @karpathy

  • Google이 Gemini 3.5 모델 시리즈를 소개합니다: @Google

  • Google DeepMind가 Gemini Omni를 출시합니다: @GoogleDeepMind

  • Gemini 3.5 Flash GA (에이전트 및 코딩용): @Google

  • OpenAI 보장 용량: @OpenAI

  • Google의 24/7 개인 에이전트, Gemini Spark: @Google


The full keynote livestream was 2 hours, but as usual, The Verge has the best supercut down to 30 mins, which is very worthwhile to get a narrative sense:

The mainline Gemini 3.5 Flash is GA today (very nice compared to some staged rollouts) and is sold as a decent step up even compared to 3.1 Pro, with 3.5 Pro coming next month. Perhaps more impressive were the Gemini Live (Voice) and Omni (Video) and Google Pics/Flow (Images/VFX/music) modalities, where Google demonstrated industry leading capabilities and latency, all presumably made possible by industry leading hardware and models.

Per longstanding tradition at every bigtech keynote these days, Google also showed off some smart glasses tech, which seems a little more likely to be seen on the street than many prior iterations from both Google and their peers.

AI News for 5/18/2026-5/19/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews’ website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!


Google used I/O to reposition Gemini as both a consumer AI surface and a developer/agent platform, with three core technical announcements: Gemini 3.5 Flash for fast agentic/coding workloads, Gemini Omni for multimodal generation/editing starting with video, and a broader Antigravity agent stack spanning desktop/CLI/SDK/API. Official posts emphasized scale — Google says it now processes over 3.2 quadrillion tokens/month, up 7x YoY from 480T/month, while the Gemini app has 900M+ monthly users and is available in 230+ countries and 70+ languages (Google, Google, GeminiApp). The most technically substantive release was Gemini 3.5 Flash, framed by Google as its strongest agentic/coding model yet, GA immediately, with 1M-token context, 65k max output, 4 thinking levels (“minimal/low/medium/high”), and “thought preservation” across turns (GoogleDeepMind, Google, _philschmid). Google paired that with Gemini Omni, a new family combining Gemini reasoning with generative media, initially via Omni Flash, capable of taking text/image/video/audio inputs and producing video edits/generation in Gemini, Flow, Shorts, and later APIs (GoogleDeepMind, Google, GeminiApp). Around those models, Google launched or expanded Antigravity 2.0 desktop, CLI, SDK, Managed Agents in the Gemini API, Search-native generative UI/coding, Gemini Spark background agents on cloud VMs, and a long list of Gemini-app/Workspace/commerce/media integrations (Google, Google, Google).

  • Google says it now processes 3.2 quadrillion tokens/month, up from 480 trillion a year earlier (Google).

  • Google says Gemini has 900M+ monthly users (Google).

  • Google says Gemini 3.5 Flash is GA today across Gemini app, Search AI Mode, Gemini API, AI Studio, Antigravity, Android Studio, and enterprise surfaces (Google, GeminiApp).

  • Google says Gemini 3.5 Flash has 1M context, 65k max output, 4 thinking levels, and “thought preservation” across turns ( _philschmid).

  • Google says 3.5 Flash beats Gemini 3.1 Pro on Terminal-Bench 2.1, GDPval-AA, and MCP Atlas (GoogleDeepMind, Google).

  • Google says 3.5 Flash runs 4x faster than comparable frontier models, and up to 12x faster in Antigravity (Google, JeffDean).

  • Independent benchmarker Artificial Analysis reports Gemini 3.5 Flash scores 55 on its Intelligence Index, +9 vs Gemini 3 Flash, at >280 output tok/s, with MMMU-Pro 84%, GDPval-AA Elo 1656, and pricing of $1.50 / $9.00 per 1M input/output tokens; it also reports the model is 5.5x costlier to run than Gemini 3 Flash on its suite and 75% costlier than Gemini 3.1 Pro (ArtificialAnlys).

  • Arena reports Gemini 3.5 Flash reached #9 overall in Text Arena and #9 in Code Arena: Frontend, scoring 1507, a +70 jump over Gemini 3 Flash, and becoming the top score in its price tier (arena).

  • Google says Gemini Omni Flash is available in Gemini/Flow today for paid users, in Shorts/Create starting this week for free, and via APIs in coming weeks (Google).

  • Google says Spark runs on dedicated Google Cloud virtual machines, allowing long-running tasks while user devices are closed (Google).

  • Google claims an Antigravity + Gemini 3.5 Flash demo built a functioning OS in 12 hours using 93 parallel sub-agents, 15k+ model requests, 2.6B tokens, and < $1K API credits (Google).

  • Google says Search will use Antigravity + 3.5 Flash to generate custom visual tools/simulations on the fly (Google).

  • Positive takes: “Google is back,” “insane evals for a Flash model,” “world model towards AGI,” “mind blowing” for Search + Antigravity, etc. (kimmonismus, Kseniase_, demishassabis).

  • Neutral caution: some posters explicitly avoided overhyping due to self-reported benchmarks and noted pricing/perf concerns (scaling01, simonw).

  • Negative/skeptical takes focused on:

    • Price inflation relative to earlier Flash models (enricoros).

    • Comparisons where GPT-5.5-medium may be smarter/cheaper/faster end-to-end (scaling01, scaling01).

    • Benchmark caveats such as weak TerminalBench-Hard, mediocre MRCR / ARC-AGI-2, or not clearly beating Kimi/GLM on some slices (scaling01, teortaxesTex, scaling01).

    • Product naming/UX confusion around Gemini CLI vs Antigravity CLI and broader interface design criticism (zachtratar, kchonyc, teortaxesTex).

Google/DeepMind repeatedly described Gemini 3.5 Flash as the company’s strongest model yet for agents and coding, not its absolute flagship intelligence model. It’s meant to sit on the high-speed, high-utility part of the Pareto frontier, powering both Google products and developer workloads (GoogleDeepMind, Google, SundarPichai).

From Google and affiliated posts:

  • GA availability now (Google)

  • 1M token context window

  • 65k max output tokens

  • Thinking levels: minimal, low, medium (new default), high

  • Thought preservation across multi-turn conversations

  • Text output

  • Input modalities: text, image, video, speech per Artificial Analysis ( _philschmid, ArtificialAnlys)

  • Pricing: $1.50 / 1M input, $9.00 / 1M output, 90% discount on cached input (scaling01, ArtificialAnlys)

Official benchmark claims:

  • Terminal-Bench 2.1: 76.2%

  • GDPval-AA: 1656 Elo

  • MCP Atlas: 83.6%

  • Google-quoted multimodal result: MMMU-Pro 83.6% in one engineer post; Artificial Analysis reports 84%, highest recorded on its setup (koraykv, ArtificialAnlys)

Speed claims:

  • Google marketing claim: 4x faster than comparable frontier models (Google)

  • In Antigravity, Google says it is up to 12x faster (JeffDean, scaling01)

  • Artificial Analysis observed >280 output tok/s

  • Some discussion cited ~867 tok/s in Antigravity-specific optimized serving (scaling01, scaling01)

Third-party evaluation:

Arena:

  • #9 Text Arena

  • #9 Code Arena: Frontend

  • 1507 score, +70 over Gemini-3 Flash

  • Better than Gemini 3.1 Pro across categories in its frontend coding eval (arena, arena)

The notable shift is that Google appears to be using a “Flash” label for a model that, in prior cycles, would have been described more like a high-end product model optimized for deployment rather than simply a cheap lightweight tier. Several posters called this out directly, arguing Flash is becoming more expensive and possibly absorbing former Pro territory (enricoros, simonw).

The strongest technical signal is not “best absolute benchmark model,” but:

  1. material agentic gains

  2. extreme serving speed

  3. deep integration into product surfaces

  4. tooling built around subagents and long-horizon execution

That makes 3.5 Flash strategically important even if some competitors still win on raw price-adjusted intelligence in certain third-party comparisons.

Google introduced Gemini Omni as a new family merging Gemini reasoning/world knowledge with Google’s generative media stack, starting with video creation and editing. Official messaging described it as “create anything from any input,” but current rollout is narrower:

  • Inputs: text, images, audio, video

  • Initial output emphasis: video

  • Product availability: Gemini app, Flow, YouTube Shorts/Create, later APIs

  • Current shipping model: Gemini Omni Flash (GoogleDeepMind, Google, Google)

Google/DeepMind claims:

  • Better world understanding

  • More robust physics

  • Multi-turn editing where scene/character consistency is retained

  • Ability to “reimagine” user video footage with conversational edits (Google, Google)

Rollout specifics:

  • Paid Gemini users globally in app/Flow “today”

  • YouTube Shorts/Create rolling out “starting this week” at no cost

  • APIs for developers/enterprise in coming weeks (Google, GeminiApp)

  • Supportive: users and Google employees described Omni as a major quality step, especially for video editing and consistency (joshwoodward, fofrAI, osanseviero).

  • Strategic interpretation: several posters framed Omni as evidence Google is investing in world models and embodied/physical priors, not just text/code competition (demishassabis, jparkerholder, kimmonismus).

  • Skepticism: some UI/output examples drew criticism for looking like “B-tier video game interface” or too polished/template-like (teortaxesTex, shlomifruchter).

Omni matters less as “yet another video model” and more as Google’s attempt to unify:

This aligns with DeepMind’s long-running world-model agenda and Google’s product distribution advantage.

A major underappreciated I/O theme was that Google is no longer presenting agents as a thin wrapper around a chat model. Antigravity is becoming the execution substrate.

  • Antigravity 2.0 desktop app: agent-first desktop with core conversations, artifacts, multi-agent orchestration (Google, Google)

  • Antigravity CLI (Google, Google)

  • Antigravity SDK (Google)

  • Managed Agents in Gemini API: single API call gives an agent plus hosted Linux sandbox; supports Bash/Python/Node, files, browsing, custom markdown-defined skills, repo/GCS mounts (Google, GoogleAIStudio, _philschmid)

  • Integrations with AI Studio, Android, Firebase, Workspace, web (Google, Google)

  • One-click export from AI Studio to Antigravity (Google)

  • Native Android app generation in AI Studio / Android support in Antigravity (Google, AndroidDev)

Google’s own demos centered on parallel sub-agents, hosted execution, high-frequency iterative loops, and artifact-oriented workflows. Jeff Dean explicitly described 3.5 Flash as a strong engine for “deploy sub-agents that collaborate, run high-frequency iterative loops, and solve real-world problems at scale” (JeffDean).

The marquee proof point:

  • OS built in 12h

  • 93 parallel sub-agents

  • 15k+ requests

  • 2.6B tokens

  • < $1K credits (Google)

Even if this is mostly a stage-managed benchmark/demo, it reveals the architecture Google wants developers to adopt: many fast agents over one slow monolithic run.

  • Positive: this is Google’s answer to Codex/Claude Code/OpenClaw/Hermes-style workflows, with a stronger infra story (iScienceLuvr, theo).

  • Critical: branding and product sprawl remain confusing; some users aren’t sure whether they should use Gemini CLI or Antigravity CLI, and Google’s design choices drew complaints (kchonyc, zachtratar, teortaxesTex).

Google announced a redesigned AI-powered Search box, multimodal query support, and the most ambitious consumer-facing move: Search generating custom visual tools and simulations on the fly using Antigravity + Gemini 3.5 Flash (Google, Google).

It also previewed information agents in Search:

  • persistent monitoring tasks

  • web/news/social/real-time signals

  • synthesized updates with links and actions

  • rolling out to Pro/Ultra this summer (Google, Google)

This is a notable strategic shift: Search moves from retrieval/ranking to background agentic monitoring + generated applets.

Consumer Gemini updates included:

  • new “Neural Expressive” design language (Google)

  • inline/instant Gemini Live voice (Google)

  • Daily Brief personalized digest from inbox/calendar/tasks (Google, GeminiApp)

  • Gemini Spark as a 24/7 personal AI agent on cloud VMs, checking with users before major actions (Google, GeminiApp)

  • macOS app + upcoming Spark/voice desktop workflows (Google, GeminiApp)

Google introduced a new pricing ladder:

This reads as a more aggressive bid for premium power users, especially coders and creators.

Google pushed SynthID across Search, Gemini, Chrome, and hardware/media surfaces, and announced partnerships with OpenAI, NVIDIA, Kakao, and ElevenLabs to bring SynthID to their generated content (Google, Google).

That is one of the more consequential standards moves from I/O:

  • it gives Google a shot at owning part of the provenance layer for generative media;

  • notably, OpenAI separately announced support for checking OpenAI-generated images via SynthID watermark + C2PA credentials (OpenAI).

This was less flashy than Omni/3.5 Flash, but likely more durable if provenance becomes mandatory infrastructure.

Several I/O items reinforced that Google does not want to compete only on coding/chat:

This broader context explains why some observers interpreted Omni as “world-model progress” rather than just a content tool (demishassabis, jparkerholder).

  • Gemini 3.5 Flash viewed as a major leap for a speed-tier model, especially on agentic coding (kimmonismus, SundarPichai).

  • Search + Antigravity seen as potentially transformative because Google can deploy generated UI/tools at enormous scale (Kseniase_, TheTuringPost).

  • Omni praised for editing quality and for hinting at a deeper world-model roadmap (joshwoodward, kimmonismus).

  • Concern that Google is leaning on self-reported benchmarks, and independent comparisons still leave room for competitors (scaling01).

  • Concern that “Flash” is no longer cheap enough to justify the name; pricing has climbed sharply from prior Flash generations (enricoros, simonw).

  • Some believed GPT-5.5-medium still dominates on a combined smart/cheap/latency basis (scaling01).

  • Some benchmark slices imply unevenness — e.g. poor TerminalBench-Hard or middling reasoning metrics despite strong agentic numbers (scaling01, teortaxesTex).

  • Artificial Analysis gave the strongest balanced take: excellent speed-intelligence frontier position, substantial agentic gains, but materially worse cost than prior Flash and even higher than 3.1 Pro on their end-to-end suite (ArtificialAnlys).

  • Arena’s data also supports a “real improvement, not just marketing” conclusion, especially for frontend/code tasks, without claiming category dominance (arena).

  1. Google now has a coherent deployment story.
    Earlier Gemini cycles often felt benchmark-heavy and product-fragmented. At I/O, Google tied model, infra, tools, APIs, consumer surfaces, and enterprise rollout together.

  2. The center of gravity is shifting from chatbot UX to agent execution.
    The important primitives were not just model IQ: they were subagents, hosted sandboxes, long-running tasks, generated artifacts, and integration with Search/Workspace/Android.

  3. Gemini 3.5 Flash suggests “fast enough to orchestrate many agents” may matter more than max benchmark score.
    For coding and tool use, throughput and latency are increasingly product-defining.

  4. Omni reveals Google’s differentiation thesis.
    Google is betting on multimodal/world-grounded systems rather than purely text-centric competition.

  5. Trust/provenance is becoming platform infrastructure.
    SynthID partnerships with OpenAI/NVIDIA/ElevenLabs/Kakao suggest some convergence around content-auth provenance layers.

  6. The biggest unresolved question is economics.
    Technically strong or not, 3.5 Flash drew substantial pushback on cost inflation. If “Flash” is no longer the cheap workhorse tier, Google may win on capability deployment while losing some developer mindshare on predictability and pricing simplicity.

Talent, Labs, and Ecosystem Moves

  • Karpathy joins Anthropic: The day’s most engaged AI tweet was Andrej Karpathy’s announcement that he has joined Anthropic to “get back to R&D.” The tweet dominated discussion, with subsequent speculation from @scaling01 citing Axios that he’ll work on RSI/autoresearch and start a new pretraining-focused effort. While the details remain unconfirmed by Anthropic, the move was widely interpreted as a major talent win for Anthropic.

  • OpenAI capacity products: OpenAI announced Guaranteed Capacity, a commercial offering that lets customers secure long-term compute access for critical workloads. Sam Altman framed it as a response to a world that will remain capacity constrained as models become more useful, offering discounted tokens for 1–3 year commits.

  • GitHub and coding toolchain integrations: GitHub said Gemini 3.5 Flash is rolling out in Copilot, citing strong tool use, fast response times, and cache efficiency for iterative agentic coding. Cursor launched integration with Jira, allowing cloud agents to take work items and create merge-ready PRs. Code/VS Code also announced Gemini 3.5 Flash availability.

Training Algorithms, Benchmarks, and Agent Evaluation

  • RL/post-training discussion is shifting toward denser credit assignment: @nrehiew_ argued that the next scalable training breakthrough may build on GRPO but with denser, lower-bias credit assignment, citing directions like ECHO, Composer2, self-distillation, and OPD. @lateinteraction countered with a “pedagogical RL” framing: train a self-teacher that samples correct and easy-to-follow rollouts.

  • Can coding agents do research? Not yet: Intology AI released NanoGPT-Bench, an autonomous benchmark based on the NanoGPT Speedrun competition, testing whether coding agents can contribute to real AI R&D progress. Their headline result: Codex, Claude Code, and Autoresearch recover only 9.3% of human progress, mostly via hyperparameter tuning rather than algorithmic innovation.

  • Agent harnesses and memory are getting more formalized: @omarsar0 highlighted a 100+ page survey on code-as-agent-harness, arguing future systems need to be executable, inspectable, stateful, and governed. François Chollet made the related point that real tasks are rarely Markovian, so agents without high-fidelity trajectory compression are dramatically less useful.

  • Verifier quality is emerging as a bottleneck: Threads from @Shahules786 emphasized that scaling agent benchmarks now depends less on adding tasks and more on improving verifier quality, citing SWE-bench Verified, OSWorld-Verified, ComputerRL, and BenchGuard.

Science, Biology Models, and Domain-Specific Systems

  • Hugging Face releases Carbon DNA models: One of the most technically interesting open releases was Carbon, a family of generative DNA foundation models. The team says Carbon-3B matches Evo2-7B while running 250–275x faster at inference, enough to process the whole human genome on a single GPU in under two days. The key recipe changes: deterministic 6-mer tokenization, a factorized loss (FNS) replacing plain cross-entropy late in training, and curated staged mixtures of functional DNA + mRNA data per @LoubnaBenAllal1. The release includes models, training code, evals, data, and a demo.

  • Google pushes AI for science as a product category: Google introduced Gemini for Science, a suite of prototypes for researchers: Literature Insights (paper synthesis via NotebookLM), Hypothesis Generation (a Co-Scientist-style multi-agent “idea tournament”), and Computational Discovery (built with AlphaEvolve and ERA to generate and score thousands of code variants in parallel). Google Research also noted that ERA has now been published in Nature (Google Research).

  • Specialized pretraining is gaining support: @pratyushmaini pointed to evidence that early exposure / specialized pretraining improves robustness to forgetting, arguing that enterprises serious about domain use cases should consider training custom models from scratch, not just post-training.

Safety, Governance, and Monitoring of Internal Agents

  • METR’s first Frontier Risk Report: METR published a major new report based on unusually deep access across Anthropic, Google, Meta, and OpenAI, including model CoTs and non-public information about capabilities, alignment, and control. The report focuses on whether labs could lose control of their own internally deployed agents and includes extensive appendices and transcripts (METR).

  • Monitoring internal agents is now an active practice: @idavidrein described spending a month embedded at Anthropic stress-testing systems designed to detect whether internal AI agents could “go rogue.” A key caveat he noted is that the exercise allowed Anthropic discretion to redact sensitive information, so he frames it as an exercise rather than a formal audit.

  • New safety standards org: Steven Adler announced Guidelight, a new AI safety standards organization co-founded with Page Hedley, releasing its first two standards. While the tweet thread in the dataset is partial, the move is notable as another sign of the field professionalizing around operational standards, not just model evals.

Top tweets (by engagement)

  • Karpathy joins Anthropic: @karpathy

  • Google introduces the Gemini 3.5 model series: @Google

  • Google DeepMind launches Gemini Omni: @GoogleDeepMind

  • Gemini 3.5 Flash GA for agents and coding: @Google

  • OpenAI Guaranteed Capacity: @OpenAI

  • Google’s 24/7 personal agent, Gemini Spark: @Google


원문 보기 https://www.latent.space/p/ainews-google-io-2026-gemini-35-flash