AI·News
뒤로

[AI뉴스] OpenAI GPT-next, 80년 된 Erdős 평면 단위 거리 추측을 1000달러 미만으로 증명

[AINews] OpenAI GPT-next disproves 80 year old Erdős planar unit distance problem for under $1000

우리는 SpaceXAI IPO 신청의 보도는 실제 IPO 당일을 위해 미루겠습니다. 오늘 우리는 OpenAI의 결과를 축하합니다. 추정에 따르면 GPT 5.6이 32시간 미만 또는 $1000 미만으로 실행되며, 평면 단위 거리 문제에 대한 것입니다. 2025년의 IMO Gold 결과와 유사하게, 이는 일반 목적의 LLM이며, AlphaProof/Lean 스타일의 전용 모델이 아닙니다. 이는 이러한 확장된 추론이 수학을 넘어 일반화될 것이라는 희망을 제시합니다:

125페이지의 출력 중에 "39페이지 모멘트"가 있으며, 이것이 주목을 받고 있습니다:

의견서의 저자들이 지적하듯이, 이것은 증명이 아닌 반박이며, 이것이 더 인상적이었을 것이지만, 여전히 다가올 일의 방향을 시사합니다:

2026년 5월 4일~5월 5일 AI 뉴스입니다. 우리는 12개의 서브레딧, 544개의 트위터를 확인했으며 추가 Discord는 없습니다. AINews 웹사이트에서는 모든 과거 이슈를 검색할 수 있습니다. 상기하듯이, AINews는 이제 Latent Space의 한 섹션입니다. 이메일 빈도에서 옵트인/옵트아웃할 수 있습니다!


OpenAI의 에르되시 단위 거리 문제에 대한 수학 혁신

  • 범용 추론 모델이 이산 기하학에서 새로운 연구 결과를 산출했습니다: OpenAI는 내부 모델이 1946년의 유명한 에르되시 문제인 평면 단위 거리 문제에 대한 오랫동안 믿어온 가정을 반박했다고 발표했으며, 정사각형 그리드 스타일 솔루션을 개선하는 새로운 구성 패밀리를 발견했습니다. @OpenAI. OpenAI는 이것이 범용 모델이며, 도메인 특화 수학 시스템이나 스캐폴딩된 솔버가 아니라고 강조했습니다. @OpenAI, 그리고 이 결과가 과학 전반에 걸쳐 더 강한 장기 추론을 시사한다고 말했습니다. @OpenAI.

  • 이 결과는 수학자와 인접한 연구자들로부터 비정상적으로 강력한 검증을 얻었습니다. Timothy Gowers는 이것을 AI가 잘 알려진 오픈 수학 문제를 푸는 첫 번째 정말 명확한 사례라고 불렀습니다. @wtgowers, OpenAI 연구자 Hongxun Wu는 이를 "가장 어려운 문제"에 대한 내부 추론 LLM의 이정표로 설명했습니다. @HongxunWu. @thomasfbloom, @gdb, @alexwei_, 그리고 @polynoamial의 추가 반응들은 동일한 요점으로 수렴했습니다: 이것은 이전의 "AI가 올림피아드 수학을 푼다" 이정표를 질적으로 넘어선 것으로 보입니다.

  • 주목할 기술적 뉘앙스: OpenAI는 모델이 한계까지 밀려나지 않았으며 결국 공개 사용을 위해 의도되었다고 말합니다. @polynoamial. 발표된 추론 요약 자체는 보도된 바에 따르면 거대하며—약 125페이지입니다. @voooooogel—이것은 프론티어 추론에서 테스트 타임 계산의 실질적인 역할에 대한 논의를 촉발했습니다. 일부 관찰자들은 이를 추론 시간 스케일링이 현재 진전을 주도하는 패러다임이라는 추가 증거로 명시적으로 표현했습니다. @arohan, 다른 사람들은 형식 과학과 수학에서의 더 빠른 미래 이득으로 외삽했습니다. @scaling01, @sama.

Cohere Command A+ 오픈 릴리스 및 아키텍처 논의

  • Cohere가 Command A+를 Apache 2.0 오픈 가중치로 릴리스했습니다. 이를 지금까지 가장 강력한 모델로 포지셔닝하고 낮은 하드웨어 요구사항에 최적화되었다고 명시적으로 기재했습니다. @cohere, 라이선스는 후속 글에서 명확히 했습니다. @cohere. 이 릴리스는 Cohere의 첫 번째 완전히 오픈 Apache 2 모델이기 때문에 중요합니다. @aidangomez. 커뮤니티 반응은 더 허용적이고 배포 가능한 엔터프라이즈급 오픈 모델로의 의미 있는 전환에 초점을 맞추었습니다. @nickfrosst, @ClementDelangue.

  • 모델 세부사항은 여러 게시물에 반복되었습니다: 대략 218B MoE / 25B 활성, 멀티모달, 48개 언어, 그리고 상대적으로 겸손한 설정에서 실행 가능합니다. @JayAlammar, @mervenoyann. vLLM 첫날 지원이 빠르게 착륙했으며, 2× H100s at W4A4만으로 실행할 수 있다는 메모가 포함되었습니다. @vllm_project.

  • 벤치마크는 혼합되지만 신뢰할 수 있는 그림을 제시했습니다: Artificial Analysis는 Command A+를 지능 지수에서 37로 배치했으며, 대략 Claude 4.5 Haiku 영역이며, 특히 강력한 환각 없는 행동과 양호한 속도가 있지만 상위 동료 모델보다 약한 과학적 추론과 코딩이 있습니다. @ArtificialAnlys. 커뮤니티는 또한 아키텍처를 파헤쳤습니다: 호출된 비정상적인 선택에는 병렬 트랜스포머 블록, 많은 공유 전문가 사용, RMSNorm보다 LayerNorm, 상대적으로 낮은 32층 깊이, 그리고 비정형 헤드/전문가 구성이 포함됩니다. @eliebakouch, @rasbt, @stochasticchasm. 이것은 릴리스를 모델 드롭일 뿐만 아니라 아키텍처 데이터 포인트로 주목할 수 있게 만들었습니다.

에이전트, 메모리, 과학적 워크플로우를 위한 벤치마크

  • InferenceBench는 이날의 기술적으로 가장 실질적인 릴리스 중 하나입니다. 이는 AI R&D 자동화를 통한 개방형 추론 최적화 작업을 목표로 하며, 헤드라인은 현재 프론티어 에이전트에 부정적입니다: 그들은 시스템 수준 엔지니어링, 의존성 관리, 그리고 광범위한 탐색으로 어려움을 겪으며, vLLM/SGLang 하이퍼파라미터 튜닝의 간단한 기준선보다 실패합니다. @maksym_andr. 스레드는 또한 명백한 역 스케일링 효과를 보도합니다. 여기서 Claude Sonnet 4.6GLM-5와 같은 모델은 강력한 최종 상태를 보존하기 때문에 잘 순위를 매기며, 더 큰 모델은 종종 취약한 최종 구성을 생성합니다.

  • Terminal-Bench Science는 에이전트 평가를 코딩에서 실제 과학적 워크플로우로 확장하며, 작업 기여는 이제 개방되어 있습니다. @StevenDillmann. 병행해서, MINTEval은 빈번한 업데이트 및 간섭 하의 장문맥 메모리 시스템을 목표로 합니다: 평균 인스턴스 길이는 138.8k 토큰이며 최대 1.8M에 도달하지만, 7개 시스템 전반에 평균 정확도는 단지 27.9%이며, 최고는 33.4%입니다. @hyunji_amy_lee. 이는 메모리가 RAG/컨텍스트 스터핑이 아닌 전용 학습 서브시스템이어야 한다고 주장하는 성장하는 작업 라인을 보완합니다. @dair_ai.

  • 상호작용 연구의 인간적 측면에서, ThoughtTrace는 실제 LLM 대화 중 사용자의 자체 보고 생각의 대규모 데이터셋을 도입했습니다: 10,174개 생각 주석, 2,155개 다중 턴 대화, 1,058명 사용자, 20개 모델. 보도된 이득은 사용자 행동 예측의 경우 +41.7%이고 정렬의 경우 +25.6%입니다. @chuanyang_jin. 이것은 대화 로그만으로는 놓치는 "잠재 사용자 상태"를 계측하는 더 구체적인 시도 중 하나입니다.

Google I/O 후속: Gemini 3.5 Flash, Omni, AI Studio, 그리고 Antigravity

  • Gemini 3.5 Flash는 Gemini 앱에서 더 광범위하게 출시되기 시작했으며, 전 세계적으로 무료 접근을 포함합니다. @GeminiApp, @GeminiApp. Google은 이를 에이전틱 및 코딩 모델로서 가장 강력한 모델로 포지셨으며, 비교 가능한 모델의 속도가 4배이고 비용이 절반 이하라고 주장했습니다. @Google. 그러나 외부 논의는 훨씬 더 혼합되었으며, 호의적인 출시 단계 벤치마크 포지셔닝에도 불구하고 여러 게시물이 실제 비용/성능과 토큰 효율을 의문시했습니다. @ArtificialAnlys, @scaling01, @giffmana.

  • Gemini Omni는 3.5 Flash보다 더 큰 질적 인상을 주었던 것 같습니다. Google은 이를 비디오 및 혼합 입력 워크플로우를 위한 대화형 멀티모달 생성/편집 모델로 포지셨습니다. @Google, Gemini 앱 데모는 대화형 비디오 편집을 보여주었습니다. @GeminiApp. 초기 반응은 일반적으로 Omni를 핵심 LLM 새로고침보다 더 차별화된 제품으로 다루었습니다. @scaling01.

  • 도구에서, AI Studio는 엔드투엔드 개발자 워크플로우와 모바일 접근으로 더 열심히 밀어냈습니다. @GoogleAIStudio, 여러 게시물은 Gemini Spark, Antigravity, 그리고 Google의 내부/외부 에이전트 하네스 간의 관계를 해석하려고 시도했습니다. @simonw, @_philschmid. 더 구체적인 Antigravity 인접 업데이트는 Google의 에이전트 스택을 위한 Science Skills 출시였으며, UniProtAlphaFold DB와 같은 30+ 생명 과학 소스를 통합했습니다. @GoogleDeepMind.

에이전트 인프라, 검색, 그리고 개발 도구

  • 여러 게시물은 동일한 운영 교훈에 수렴했습니다: 에이전트는 데모에서 실패하기 전에 인프라 현실에서 실패합니다. 이 주제는 의존성 충돌과 구성으로 싸우는 연구 에이전트에 대한 질적 스레드에서 나타나며, @jehyeoky248, LangChain의 LangSmith Sandboxes GA에 대한 푸시에서, @LangChain, 그리고 pure 도구 실행과 완전한 샌드박스 사이의 중간 지점으로서 deepagents를 위한 더 가벼운 코드 인터프리터 지원의 더 새로운 것에서입니다. @sydneyrunkle, @hwchase17.

  • 검색/검색 인프라에서, Perplexity는 컨텍스트 토큰을 최대 70% 줄이면서 답변 품질을 개선하고 50배 압축을 SimpleQA에서 프론티어 수준의 성능으로 주장하는 생산화된 쿼리 인식, 인용 보존 컨텍스트 압축 시스템을 설명했습니다. @perplexity_ai. Weaviate 1.37은 RAG/에이전트를 위한 벡터 검색의 다양성을 개선하기 위해 MMR 리랭킹을 추가했습니다. @weaviate_io, SID-1RAG+리랭크보다 1.9배 회수, 24배 더 빠름, 그리고 인용된 설정에서 GPT-5.1보다 99% 더 저렴한 RL-훈련된 에이전틱 검색 모델로 제시되었습니다. @turbopuffer.

  • Cursor, VS Code, 그리고 Codex는 모두 주목할 만한 워크플로우 업데이트를 배송했습니다. Cursor는 에이전트 워크스페이스에 자동화를 추가했습니다. @cursor_ai, VS Code는 더 나은 마크다운/HTML 미리보기, 원격 세션 연속성, 그리고 유틸리티 모델 구성 가능성을 배송했습니다. @code, @pierceboggan. 모델 측면에서, Composer 2.5는 최상위 Opus/GPT-5.5 변종보다 훨씬 낮은 비용으로 강력한 코딩 에이전트 쇼를 게시했습니다 - Artificial Analysis 코딩 에이전트 지수에서 62입니다. @ArtificialAnlys. OpenAI는 또한 모바일에 Codex를 배송했습니다. @OpenAIDevs.

상위 트윗 (참여도별)

  • OpenAI 수학 이정표: OpenAI의 단위 거리 혁신 발표는 과학적 참신함과 장기 추론에 관해 의미하는 것 모두에 대해 집합에서 가장 중요한 기술 게시물이었습니다. @OpenAI.

  • Cohere Command A+ 오픈 릴리스: 주로 Apache 2.0 라이선스와 비정상적인 아키텍처 때문에 이날의 가장 큰 모델 릴리스 스토리 중 하나였습니다. @cohere.

  • SpaceX/Colossus를 통한 Anthropic 컴퓨팅 확장: Anthropic은 보도에 따르면 Colossus 2 용량으로 확장되고 있으며, @nottombrown, 후속 게시물은 신청서가 SpaceX 컴퓨팅 계약을 2029년 5월까지 월 $1.25B로 평가한다고 인용했습니다. @SemiAnalysis_.

  • Exa 펀딩: Exa는 $2.2B 가치 평가로 Series C에서 $250M을 모금했으며, 명시적으로 자신을 에이전트를 위해 웹 데이터를 구성하는 검색 랩으로 포지셨습니다. @ExaAILabs.


  • Qwen이 열심히 요리 중입니다 (활동: 1292): 이미지는 Qwen이 "열심히 요리 중"이라고 놀리는 Chujie Zheng의 스크린샷이며, Qwen3.7 Preview가 이제 Arena에 있고 Qwen3.7-Max-Preview와 Qwen3.7-Plus-Preview가 있다는 발표를 인용합니다; 게시물은 Alibaba가 텍스트에서 #6이고 비전에서 #5라고 주장합니다. 맥락에서, Reddit 제목/셀프텍스트는 사용자들이 더 크고 새로운 오픈 가중치 모델을 기대하고 있음을 나타냅니다—특히 122B와 새로운 27B—스크린샷 자체는 주로 기술적 벤치마크 분해보다는 티저입니다. 이미지 댓글자들은 최고급 모델에 대한 흥분과 낮은 하드웨어를 위한 더 작은 로컬 모델에 대한 실질적인 관심 사이에서 분열되었습니다: 일부는 9B/4B 변종을 원하고 있으며 다른 것들은 122B, 더 나은 35B, 또는 Qwen이 곧 그들의 GPU를 "요리"할 것이라고 농담을 했습니다.

    • 여러 댓글자들은 현재 27B 릴리스보다는 모델 크기 적용 범위에 초점을 맞추었으며, 그들이 실질적으로 실행할 수 없으며 낮은 하드웨어 또는 랩톱 GPU를 위해 더 작은 Qwen 4B/9B 변종을 희망하고 있다고 말했습니다. 더 큰 122B 및 개선된 35B 체크포인트에 대한 관심도 있었지만, 한 댓글자는 Qwen 3.6 주변 이전 122B 언급이 구현되지 않았으며, Qwen 3.7 122B가 실제로 배송될지에 대한 불확실성을 제기했습니다.

  • Artificial Analysis로 채점된 Qwen3.7 Max, 27B/35B 대기 중 (활동: 553): Reddit 게시물은 Qwen3.7 Max가 5위 순위를 매기는 Artificial Analysis 리더보드 스크린샷을 강조하며, 대략 GPT 5.4 (xhigh)와 레벨이며 Gemini 3.5 Flash보다 약간 앞입니다. 저자는 Qwen3.6 27B가 Max 동료보다 정확히 6포인트 뒤쳐져 있으며 향후 Qwen3.7 27B/35B 변종이 Max 모델의 성능 근처에 착륙하기를 바란다고 기재합니다. 댓글자들은 주로 "오픈 가중치 모델을 열심히 기다리고 있으며" 점수를 주요 실험실과 이제 경쟁하고 있는 Qwen 팀에 대한 증거로 봅니다. Max 모델이 오픈 소스가 아니라는 우려에도 불구하고. 제기된 한 가지 기술적 우려는 Qwen이 이전의 "overthinking" 경향을 고쳤는지 여부입니다.

    • 댓글자들은 Qwen3.7 MaxQwen3.5/Qwen3.6 아키텍처의 진정한 아키텍처 업데이트인지 또는 다른 finetuned/반복인지에 초점을 맞추었습니다; 하나는 동일한 기본 아키텍처에서 더 많은 성능을 추출하는 것이 여전히 기술적으로 주목할 만할 것이라고 기재했습니다.

    • 여러 사용자들은 잠재적 오픈 가중치 27B/35B 변종을 기다리고 있지만, 한 댓글자는 "Qwen 3.7" 가능성이 전체 공개 모델 패밀리 대신 Qwen 3.6 390B A30B와 유사한 비공개 대형 모델일 수 있다고 추측했습니다.

    • 제기된 기술적 우려는 Qwen 팀이 모델의 보고된 "overthinking" 행동을 다루었는지 여부였으며, 추론-토큰 효율성, 응답 지연, 그리고 제어 가능성보다는 단지 벤치마크 이득의 개선에 대한 관심을 의미합니다.

  • Qwen이 높은 확률로 또 다른 27B를 릴리스할 것입니다 (활동: 1162): 이미지는 xiong-hui (barry) chen이 Qwen이 "정확한 로드맵을 기다리고 있다"고 하지만 높은 확률로 또 다른 27B 릴리스가 있을 것으로 생각한다고 하는 X/트위터 교환의 스크린샷입니다. 게시물 제목에 의해 높이 평가된 Qwen 3.6 27B에 대한 가능한 후속로 프레이밍되었습니다. 기술적 의의는 대형 MoE 모델로만 스케일하는 것보다는 중간 크기 조밀 모델 범위에서 매개변수 효율성 / "인텔리전스 밀도"를 최적화하는 것에 대한 Qwen의 계속 추측입니다. 댓글자들은 주로 로컬 추론 실질성에 대해 논의합니다: 일부는 더 큰 122B-A10B MoE 모델을 원하고 있으며, 다른 것들은 16GB VRAM 사용자를 위해 27B는 너무 무거우며 35B/A3B-스타일 MoE가 하이브리드 CPU/GPU 설정 또는 소비자 게이밍 랩톱에서 더 실질적이라고 주장합니다.

    • 여러 댓글자들은 27B 모델 주변의 로컬 추론 격차를 논의했습니다: 16GB VRAM을 가진 사용자들은 27B 모델이 사용 가능한 양자화 수준에서 실행하기 어렵다고 논쟁했지만, 하이브리드 CPU/GPU 추론을 통해 더 실질적이고 게이밍 랩톱에 접근 가능하게 유지될 수 있는 가설적 Qwen 35B MoE / A3B-스타일 모델.

    • 더 큰 조밀 Qwen 변종에 대한 관심이 있었으며, 특히 50B80B, 한 댓글자는 Qwen 27B가 이미 MTP로 매우 빠르다고 기재했으며 잠재적으로 더 나은 품질을 위해 일부 생성 속도를 거래할 것입니다.

    • 모델 크기 요청은 MoE 및 조밀 스케일링 경로 모두를 중심으로 클러스터링했습니다: 제안된 목표는 Qwen 3.7 122B-A10B, 50B80B MoE, 그리고 조밀 10B, 20B, 30B, 50B, 또는 80B 릴리스를 포함했으며, 고품질과 로컬로 실행 가능한 계층 모두에 대한 수요를 반영합니다.

We will leave coverage of the SpaceXAI IPO filing for the actual day of IPO. Today we celebrate OpenAI’s result, speculated to be GPT 5.6 running for <32 hours or <$1000, on the planar unit distance problem. Similar to the 2025 IMO Gold result, this is a general purpose LLM, not an AlphaProof/Lean style dedicated model, which lends hope that this extended reasoning will generalize beyond math:

Among the 125 pages of output, there exists a “page 39 moment” that is getting some attention:

As the authors of the opinion letter note, this is a disproof, not a proof, which would have been more impressive, but nevertheless points towards the way of things to come:

AI News for 5/4/2026-5/5/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews’ website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!


OpenAI’s Math Breakthrough on the Erdős Unit Distance Problem

  • A general-purpose reasoning model produced a new research result in discrete geometry: OpenAI announced that an internal model disproved a long-standing belief around the planar unit distance problem, a famous Erdős problem from 1946, discovering a new family of constructions that improves on square-grid-style solutions @OpenAI. OpenAI emphasized this was a general-purpose model, not a domain-specific math system or scaffolded solver @OpenAI, and said the result points to stronger long-horizon reasoning for science broadly @OpenAI.

  • The result drew unusually strong validation from mathematicians and adjacent researchers. Timothy Gowers called it the first really clear example of AI solving a well-known open math problem @wtgowers, while OpenAI researcher Hongxun Wu described it as an internal reasoning-LLM milestone on “the hardest problems” @HongxunWu. Additional reactions from @thomasfbloom, @gdb, @alexwei_, and @polynoamial converged on the same point: this appears qualitatively beyond prior “AI does olympiad math” milestones.

  • Notable technical subtext: OpenAI says the model was not pushed to the limit and is intended for eventual public use @polynoamial. The published reasoning summary itself is reportedly massive—around 125 pages per @voooooogel—which helped fuel discussion about the practical role of test-time compute in frontier reasoning. Some observers explicitly framed this as further evidence that inference-time scaling is the paradigm carrying current progress @arohan, with others extrapolating to faster future gains in formal science and mathematics @scaling01, @sama.

Cohere Command A+ Open Release and Architecture Discussion

  • Cohere released Command A+ as Apache 2.0 open weights, positioning it as its most powerful model yet and explicitly optimized for low hardware requirements @cohere, with the licensing clarified in a follow-up @cohere. The release is significant partly because it is Cohere’s first fully open Apache 2 model per @aidangomez. Community reaction focused on this as a meaningful shift toward more permissive, deployable enterprise-grade open models @nickfrosst, @ClementDelangue.

  • The model details repeated across multiple posts: roughly 218B MoE / 25B active, multimodal, 48 languages, and runnable on relatively modest setups @JayAlammar, @mervenoyann. vLLM day-0 support landed quickly, including a note that it can run on as little as 2× H100s at W4A4 @vllm_project.

  • Benchmarks painted a mixed but credible picture: Artificial Analysis placed Command A+ at 37 on its Intelligence Index, around Claude 4.5 Haiku territory, with especially strong non-hallucination behavior and decent speed, but weaker scientific reasoning and coding than top peer models @ArtificialAnlys. The community also dug into the architecture: unusual choices called out include a parallel transformer block, large shared expert usage, LayerNorm over RMSNorm, relatively low 32-layer depth, and atypical head/expert configurations @eliebakouch, @rasbt, @stochasticchasm. This made the release notable not just as a model drop but as an architectural data point.

Benchmarks for Agents, Memory, and Scientific Workflows

  • InferenceBench is one of the day’s most technically substantive releases. It targets AI R&D automation through open-ended inference optimization tasks, and the headline is negative for current frontier agents: they struggle with system-level engineering, dependency management, and broad exploration, underperforming a simple baseline of vLLM/SGLang hyperparameter tuning @maksym_andr. The thread also reports an apparent inverse scaling effect, where models like Claude Sonnet 4.6 and GLM-5 rank well because they preserve robust final states, while larger models often produce brittle end configurations.

  • Terminal-Bench Science extends agent evaluation from coding into real scientific workflows, with task contributions now open @StevenDillmann. In parallel, MINTEval targets long-context memory systems under frequent updates and interference: average instance length is 138.8k tokens with up to 1.8M, yet across 7 systems the average accuracy is only 27.9%, with the best at 33.4% @hyunji_amy_lee. This complements a growing line of work arguing that memory should be a dedicated learned subsystem rather than just RAG/context stuffing @dair_ai.

  • On the human side of interaction research, ThoughtTrace introduced a large-scale dataset of users’ self-reported thoughts during real LLM conversations: 10,174 thought annotations, 2,155 multi-turn conversations, 1,058 users, 20 models. Reported gains include +41.7% for user behavior prediction and +25.6% for alignment @chuanyang_jin. This is one of the more concrete attempts to instrument the “latent user state” that conversation logs alone miss.

Google I/O Follow-Through: Gemini 3.5 Flash, Omni, AI Studio, and Antigravity

  • Gemini 3.5 Flash began broader rollout in the Gemini app, including free access globally @GeminiApp, @GeminiApp. Google framed it as its strongest agentic and coding model yet, claiming frontier performance at 4× the speed of comparable models and under half the cost @Google. However, external discussion was much more mixed, with multiple posts questioning real-world cost/performance and token efficiency despite favorable launch-stage benchmark positioning @ArtificialAnlys, @scaling01, @giffmana.

  • Gemini Omni appears to have made the bigger qualitative impression than 3.5 Flash. Google positioned it as a conversational multimodal creation/editing model for video and mixed-input workflows @Google, with Gemini app demos showing conversational video editing @GeminiApp. Early reactions generally treated Omni as a more differentiated product than the core LLM refresh @scaling01.

  • On tooling, AI Studio pushed harder toward end-to-end developer workflow and mobile access @GoogleAIStudio, while several posts tried to decode the relation between Gemini Spark, Antigravity, and Google’s internal/external agent harnesses @simonw, @_philschmid. A more concrete Antigravity-adjacent update was the launch of Science Skills for Google’s agent stack, integrating 30+ life-science sources such as UniProt and AlphaFold DB @GoogleDeepMind.

Agent Infrastructure, Retrieval, and Dev Tooling

  • Several posts converged on the same operational lesson: agents fail on infra reality before they fail on demos. That theme shows up in the qualitative thread on research agents fighting dependency conflicts and configs @jehyeoky248, in LangChain’s push for LangSmith Sandboxes GA @LangChain, and in newer lighter-weight code interpreter support for deepagents as a middle ground between pure tool execution and full sandboxes @sydneyrunkle, @hwchase17.

  • In retrieval/search infra, Perplexity described a productionized query-aware, citation-preserving context compression system that cuts context tokens by up to 70% while improving answer quality, and claims 50× compression on SimpleQA at frontier-level performance @perplexity_ai. Weaviate 1.37 added MMR reranking to improve diversity in vector retrieval for RAG/agents @weaviate_io, while SID-1 was presented as an RL-trained agentic search model with 1.9× recall over RAG+rerank, 24× faster, and 99% cheaper than GPT-5.1 in the cited setup @turbopuffer.

  • Cursor, VS Code, and Codex all shipped notable workflow updates. Cursor added automations in the agents workspace @cursor_ai, VS Code shipped better markdown/HTML previews, remote session continuity, and utility-model configurability @code, @pierceboggan. On the model side, Composer 2.5 posted a strong coding-agent showing—62 on the Artificial Analysis Coding Agent Index at much lower cost than top Opus/GPT-5.5 variants @ArtificialAnlys. OpenAI also shipped Codex on mobile @OpenAIDevs.

Top Tweets (by engagement)

  • OpenAI math milestone: OpenAI’s announcement of the unit-distance breakthrough was the most consequential technical post in the set, both for scientific novelty and for what it implies about long-horizon reasoning @OpenAI.

  • Cohere Command A+ open release: One of the largest model-release stories of the day, mainly because of the Apache 2.0 license and unusual architecture @cohere.

  • Anthropic compute expansion with SpaceX/Colossus: Anthropic is reportedly scaling up on Colossus 2 capacity @nottombrown, with follow-on posts citing a filing that values the SpaceX compute agreement at $1.25B/month through May 2029 @SemiAnalysis_.

  • Exa funding: Exa raised $250M Series C at a $2.2B valuation, explicitly framing itself as a search lab organizing web data for agents @ExaAILabs.


  • Qwen is cooking hard (Activity: 1292): The image is a screenshot of Chujie Zheng teasing that Qwen is “cooking hard”, quoting an announcement that Qwen3.7 Preview is now on Arena with Qwen3.7-Max-Preview and Qwen3.7-Plus-Preview; the post claims Alibaba ranks #6 in Text and #5 in Vision. In context, the Reddit title/selftext indicate users are anticipating larger and refreshed open-weight models—especially 122B and a new 27B—though the screenshot itself is mainly a teaser rather than a technical benchmark breakdown. Image Commenters are split between excitement for high-end models and practical interest in smaller local models: some want 9B/4B variants for low-end hardware, while others hope for 122B, a better 35B, or joke that Qwen may soon be “cooking” their GPU.

    • Several commenters focused on model-size coverage rather than the current 27B release, saying they cannot practically run it and are hoping for smaller Qwen 4B/9B variants for low-end or laptop GPUs. There was also interest in larger 122B and improved 35B checkpoints, though one commenter noted prior 122B mentions around Qwen 3.6 never materialized, raising uncertainty about whether a Qwen 3.7 122B will actually ship.

  • Qwen3.7 Max scored by Artificial Analysis, 27B/35B waiting room (Activity: 553): A Reddit post highlights an Artificial Analysis leaderboard screenshot where Qwen3.7 Max ranks 5th, roughly level with GPT 5.4 (xhigh) and slightly ahead of Gemini 3.5 Flash. The author notes Qwen3.6 27B trails its Max counterpart by exactly 6 points and hopes upcoming Qwen3.7 27B/35B variants land close to the Max model’s performance. Commenters are mainly “waiting eagerly for the open weight models” and view the score as evidence that the Qwen team is now competitive with major labs, despite concerns that the Max model is not open-source. One technical concern raised is whether Qwen has fixed its prior tendency toward “overthinking.”

    • Commenters focused on whether Qwen3.7 Max represents a genuine architectural update versus another finetune/iteration of the Qwen3.5/Qwen3.6 architecture; one noted that extracting more performance from the same base architecture would still be technically notable.

    • Several users are waiting for potential open-weight 27B/35B variants, but one commenter speculated there may be no Qwen 3.7 27B at all, arguing that “Qwen 3.7” could simply be a private large model similar to Qwen 3.6 390B A30B rather than a full public model family.

    • A technical concern raised was whether the Qwen team has addressed the model’s reported “overthinking” behavior, implying interest in improvements to reasoning-token efficiency, response latency, and controllability rather than just benchmark gains.

  • Qwen will release another 27B with high probability (Activity: 1162): The image is a screenshot of an X/Twitter exchange where xiong-hui (barry) chen says Qwen is “waiting for the exact roadmap” but believes there is a high probability of another 27B release, framed by the post title as a likely follow-up to the highly regarded Qwen 3.6 27B. The technical significance is speculation around Qwen continuing to optimize parameter efficiency / “intelligence density” in the mid-size dense-model range rather than only scaling to much larger MoE models. Commenters mostly discuss local-inference practicality: some want a larger 122B-A10B MoE model, while others argue that 27B is too heavy for 16GB VRAM users and prefer a 35B/A3B-style MoE that can run on consumer gaming laptops or hybrid CPU/GPU setups.

    • Several commenters discussed the local-inference gap around 27B models: users with 16GB VRAM argued that a 27B model is difficult to run at a usable quantization level, while a hypothetical Qwen 35B MoE / A3B-style model could be more practical via hybrid CPU/GPU inference and would remain accessible on gaming laptops.

    • There was interest in larger dense Qwen variants, especially 50B80B, with one commenter noting that Qwen 27B is already very fast with MTP and they would trade some generation speed for higher parameter count and potentially better quality.

    • Model-size requests clustered around both MoE and dense scaling paths: proposed targets included Qwen 3.7 122B-A10B, 50B80B MoE, and dense 10B, 20B, 30B, 50B, or 80B releases, reflecting demand for both high-end quality and locally runnable tiers.

원문 보기 https://www.latent.space/p/ainews-openai-gpt-next-disproves