우리는 보통 기술 뉴스에 초점을 맞추지만, 가끔 대규모 펀딩 라운드는 그 자체로 주목할 만하며, Cerebras의 IPO(한 번 취소된 S-1과 훌륭한 750MW 파트너십 및 OpenAI와의 $10-$20B 지분/거래 이후)는 이번 주에 Inference Inflection을 지지하는 성장하는 테마로서 확실히 적격이며, Groq가 NVIDIA에 $20B에 인수된 충격적인 임원진 고용 이후 단 6개월입니다. CBRS 0.00%↑는 오늘 $280에 마감하며 $600억의 시가총액을 기록했으며, 이는 Big Chip 및 그들의 신봉자들에게 엄청난 검증입니다.
이 이미지는 Amir Efrati에서 온 Cerebras의 10년을 요약합니다:
Cerebras의 재무는 이제 완전히 공개되었지만, 토론의 초점은 공급에 중심을 두고 있습니다:
아래에 더 많은 세부사항이 있으며, Cerebras의 수석 연구 과학자가 오늘 늦게 라이브 스트림에서 AIE Singapore에서 발표합니다:
AI News for 5/14/2026-5/15/2026. 우리는 12개의 subreddit, 544개의 Twitter 및 추가 Discord를 확인하지 않았습니다. AINews의 웹사이트는 모든 과거 이슈를 검색할 수 있게 합니다. 알림으로, AINews는 이제 Latent Space의 섹션입니다. 당신은 이메일 빈도를 선택/거절할 수 있습니다!
Cerebras는 IPO 스토리로 타임라인에 복귀했으며, 투자자와 인접한 인프라 목소리들이 회사를 오랫동안 운영되어 온 반체제적 하드웨어 베팅이 마침내 검증되어 보이는 것으로 프레임짓고 있습니다. 가장 직접적으로 관련된 트윗은 투자자 Ishan N. Taneja로부터 온 것으로, 그는 초기 Cerebras 주장을 "믿지 않았다"고 말한 후 그가 의심했던 회의자가 "완전히 맞다"고 결론지었으며, Cerebras의 끈기, 실행 및 "훌륭한 칩을 만든 것"을 칭찬했으며, 이것이 Hanabi의 첫 IPO라고 언급했습니다 @ishanit5. 두 번째 Cerebras 관련 데이터 포인트는 Cerebras CFO Bob Komin이 "소형 모델만" 내러티브에 반박하는 CNBC의 Deirdre Bosa로부터 나왔습니다: Komin은 Cerebras가 모든 크기의 모델을 제공한다고, "제한이 없다"고 말했으며, Cerebras가 현재 조 단위 매개변수 모델을 제공하고 있다고 말했으며, 내부 OpenAI 모델을 포함하여 구체적으로 "OpenAI 5.4 및 5.5"라고 이름을 지었습니다 @dee_bosa. Apoorv Vyas로부터의 인접한 컨텍스트 트윗은 "Cerebras IPO"를 컴퓨팅 부족, 추론 수요, 라우팅, 오픈 소스에 대한 Stanford 토론에 명시적으로 연결했으며, IPO가 일반적인 자본 시장 이벤트가 아니라 추론 인프라 사이클의 일부로 해석되고 있음을 시사했습니다 @apoorv03.
Cerebras CFO Bob Komin이 말했습니다:
Cerebras는 모든 모델 크기를 제공합니다.
제공할 수 있는 모델 크기에 "제한이 없습니다".
Cerebras는 조 단위 매개변수 모델을 제공하고 있습니다.
내부 OpenAI 모델을 제공하고 있으며, 구체적으로 OpenAI 5.4 및 5.5 @dee_bosa라고 이름을 지었습니다.
Cerebras는 "올바른 이유로 논쟁적인 것들을 했고," "팀이 훌륭하고," "그들은 훌륭한 칩을 만들었다"는 것은 투자자 판단이며, 독립적으로 검증된 사실이 아닙니다 @ishanit5.
IPO가 Cerebras의 장기 전략의 검증이라는 의미는 투자자 톤과 주변 인프라 담론에서 나타나는 해석이며, 이 트윗들에서 회사의 공식 주장이 아닙니다.
"모델 크기에 제한이 없다"는 표현은 표준 임원진 수사학입니다; 실제로는 제한이 메모리 계층, 배치/지연 시간 트레이드오프, 인터커넥트 동작, 소프트웨어 인체공학, 워크로드 믹스에 나타납니다.
내부 OpenAI 워크로드를 제공하는 것은 강력한 주장이지만, 트래픽 점유율, 지연 시간 계층, 비용/토큰, 이용률, 또는 정확한 배포 역할에 대한 세부사항 없이는 이것이 광범위한 전략적 의존성을 반영하는지 또는 더 좁은 목표 사용을 반영하는지 알기 어렵습니다.
트윗 코퍼스는 역사적 스펙에 대해 가볍지만, Cerebras의 기술적 위치와 관련된 여러 주목할 만한 운영 주장이 포함되어 있습니다:
조 단위 매개변수 모델 제공: Cerebras CFO는 회사가 현재 조 단위 매개변수 모델을 제공하고 있다고 말합니다 @dee_bosa.
명명된 고객/워크로드: Komin은 구체적으로 이러한 것들이 내부 OpenAI 5.4 및 5.5라고 말합니다 @dee_bosa.
전략적 쐐기: 프레이밍은 분명히 추론/제공이며, 단순히 훈련만이 아닙니다. Apoorv는 IPO 토론을 "컴퓨팅 부족," "증가하는 추론 수요," 및 "모델 라우팅"에 연결합니다 @apoorv03.
이 트윗들은 Cerebras의 시장에서의 광범위한 알려진 위치에 부합합니다: 웨이퍼 규모 하드웨어, 온칩 메모리 대역폭에서 극단적, 그리고 대규모 모델을 낮은 지연 시간으로 제공할 때 나타나는 병목 현상을 줄이도록 최적화된 시스템 아키텍처입니다. 특정 칩 스펙이 트윗 세트에 없지만, CFO의 "조 단위 매개변수" 언급은 기술적으로 의미가 있습니다. 왜냐하면 회사가 엣지 소형 모델을 위한 틈새 가속기가 아니라 프론티어 규모 모델을 위한 심각한 제공 플랫폼으로 이해되기를 원한다는 것을 의미하기 때문입니다.
Cerebras는 "야심적이지만 논쟁적인" AI 하드웨어 버킷에서 오랫동안 있었습니다. 투자자 코멘트는 핵심 내러티브 호를 잘 포착합니다: 회사는 많은 사람들이 설득력이 없거나 상업적으로 의심스러워 보인 경로를 취했지만, 여러 컴퓨팅 사이클을 통해 살아 있을 수 있을 정도로 끈기와 실행으로 그렇게 했습니다 @ishanit5.
이 칭찬의 하위 텍스트는 하드웨어 엔지니어들에게 중요합니다:
Cerebras는 오랫동안 비-NVIDIA 아키텍처 테제를 나타냈습니다.
그 전략은 관례적인 가속기 경제로 경쟁하기보다는 다른 물리적 및 시스템 설계 철학으로 스케일링 문제를 공격하는 것이었습니다.
이는 시장이 매우 구체적인 워크로드를 이기지 않는 한 주문형 아키텍처를 할인하는 경향이 있기 때문에 본질적으로 논쟁적이었습니다.
IPO 재개 채팅은 회사의 이야기가 "이 아키텍처가 생존할 수 있는가?"에서 "이것이 정확히 시장이 지금 필요로 하는 차별화된 제공 스택 유형인가?"로 이동했음을 시사합니다.
이 변화는 AI 인프라 시장도 변화했기 때문에 일어나고 있습니다:
순수 훈련 명성에서 추론 경제로.
벤치마크 스냅샷에서 프로덕션에서 거대 모델 제공으로.
GPU 풍부함 가정에서 컴퓨팅 부족 및 라우팅 규율로 @apoorv03.
그 환경에서, 신뢰성 있게 조 단위 매개변수 내부 프론티어 모델을 제공한다고 말할 수 있는 회사는 몇 년 전과는 매우 다른 청취를 얻습니다 @dee_bosa.
가장 낙관적인 해석은 투자자 Ishan N. Taneja로부터입니다: 회의주의는 존경으로 바뀌었으며, 끈기, 실행, 및 성공적인 반체제적 칩 베팅에 강조를 두었습니다 @ishanit5.
Bob Komin의 인용도 전략적으로 낙관적입니다: Cerebras를 부작용이 아닌 프론티어 규모 추론 플랫폼으로 재프레임짓습니다 @dee_bosa.
Apoorv의 코멘트는 Cerebras를 현재 시스템 질문의 중심에 배치합니다—증가하는 추론 수요 속의 컴퓨팅 부족—이것이 차별화된 제공 아키텍처가 가장 중요할 수 있는 곳입니다 @apoorv03.
중립적인 읽기는 Cerebras의 IPO가 공개 시장 이벤트보다는 투자자들이 비-GPU 기본값 인프라 회사들을 위한 공간이 프론티어 스택에 있다고 믿는다는 신호로 중요하다는 것입니다.
또 다른 중립적인 결론: Cerebras가 진정한 기술적 차별화를 가지고 있더라도, 중요한 질문은 "칩이 우아한가?"가 아니라 "점점 더 기존 생태계 주변에 조직된 시장에서 이용률, 소프트웨어 호환성, 및 상업적 채택을 유지할 수 있는가?"입니다.
제공된 세트의 트윗 중 Cerebras IPO에 직접 공격하는 것은 없습니다. 하지만 전문가 청중이 조심스러워할 암시적 이유들이 있습니다:
"모델 크기에 제한이 없다"는 표현은 표준 임원진 수사학입니다; 실제로, 제한이 메모리 계층, 배치/지연 시간 트레이드오프, 인터커넥트 동작, 소프트웨어 인체공학, 및 워크로드 믹스에 나타납니다.
내부 OpenAI 워크로드를 제공하는 것은 강력한 주장이지만, 트래픽 점유율, 지연 시간 계층, 비용/토큰, 이용률, 또는 정확한 배포 역할에 대한 세부사항 없이는 이것이 광범위한 전략적 의존성을 반영하는지 또는 더 좁은 목표 사용을 반영하는지 알기 어렵습니다.
AI 하드웨어의 역사는 기술적으로 인상적인 아키텍처들이 소프트웨어, 개발자 채택, 또는 생태계 중력이 순수 하드웨어 장점을 압도했기 때문에 상업적으로 실패한 경우로 가득합니다.
Cerebras IPO 스토리는 AI 인프라가 다른 곳의 트윗 세트에서 보이는 몇 가지 어려운 진실 주변에서 다시 가격이 책정되는 순간에 착지합니다:
추론이 지배적인 컴퓨팅 시장이 되고 있습니다. Pearl, Together, 및 다른 회사들은 명시적으로 추론 경제 및 토큰 비용에 대해 이야기하고 있습니다 @prlnet, @simran_s_arora.
거대 모델 제공은 이제 제품 요구사항이며, 단순한 실험실 자랑이 아닙니다. 여러 트윗들이 조 단위 모델, 대규모 모델 캐던스, 및 빠른 RL/사후 훈련 주도 개선에 대해 논의합니다 @scaling01, @kimmonismus.
자본 집약도가 검토 중입니다. Kimmonismus는 하이퍼스케일러 capex가 $6000억을 넘고 AI 인프라 지출과 AI 수익 사이에 큰 간격이 있다고 언급하며, 시장이 인프라 경제를 면밀히 보고 있다고 경고합니다 @kimmonismus.
그 맥락에서, Cerebras는 비표준 아키텍처가 프론티어 추론의 경제 또는 지연 시간 프로필을 개선하여 생태계 전환 비용을 정당화할 수 있다는 지속 가능한 사건을 만들 수 있는 경우에만 중요합니다.
공식적으로, 트윗 세트의 가장 강력한 주장은 CFO Bob Komin으로부터입니다: Cerebras는 이미 조 단위 매개변수 OpenAI 내부 모델을 제공합니다 @dee_bosa.
트윗 세트에서 빠진 것은 독립적인 벤치마크 스타일 검증입니다:
비용 비교 없음,
지연 시간 백분위수 데이터 없음,
처리량 숫자 없음,
컨텍스트 길이 사항 없음,
소프트웨어 호환성 세부사항 없음,
이용률 수치 없음.
따라서 올바른 기술적 자세는:
그러면 IPO 재개는 "Cerebras가 이겼다"가 아니라 "Cerebras는 오래 살았을 정도로 시장이 그 테제에 더 호의적으로 되었다"입니다.
Codex, GitHub Copilot App, 및 새로운 코딩 에이전트 표면적
OpenAI의 Codex 모바일/앱 출시가 제품 채팅을 지배했습니다. 사용자들은 바에서 웹사이트를 구축하고, iPhone에서 Mac을 제어하며, 랩톱을 "위성 기기"로 취급하면서 항상 켜진 Mac mini가 배경에서 세션을 실행하는 것을 설명했습니다 @flavioAd, @nickbaumann_, @PaulSolt, @rileybrown.
Codex는 빠르게 다중 표면 에이전트 플랫폼이 되고 있습니다: 이번 사이클의 트윗들은 코딩 에이전트가 실행되는 위치와 방법의 의미 있는 확장을 지적합니다: Codex Mobile 워크스루를 통한 모바일 우선 워크플로우, @npew의 iPad/VPS 세션 관리, @itsclivetime의 Telegram/홈 서버 원격 설정, 및 @kimmonismus에서 기계가 잠겨 있는 동안 Mac 제어에 대한 "잠금 사용"의 힌트들. OpenAI의 개발 팀도 @etnshow를 통해 채택 수치를 공유했습니다: 4백만 이상의 주간 활성 사용자, 사용자당 5배 더 많은 메시지, 및 첫 주에 백만 이상의 앱 다운로드.
주변 생태계는 앱 계층에서만 경쟁하기보다는 Codex에 연결하기 위해 빠르게 움직이고 있습니다: Ollama는 Codex 앱 지원을 추가했습니다 로컬/오픈 모델 출시 경로 및 클라우드 모델 권장 사항과 함께; Zed는 이제 에이전트에서 ChatGPT 구독 접근을 지원합니다, Codex와 동일한 구독/속도 제한 모델을 유지하면서; 그리고 MagicPath를 Codex 내부의 네이티브 캔버스로 포함한 서드파티 확장이 나타나고 있으며 @secemp9에 의해 MCP/슬래시 명령 형식으로 추출된 휴대용
/goal명령. 커뮤니티 모멘텀은 런던, 포르투갈, 및 파리 계획으로부터의 모임 보고에서 눈에 띄었습니다.GitHub는 모델뿐 아니라 코딩 하네스에 병렬 베팅을 하고 있습니다: VS Code/Copilot 팀은 사용자 경험이 기본 모델만큼이 아니라 코딩 하네스—컨텍스트 조립, 도구 사용, 실행 루프, 메모리—에 의해 형성된다는 것을 강조했습니다 @code에서 공유한 장면 뒤 게시물과 @pierceboggan. 이번 주 강조된 제품 기능에는 @davidfowl의 에이전트 병합 및 @code의 AI 설명이 있는 터미널 위험 평가 배지가 포함됩니다. 더 광범위한 추세는 명확합니다: 경쟁 프론티어는 "최고 모델"에서 최고 하네스 + UX + 통합으로 이동하고 있습니다.
에이전트 하네스, 검색, 평가, 및 신뢰성 엔지니어링
코딩 에이전트를 위한 검색이 임베딩이 아닌 기본요소 주변에서 다시 생각하고 있습니다: 가장 강력한 스레드는 "벡터 DB보다 grep/검색" 논쟁입니다. @omarsar0는 강조했습니다 grep 스타일 텍스트 검색이 올바른 에이전트 하네스로 감싸면 코딩 에이전트 작업에서 임베딩 기반 검색과 일치하거나 이길 수 있다는 것을 보여주는 논문; @dair_ai는 결론을 반향했습니다. 관련하여, @lintool는 농담했습니다 에이전틱 검색을 위한 "양 매개변수 모델"은 BM25이고, 아마도 영 매개변수 버전은 grep입니다. 이것은 Cloudflare 인접 실험과도 정렬됩니다: @YoniBraslaver는 월요일의 GraphQL API에서 SDK vs MCP를 비교했습니다, SDK에 대해 1 단계 / 15k 토큰 대 실제 MCP 서버에 대해 4 단계 / 158k 토큰을 찾았습니다—동일한 출력에 대해 8.4배 토큰 비용.
에이전트 평가와 관찰성이 첫 번째 클래스 인프라 문제가 되고 있습니다: 여러 게시물이 동일한 테마에 수렴했습니다. 자율 시스템을 위한 평가는 에이전트가 더 길은 수평선과 더 많은 도구를 얻을수록 더 쉬워지지 않고 더 어려워진다는 것입니다. @palashshah은 현대 평가 설계의 어려움을 언급했습니다; @cwolferesearch는 Terminal-Bench, Tau-Bench, GAIA, WorkArena, OSWorld, MLE-Bench, PaperBench, GDPval 및 기타를 아우르는 광범위한 벤치마크 지도를 컴파일했습니다. 새로운 벤치마크 제안에는 FutureSim이 포함되었으며, 이는 Codex/Claude Code 같은 네이티브 하네스에서 지속적 업데이트 및 예측을 테스트하기 위해 시간 순서대로 실제 이벤트를 재생하며, 그 다음 @nikhilchandak29의 팔로우업 코멘트는 시간 테스트 컴퓨팅이 예측에서도 우아하게 스케일한다고 주장합니다.
신뢰성 우려가 환각에서 시스템 레벨 실패 모드로 이동하고 있습니다: @random_walker는 블랙박스 "지니" 인터페이스가 사용자가 추론 흔적, 도구 사용, 메모리, 또는 중간 상태를 볼 수 없기 때문에 검증 부담을 증가시킨다고 주장했습니다. @mitchellh는 더 날카로운 인프라 비유를 만들었습니다: 회사들은 AI 생성 소프트웨어에 대해 "MTTR이 필요한 모든 것입니다" 사고방식으로 표류할 수 있으며, 지역 메트릭이 좋아 보이면서 글로벌 시스템 이해도는 감소하는 복원력 있는 재앙 기계를 만들고 있습니다. 도구 쪽에서, LangChain은 Interrupt 공지를 포함하는 반대 방향으로 밀었습니다 LangSmith Engine, SmithDB, 관리 깊은 에이전트, 샌드박스, 게이트웨이, 및 컨텍스트 허브 다루고, @ankush_gola11은 에이전트 관찰성에 대한 실용적인 요구사항인 추적 수집에 대한 아 초 중앙값 쓰기 지연을 강조했습니다.
훈련, 최적화, 및 추론 효율
옵티마이저 작업이 Adam 패밀리를 넘어서 다시 확대되고 있습니다: @zacharynado는 시대의 정신을 성공적으로 요약했습니다: "sloptimizer" 분야는 Shampoo 및 Muon-gen 스타일 방법과 함께 Adam 변종의 묘지 이후 시작하고 있습니다. 두 가지 구체적인 업데이트가 착지했습니다: SODA, 초매개변수를 추가하지 않고, 무게 감쇠 튜닝을 제거하고, 기본 옵티마이저를 개선하는 래퍼, SODA[Muon]이 Muon이 튜닝된 무게 감쇠 스윕을 얻을 때도 Muon을 이긴다는 주목할 만한 주장을 포함; 및 회신과 참조로부터 Muon/Shampoo에 대한 일반적인 계속된 관심.
빠른/느린 학습 및 교육학적 감독은 이번 사이클에서 주목할 만한 훈련 아이디어였습니다: @agarwl_는 "Learning, Fast and Slow"를 설명했습니다, RL을 통한 느린 가중치 학습을 GEPA로 최적화된 맥락/프롬프트의 빠른 학습("빠른 가중치")과 결합, 더 나은 데이터 효율성, 적응성, 및 RL만보다 더 적은 망각을 주장합니다. 감독 쪽에서, Pedagogical RL 및 Late Interaction의 설명자는 단순히 올바른 출력만이 아니라 올바르고 가르칠 수 있는 롤아웃 분배에서 배우기를 위해 주장하면서, @bradenjhancock은 학생이 따를 수 없는 도약을 하는 것에 대해 벌칙을 받는 교사 모델에 대한 관련 작업을 요약했습니다.
추론 최적화는 시스템 및 모델 레벨 모두에서 매우 활동적으로 남아있습니다: @ariG23498은 연속 배치에 대한 깊은 다이빙을 권장했습니다, 구체적으로 동적 배치 체제에서 유휴 GPU를 피하기 위해 CUDA 스트림, 이벤트, 동기화, 및 CPU/GPU 분리를 이해할 필요가 있습니다. Meta 연구원들은 Self-Pruned KV attention을 제안했습니다, 여기서 모델은 지속적인 캐시에서 유지할 어떤 키/값을 배워서 KV 캐시 크기를 줄이고 디코딩 속도를 개선합니다. 로컬 추론 쪽에서, @danielhanchen는 보고했습니다 Qwen 소형 모델 MTP GGUF가 이제 1.8배 빠르게 실행되며, 새로운 llama.cpp 추측 디코딩 매개변수 덕분에 2일 전의 1.4배에서 올라갔습니다.
오픈 모델, 제공 스택, 및 에이전트 도구 모음
오픈/로컬 에이전트 스택이 Hermes, Ollama, 및 휴대용 런타임 주변에 긴밀해지고 있습니다: ClawRouter가 Hermes Agent를 통합, Teknium의 토큰 볼륨에서 OpenClaw를 능가한다는 주장, 및 SuperGrok 구독을 통해 Hermes Agent에서 Grok 지원 모두 상호 운용 가능한 에이전트 셸 주변에서 계속된 통합을 지적합니다. NVIDIA는 DGX Spark를 통해 Ollama를 통해 로컬로 Hermes Agent를 실행하는 실용적인 배포 경로를 발행했습니다. @onusoz는 또한 주요 사용성 간격을 강조했습니다: 최종 사용자를 위한 원클릭 로컬 모델 배포는 증가하는 수요에도 불구하고 정말로 존재하지 않습니다.
오픈 멀티모달 및 과학 모델 주변의 제공 인프라는 계속 성숙하고 있습니다: vLLM은 Baseten의 vLLM-Omni의 프로덕션 배포를 강조했습니다 다단계 오디오, 스트리밍 멀티모달, 및 실시간 TTS 종종 폐쇄 API에 의해 지배되는 워크로드의 경우. 그들은 또한 Intern-S2-Preview에 대한 0일 지원을 배출했습니다, 오픈 소스 과학 멀티모달 기초 모델로 설명되며, 재료 결정 구조 생성에서 초기 기능이 있습니다. 추가 도구 업데이트에는 Hugging Face의 커널 프로젝트에서 에이전틱 커널 개발에 대한 호출 및 Capa가 포함되었으며, 이는 OpenAPI 사양을 Cloudflare 서비스 바인딩으로 전환하면서 Stripe, GitHub, Slack, Twilio, 및 Kubernetes에 걸쳐 5,852개의 생성된 메서드를 제공합니다.
문서/검색 인프라도 구체적인 제품 작업을 보았습니다: Weaviate v1.37은 속성별 액센트 폴딩, 속성별 불용어 사전, 및 BM25 토큰화를 디버깅하기 위한 /v1/tokenize 엔드포인트를 추가했습니다. Cohere는 시각적 구문 분석과 검색 임베딩을 사용하여 어려운 문서 위에 검색을 위한 스택으로 Compass를 밀었습니다. 벤치마킹 쪽에서, ParseBench 리더 Infinity-Parser2-Pro (35B) 및 Flash (2B)는 5백만 이상의 합성 구문 분석 샘플 및 문서/요소/차트 구문 분석 작업 전체에 걸친 공동 RL 알고리즘으로 인정받았습니다.
Anthropic, OpenAI, xAI, 및 경쟁 역학
가장 강력한 경쟁 신호는 단순히 벤치마크 압박이 아니라 개발자 제품 압박에 관한 것이었습니다: @Yuchenj_UW는 Anthropic의 최근 움직임을 xAI GPU 용량을 받은 후 "Codex 플레이북을 실행하는 것"이라고 틀 지었습니다, 그리고 가장 눈에 띄는 사용자 facing 변경은 Anthropic이 모두의 5시간 및 주간 Claude 속도 제한을 재설정했습니다, @kimmonismus에 의해 경쟁 및/또는 증가된 컴퓨팅 가용성에 대한 가능성 있는 응답으로 증폭되었습니다. @kimmonismus의 별도 보고서는 Anthropic 평가를 $9000억 및 5월 말까지의 ARR을 $450억으로 놓는 FT 숫자를 인용했으며, 이는 이전 체크포인트에서 급격히 상승했습니다.
모델 인식에서, 여러 트윗들은 확대하는 도메인 특별화 및 프론티어 간격을 지적합니다: Epoch AI의 도메인 특정 ECI는 Claude가 일반 능력 지수에 상대적으로 소프트웨어 엔지니어링 이점을 가지고 있으나 수학에서는 과소 지수화된다고 제안합니다. 동시에, 여러 포스터들은 Claude/Mythos 레벨의 능력 점프에 감동했습니다: @scaling01은 Mythos를 "미친"이라고 불렀으며, @teortaxesTex는 Mythos가 최소한 일부 사용에서 GPT-5.5보다 의미있게 강하다고 말했습니다. xAI 쪽의 추측 다음 단계는 더 큰 규모입니다: @scaling01는 새로운 1.5T xAI 모델이 곧 있을 것으로 기대합니다.
OpenAI는 "ChatGPT를 개인 에이전트"로 테제를 금융으로 확장했습니다: ChatGPT는 Pro 사용자를 위한 개인 금융 경험을 미국에서 발표했습니다, 안전한 금융 계정 연결, 지출 분석, 및 사용자 인증 데이터 위에 근거한 Q&A를 포함합니다. @fidjissimo는 건강 기록 통합과 동일한 패턴에 연결했습니다: 더 구조화된 개인 컨텍스트가 에이전트로 흐르고 있습니다. @kimmonismus는 이것이 fintech 어시스턴트 계층의 일부를 압축할 수 있다고 주장했으며, 내부 금융 벤치마크를 인용했습니다. 여기서 GPT-5.5 Thinking은 복잡한 개인 금융 작업에서 79/100을 기록했습니다 그리고 GPT-5.5 Pro는 82.5/100입니다.
상위 트윗 (참여도별)