#benchmark-performance
총 3건 · 1/1 페이지
-
MiniMax-M3 데뷔, 주요 벤치마크 성능에서 GPT-5.5와 Gemini 3.1 Pro를 능가하며 비용은 단 5-10% 수준
<blockquote> <p>중국 AI 스타트업 미니맥스(MiniMax)가 기존 미국의 상용 모델 대비 5~10% 수준의 파격적인 비용으로 GPT-5.5와 제미나이 3.1 프로를 능가하는 오픈 가중치 기반 멀티모달 대형언어모델 'M3'를 전격 출시했습니다.</p> </blockquote> <hr /> <h4>전문 번역</…
-
다양한 모델에 맞춰 딥 에이전트 조정하기
Tuning Deep Agents to Work Well with Different Models
Deep Agents was previously designed in a generic way to work well across model families. Today we’re adding model-specific profiles to adjust prompts, tools, and middleware. We shi…
-
Claude Opus 4.6의 BrowseComp 성능에서의 평가 인식 (2026년 3월 6일)
Eval awareness in Claude Opus 4.6’s BrowseComp performance Mar 06, 2026