AI·News
뒤로

[AINews] 새로운 AI 인프라 데카콘들: Fireworks, Baseten (OpenRouter도 곧 나온다)

[AINews] New AI Infra decacorns: Fireworks, Baseten (with OpenRouter on the way)

2026 AI Engineering Survey에 참여하고 >$2k 크레딧과 AIE WF 티켓을 받으세요!


독자들은 우리가 소식이 없을 때를 좋아하지만, 그 다음으로 좋아하는 것은 여러분이 알아야 할 트렌드를 단순히 강화할 수 있을 때입니다. 4월에 우리는 the Inference Inflection을 강조했고, 오늘의 헤드라인이 지난주의 헤드라인을 떠올리게 한다면, 그것이 정확히 우리가 말하는 요점입니다.

이 요즘 AI 펀드레이징의 속도를 감안하면, 우리의 일반적인 정책은 스타트업이 데카콘 상태(>$10B)를 넘을 때만 보도하는 것입니다 - 하지만 확인된 경우에만이고, 오늘의 Fireworks' $15B 라운드 소식("협의 중", 7개월 동안 3.75배, 우리 팟캐스트는 여기) 그리고 Baseten's $11B 라운드 ("현재 펀드레이징 중", 3개월 동안 2.2배)는 조금 이르지만, Inference 지역의 가속화 속도와 유니콘에서 데카콘으로의 진행은 너무 흥미로워서 오늘의 헤드라인 스토리로 서빙할 수 없습니다. $113M OpenRouter Series C (6개월 동안 5배 볼륨)가 정상이 됩니다: 멀티모델 추론을 하려면 라우터가 필요합니다.

AI News for 5/23/2026-5/26/2026. 우리는 12개의 서브레딧, 544개의 트위터와 추가 디스코드를 확인했습니다. AINews의 웹사이트에서 과거의 모든 이슈를 검색할 수 있습니다. 상기하자면, AINews는 이제 Latent Space의 섹션입니다. 이메일 빈도를 선택/선택 해제할 수 있습니다!


Agent Harnesses, Coding Benchmarks, 그리고 "Just the Model" 너머의 시프트

Research Agents, Long-Horizon Reasoning, 그리고 Context Compression을 위한 "Sleep"

  • Math/science 에이전트는 더 많은 capability overhang의 증거를 보였습니다—올바른 harness를 조건으로: 가장 강력한 트윗 클러스터는 모델이 오래된 개방 문제를 다루는 것 주변이었습니다. 한 수학자는 Claude Mythos가 Erdős problem #90을 해결했다고 보고했으며, 후속 세부 정보는 모델이 OpenAI의 이전 경로보다 다른, 더 깔끔한 증명 경로로 자주 수렴했습니다. 이것은 @_sholtodouglas, @kimmonismus에 의해 메아리쳤으며, 그 후 Sébastien Bubeck에 의해 날카로워졌습니다: 적절한 harness로, MythosGPT-5.5 둘 다 내부 모델이 원샷으로 했던 것을 재현할 수 있으며, vanilla 채팅 UX에 의해 노출되지 않은 많은 대기 능력을 암시합니다.

  • Long-horizon 메모리는 핵심 병목 현상으로 재등장하고 있습니다: "Language Models Need Sleep" 논문이 주목할 만한 관심을 받았습니다. 메커니즘은 sleep과 유사한 통합 단계입니다. 여기서 최근 컨텍스트는 KV 캐시를 지우기 전에 지속적인 빠른 가중치로 변환되며, 깨어있는 시간 지연을 보존하면서 오프라인 패스로 계산을 이동합니다. dair.ai의 요약은 시스템 각도를 강조했습니다: 이것은 긴 궤적을 가진 에이전트에 대한 계속 증가하는 KV 캐시에 대한 대안입니다. 이 주제는 Omar의 Anthropic의 메모리 토크와 Dream 기능에 대한 포인터를 포함한 에이전트의 메모리 시스템에 대한 진행 중인 토론과 깔끔하게 연결되었습니다.

  • Open deep-research 에이전트와 과학 예측도 발전했습니다: QUEST는 장기 사실 추구, 인용 근거, 그리고 보고서 합성을 위한 2B–35B 오픈 모델 패밀리로, 범용 deep research 에이전트로 출시되었습니다. 과학 평가 측면에서, Sakana/Stanford/Oxford/AI2의 CUSP 벤치마크는 현재 모델들이 종종 유망한 연구 방향을 식별할 수 있지만 whether 그리고 when 돌파구가 실현되는지에 대해 훨씬 더 어려워한다는 것을 발견했습니다.

Model, Optimizer, 그리고 Architecture 업데이트

Infra, Systems, 그리고 Semiconductor Stack

  • Huawei의 "τ scaling" 논문은 대부분 엔지니어링 로드맵으로, 새로운 법칙으로 읽혔습니다: 매우 상세한 스레드는 Huawei의 "A Time Scaling Theory for Multi-Layer Electronic Systems"strategic manifesto / white paper로 해석해야 한다고 주장했습니다. 핵심 제안은 time constant τ를 프로세스 노드가 아니라, 기기, 칩, 그리고 데이터센터 규모 전체에 걸친 통합 메트릭으로 취급하는 것입니다. 가장 구체적인 주장은 미래 Kirin 설계에서의 LogicFolding을 포함했으며, 고정 노드에서 +55% 밀도, +41% 에너지 효율, 그리고 +13% 빈도, 그리고 Unified BusHi-ONE optical I/O와 같은 패키징/네트워크 아이디어를 포함했습니다. 같은 스레드는 누락된 검증 아티팩트—die 사진, SEM, 워크로드 세부 정보, 수율 곡선—을 주의깊게 지적했으며, 가장 눈에 띄는 숫자들을 유망하지만 검증되지 않은것으로 해석했습니다. 후속 반응은 또한 Huawei의 경로가 lithographic 따라잡기보다 패키징과 아키텍처에 더 많이 의존할 수 있음을 강조했습니다, 예: @josiah_leee가 Jensen의 포인트를 인용했습니다 Hopper→Blackwell의 대부분의 이득이 비노드 최적화에서 나왔다고.

  • 데이터센터 전력 및 추론 공급 제약은 1차 관심사가 되고 있습니다: SemiAnalysis는 800VDC 전환에 게시했으며, 그리고 John Carmack은 이를 권장했습니다, EV 전력 전자에서 데이터센터 설계로의 교차점을 강조했습니다, 고전압 SiC 부품을 포함하여. 별개로, Epoch AI는 가능한 추론 계산 위기를 추정했습니다: 수요가 서빙 용량보다 빠르게 증가하는 것으로 보이며, 특히 긴 컨텍스트 워크로드의 경우. 그들의 대략적인 모델은 현재 전역 Blackwell 공급이 유리한 가정 하에서 오늘의 수요를 서빙할 수 있지만, 처리량이 더 긴 컨텍스트로 급격히 저하되며 수요 성장이 이미 공급을 초과하고 있을 수 있음을 시사했습니다.

Production Tooling 및 Developer Infrastructure

Top tweets (by engagement)


  • Waiting for Qwen 3.7 open weight... The new King has arrived... (Activity: 1217): 이미지Qwen3.7 블로그의 벤치마크/마케팅 비교입니다 Qwen3.7-Max를 agentic 코딩, 소프트웨어 엔지니어링, MCP/tool-use, 추론, 그리고 지식 평가 전반에서 선도적인 프론티어 모델로 위치시키며 Qwen3.6-Plus, DS-V4-Pro Max, GLM-5.1, Kimi K2.6, 그리고 Claude Opus-4.6 Max와 비교합니다. 기술적 중요성은 슬라이드가 Qwen3.7-Max를 많은 벤치마크에서 Claude 클래스 모델과 매우 경쟁적이거나 앞서간 것으로 프레임하지만, Claude Opus-4.6 Max는 여전히 ClawEvalCoWorkBench와 같은 일부 작업에서 리드하는 것으로 보입니다. 댓글 작성자들은 이것이 Max 모델이며, 반드시 더 작은/오픈 웨이트 릴리스를 대표하는 것은 아니라고 지적하며, 가능한 3.7-122B-A17B MXFP4 모델을 512k 컨텍스트로 Strix Halo와 같은 로컬 하드웨어에 대해 추측합니다. 주요 논쟁은 오픈 웨이트 주변의 회의론입니다: 댓글 작성자들은 Qwen이 역사적으로 Max 시리즈를 오픈 웨이트화하지 않았다고 지적하며, 제목의 "오픈 웨이트를 기다리는" 프레이밍이 현실적이지 않을 수 있음을 경고합니다. 다른 사람들은 가설적인 27B 모델이 표시된 Max 티어 벤치마크 결과와 일치하기를 기대하지 않도록 주의합니다.

    • 여러 댓글 작성자들은 Qwen Max를 가능한 오픈 웨이트 릴리스와 구별하며, "Qwen은 결코 Max 시리즈를 오픈 웨이트화하지 않았습니다"라고 지적하고 더 작은 27B 변형이 Max 수준의 벤치마크 성능과 일치하기를 기대하지 않도록 경고합니다. 암시된 기술적 이해는 모든 공개/오픈 웨이트 Qwen 3.7 릴리스가 벤치마크된 기함 모델과 다른 아키텍처/규모를 사용할 수 있다는 것입니다.

    • 한 가지 기술적 소원 목록은 Qwen 3.7 122B-A17B MTP MXFP4 모델을 중심으로 하며 512k 컨텍스트로, 댓글 작성자들이 Strix Halo 클래스 로컬 하드웨어에 잘 맞을 것이라고 주장합니다. 또 다른 사용자는 Qwen 3.5 397B-A17B NVFP4를 참조하며, 이것이 4x RTX 6000 Pro GPU에 적합하며 대략 10 동시 200k 토큰 세션을 위한 충분한 메모리 헤드룸으로 클레임하며, 이를 Qwen 3.7이 보고된 벤치마크와 일치한다면 가능한 "집에서의 Opus"로 포지셔닝합니다.

    • 댓글 작성자는 오픈 웨이트 프론티어 릴리스가 덜 가능할 수 있다고 주장합니다 왜냐하면 매우 능력 있는 로컬 모델은 제공자 수익화를 손상시킬 수 있기 때문입니다. 그들은 Qwen의 전략이 중단 능력에서 수익화된 프론티어 경쟁으로 이동했다고 클레임하며, 이는 397B-A17B 같은 큰 MoE 모델이 공개적으로 릴리스되는지 여부에 영향을 미칠 수 있습니다.

  • Qwen3.6 35Ba3 has changed my workflows and even how I use my computer (Activity: 567): pi를 통해 Qwen3.6 35B a3을 사용하여 로컬 에이전트 워크플로우를 설명합니다. 여기서 사용자는 반복 가능한 절차를 Codex에 의해 생성/문서화된 "skills"로 변환한 다음 VPS DevOps, docling PDF→EPUB 변환, Playwright 테스트, 코드 티켓, 그리고 OS 수준 쉘 작업에 재사용합니다. 구체적인 예: WhatsApp 오디오 → AnythingLLM에서의 전사 → content.md → 로컬로 생성된 랜딩 페이지, 그 다음 plan.md 티켓 큐는 "manager" pi 프로세스에 의해 실행되며 pi -p @plan.md "Check the first Ticket with Status UNDONE and do it"로 신선한 컨텍스트 서브 에이전트를 생성합니다. 티켓을 DONE으로 표시하고, git으로 커밋하며, 마지막으로 VPS 스킬을 통해 배포합니다. 댓글 작성자들은 운영 관심사에 초점을 맞췄습니다: 이 설정을 실행할 수 있는 하드웨어, 에이전트가 OS 액세스로 샌드박스/신뢰할 수 있는지, 그리고 pi를 Hermes와 같은 다른 agentic 도구와 비교하여 채택하기 얼마나 어려운지.

    • 사용자는 실행 보고 unsloth/Qwen3.6-35B-A3B-MTP-GGUF via Unsloth Studio on a MS-02 with a 24GB RTX Pro 4000 Blackwell SFF GPU, 일관되게 >100 tokens/s를 봅니다. 그들은 Mac Studio M2에 "최적화되지 않은 GGUF"와의 성능을 비교하며, MS-02를 Mac 워크스테이션용 작은 원격 GPU 서버로 사용하며, Unsloth의 미래 MLX 지원이 Mac 측 성능을 개선할 수 있다고 지적합니다. 스크린샷: preview.redd.it.

  • 110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp (Activity: 565): 포스트는 Qwen3.6-35B-A3B MTP를 byteshape의 IQ4_XS 4.19 bpw GGUF로 벤치마크하며 RTX 4070 Super 12GB + Ryzen 7 9700X에서, 업스트림 llama.cpp vs ik_llama.cpp--ctx-size 131072, q8_0 KV 캐시, MTP draft max 3, 그리고 p_min=0.75로 비교합니다. 같은 mtp-bench.py 워크로드를 사용하면, 업스트림 llama.cpp0.9393 집계 MTP 수락 비율로 89.76 tok/s를 평균화했으며, ik_llama.cpp0.8749 낮은 집계 수락 비율에도 불구하고 업데이트된 결과에서 16.64s 동안 110.24 tok/s를 평균화했으며, 주장된 23% 처리량 이득입니다. OP는 실제 적합을 ik_llama.cpp에서 --fit/--fit-margin 1664로 특성화하며, --fit-margin1792 또는 2048로 올려서 OOM 완화를 하며, 디스플레이를 iGPU에서 실행하면 본질적으로 모든 12GB VRAM이 추론을 위해 해방됨을 주목합니다. 댓글 작성자들은 재현성에 초점을 맞췄습니다: 그들은 전체 업스트림 llama.cpp 커맨드를 요청했으며 최근에 여러 MTP 관련 PR이 병합되었으므로 벤치마크 타이밍이 빌드 날짜에 강하게 의존할 수 있음을 지적했습니다. 한 가지 기술적 해결책은 CachyOS/KDE 사용자를 위해 LIBGL_ALWAYS_SOFTWARE=1GALLIUM_DRIVER=llvmpipe를 사용하여 소프트웨어 렌더링 Plasma Wayland 세션을 제안했으며, 유휴 VRAM을 대략 >1024MB에서 126MB로 줄이며 느린/비활성화된 컴포지터 효과의 대가로.

    • CachyOS/KDE Wayland 사용자는 단일 GPU 시스템을 위한 VRAM 절약 해결책을 설명했습니다: LIBGL_ALWAYS_SOFTWARE=1, GALLIUM_DRIVER=llvmpipe, 그리고 KWIN_COMPOSE=Q를 사용하여 KDE Plasma를 CPU를 통해 렌더링하도록 강제하는 사용자 정의 SDDM 세션을 생성합니다. 그들은 KDE Wayland 유휴 VRAM이 > 1024 MB에서 ~126 MB로 드롭했다고 보고했으며, 35B 모델 실행을 위해 거의 기가바이트를 해방했으며, 비활성화되거나 매우 느린 컴포지터 애니메이션의 대가로.

    • 여러 댓글 작성자들은 보고된 110 tok/sik_llama.cpp가 업스트림 llama.cpp보다 더 나은 MTP/추측적 디코딩 동작을 가지는지에서 초점을 맞췄습니다. 하나는 ik_llama.cpp의 수락 비율이 결코 0.790 아래가 아니었다고 언급했지만, llama.cpp는 0.477만큼 낮이 떨어졌으며, 정확한 llama.cpp 커맨드/설정을 요청했으며 여러 MTP 관련 PR이 이전 24시간 내에 llama.cpp에 착륙했음을 지적했습니다.

    • 댓글 작성자는 Qwen3.6 35B A3B에 사용된 IQ4_XS 양자화에 대해 물었으며, 가장 낮은 메모리 Q4 정량화인 것으로 보이며 모델 품질/지능 영향과 최종 VRAM/RAM 분할 모두의 세부 정보를 요청했습니다. 이는 12 GB VRAM 실행에 대한 핵심 트레이드오프를 강조합니다: 공격적인 양자화를 통해 모델을 맞추기 대 추론 품질 유지 및 과도한 CPU/RAM 오프로드 병목을 피하기.

Take the 2026 AI Engineering Survey and get >$2k in credits and AIE WF tickets!


Readers like when we report no news, but our second favorite to that is when we can simply reinforce a trend you should be aware of. In April we highlighted the Inference Inflection, and If today’s headline reminds you of last week’s headline, it is exactly the point we are making.

With the pace of AI fundraising these days, our general policy is to only cover startups when they cross decacorn status (>$10B) - but only when confirmed, and today’s news of Fireworks’ $15B round (“in talks”, 3.75x in 7 months, our podcast here) and Baseten’s $11B round (“is raising”, 2.2x in 3 months) is a bit premature, but the pace of the pickup in Inference land and unicorn to decacorn progression is too juicy not to serve as headline story today, with the $113M OpenRouter Series C (5x volume in 6 months) as the cherry on top: if you are gonna do multimodel inference, you are gonna need a router.

AI News for 5/23/2026-5/26/2026. We checked 12 subreddits, 544 Twitters and no further Discords. AINews’ website lets you search all past issues. As a reminder, AINews is now a section of Latent Space. You can opt in/out of email frequencies!


Agent Harnesses, Coding Benchmarks, and the Shift Beyond “Just the Model”

Research Agents, Long-Horizon Reasoning, and “Sleep” for Context Compression

  • Math/science agents showed more evidence of capability overhang—conditional on the right harness: The strongest cluster of tweets was around models tackling old open problems. A mathematician reported Claude Mythos solving Erdős problem #90, with follow-up detail that the model often converged to a different, cleaner proof path than OpenAI’s earlier route. This was echoed by @_sholtodouglas, @kimmonismus, and then sharpened by Sébastien Bubeck: with an appropriate harness, both Mythos and GPT-5.5 can reproduce what an internal model had done one-shot, implying a large amount of latent capability not exposed by vanilla chat UX.

  • Long-horizon memory is resurfacing as a core bottleneck: The paper “Language Models Need Sleep” got notable attention. The mechanism is a sleep-like consolidation phase where recent context is converted into persistent fast weights before clearing the KV cache, moving compute into an offline pass while preserving wake-time latency. dair.ai’s summary emphasized the systems angle: this is an alternative to ever-growing KV caches for agents with long trajectories. This theme connected neatly with ongoing discussion about memory systems in agents, including Omar’s pointer to Anthropic’s memory talk and Dream feature.

  • Open deep-research agents and science forecasting also advanced: QUEST, a family of open 2B–35B models for long-horizon fact-seeking, citation grounding, and report synthesis, was released as a general-purpose deep research agent. On the science-evals side, Sakana/Stanford/Oxford/AI2’s CUSP benchmark found current models can often identify promising research directions but struggle much more with whether and when breakthroughs materialize.

Model, Optimizer, and Architecture Updates

Infra, Systems, and the Semiconductor Stack

  • Huawei’s “τ scaling” paper was read mostly as an engineering roadmap, not a new law: A very detailed thread argued Huawei’s “A Time Scaling Theory for Multi-Layer Electronic Systems” should be interpreted as a strategic manifesto / white paper. The core proposal is to treat time constant τ, not process node, as the unifying metric across device, chip, and datacenter scales. The most concrete claims concerned LogicFolding on a future Kirin design, including +55% density, +41% energy efficiency, and +13% frequency at fixed node, plus packaging/network ideas like a Unified Bus and Hi-ONE optical I/O. The same thread was careful to note missing validation artifacts—die photos, SEMs, workload details, yield curves—and to interpret the most eye-catching numbers as promising but unverified. Follow-up reactions also stressed that Huawei’s path may rely more on packaging and architecture than lithographic catch-up, e.g. @josiah_leee citing Jensen’s point that most of Hopper→Blackwell’s gains came from non-node optimizations.

  • Datacenter power and inference supply constraints are becoming first-order concerns: SemiAnalysis published on the 800VDC transition, and John Carmack recommended it, highlighting crossovers from EV power electronics into datacenter design, including high-voltage SiC parts. Separately, Epoch AI estimated a possible inference compute crunch: demand appears to be growing faster than serving capacity, especially for long-context workloads. Their rough model suggested that while current global Blackwell supply could serve today’s demand under favorable assumptions, throughput degrades sharply with longer contexts and demand growth may already be outrunning supply.

Production Tooling and Developer Infrastructure

Top tweets (by engagement)


  • Waiting for Qwen 3.7 open weight... The new King has arrived... (Activity: 1217): The image is a benchmark/marketing comparison from the Qwen3.7 blog positioning Qwen3.7-Max as a leading frontier model across agentic coding, software engineering, MCP/tool-use, reasoning, and knowledge evaluations versus Qwen3.6-Plus, DS-V4-Pro Max, GLM-5.1, Kimi K2.6, and Claude Opus-4.6 Max. The technical significance is that the slide frames Qwen3.7-Max as highly competitive with or ahead of Claude-class models on many benchmarks, though Claude Opus-4.6 Max still appears to lead on some tasks such as ClawEval and CoWorkBench. Commenters note that this is the Max model, not necessarily representative of smaller/open-weight releases, and speculate about a potential 3.7-122B-A17B MXFP4 model with 512k context for local hardware such as Strix Halo. The main debate is skepticism around open weights: commenters point out that Qwen has historically not open-weighted the Max series, so the title’s “waiting for open weight” framing may be unrealistic. Others caution not to expect a hypothetical 27B model to match the shown Max-tier benchmark results.

    • Several commenters distinguish Qwen Max from likely open-weight releases, noting that “Qwen has never open-weighted the Max series” and warning not to expect a smaller 27B variant to match Max-level benchmark performance. The implied technical takeaway is that any public/open-weight Qwen 3.7 release may use a different architecture/scale than the benchmarked flagship model.

    • One technical wishlist centers on a hypothetical Qwen 3.7 122B-A17B MTP MXFP4 model with 512k context, which commenters argue would be well-suited to Strix Halo-class local hardware. Another user references Qwen 3.5 397B-A17B NVFP4, claiming it fits on 4x RTX 6000 Pro GPUs with enough memory headroom for roughly 10 concurrent 200k-token sessions, positioning it as a potential “Opus at home” if Qwen 3.7 matches reported benchmarks.

    • A commenter argues that open-weight frontier releases may be less likely because highly capable local models can undermine provider monetization. They claim Qwen’s strategy has shifted from disruption toward monetized frontier competition, which could affect whether large MoE models like 397B-A17B are released openly.

  • Qwen3.6 35Ba3 has changed my workflows and even how I use my computer (Activity: 567): The post describes a local-agent workflow using Qwen3.6 35B a3 via pi, where the user converts repeatable procedures into “skills” generated/documented by Codex, then reuses them for VPS DevOps, docling PDF→EPUB conversion, Playwright testing, code tickets, and OS-level shell tasks. A concrete example: WhatsApp audio → transcription in AnythingLLM → content.md → locally generated landing page, then a plan.md ticket queue executed by a “manager” pi process spawning fresh-context sub-agents with pi -p @plan.md "Check the first Ticket with Status UNDONE and do it", marking tickets DONE, committing via git, and finally deploying via a VPS skill. Commenters focused on operational concerns: what hardware can run this setup, whether the agent is sandboxed/trustworthy with OS access, and how hard pi is to adopt compared with other agentic tools such as Hermes.

    • A user reports running unsloth/Qwen3.6-35B-A3B-MTP-GGUF via Unsloth Studio on an MS-02 with a 24GB RTX Pro 4000 Blackwell SFF GPU, consistently seeing >100 tokens/s. They compare performance to “unoptimized GGUFs” on a Mac Studio M2, using the MS-02 as a small remote GPU server for the Mac workstation, and note that future MLX support in Unsloth could improve Mac-side performance. Screenshot: preview.redd.it.

  • 110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp (Activity: 565): The post benchmarks Qwen3.6-35B-A3B MTP using byteshape’s IQ4_XS 4.19 bpw GGUF on an RTX 4070 Super 12GB + Ryzen 7 9700X, comparing upstream llama.cpp vs ik_llama.cpp with --ctx-size 131072, q8_0 KV cache, MTP draft max 3, and p_min=0.75. Using the same mtp-bench.py workload, upstream llama.cpp averaged 89.76 tok/s with aggregate MTP accept rate 0.9393, while ik_llama.cpp averaged 110.24 tok/s over 16.64s, a claimed 23% throughput gain, despite lower aggregate accept rate 0.8749 in the updated results. The OP attributes practical fit to --fit/--fit-margin 1664 on ik_llama.cpp, with OOM mitigation by raising --fit-margin to 1792 or 2048, and notes that running the display on an iGPU frees essentially all 12GB VRAM for inference. Commenters focused on reproducibility: they requested the full upstream llama.cpp command and noted that several MTP-related PRs had merged recently, so benchmark timing may depend strongly on build date. One technical workaround suggested for single-GPU CachyOS/KDE users is a software-rendered Plasma Wayland session using LIBGL_ALWAYS_SOFTWARE=1 and GALLIUM_DRIVER=llvmpipe, reducing idle VRAM from roughly >1024MB to 126MB at the cost of slow/disabled compositor effects.

    • A CachyOS/KDE Wayland user described a VRAM-saving workaround for single-GPU systems: create a custom SDDM session that forces KDE Plasma to render via CPU using LIBGL_ALWAYS_SOFTWARE=1, GALLIUM_DRIVER=llvmpipe, and KWIN_COMPOSE=Q. They reported KDE Wayland idle VRAM dropping from > 1024 MB to ~126 MB, freeing nearly a gigabyte of VRAM for running the 35B model, at the cost of disabled or very slow compositor animations.

    • Several commenters focused on whether the reported 110 tok/s comes from ik_llama.cpp having better MTP/speculative decoding behavior than upstream llama.cpp. One noted that ik_llama.cpp’s acceptance rate was reportedly never below 0.790, while llama.cpp dropped as low as 0.477, asking for the exact llama.cpp command/settings and noting that multiple MTP-related PRs had landed in llama.cpp within the previous 24 hours.

    • A commenter asked about the IQ4_XS quantization used for Qwen3.6 35B A3B, noting it appears to be the lowest-memory Q4 quant and requesting details on both model quality/intelligence impact and the final VRAM/RAM split. This highlights the key tradeoff for 12 GB VRAM runs: fitting the model via aggressive quantization versus maintaining reasoning quality and avoiding excessive CPU/RAM offload bottlenecks.

원문 보기 https://www.latent.space/p/ainews-new-ai-infra-decacorns-fireworks