Ask HN: 일상적인 코딩에서 Claude/GPT를 로컬 모델로 대체한 사람이 있나요?

Ask HN: 일상적인 코딩에서 Claude/GPT를 로컬 모델로 대체한 사람이 있나요? | GeekNews

데이터 프라이버시와 LLM의 무료 사용을 이유로 클라우드 모델을 완전히 떠난 개발자들이 등장 중이며, 컨테이너화·샌드박스화된 오프라인 코딩 하니스로 외부 네트워크 호출 없이 작업 가능
주력 모델은 Qwen3.6 35B-A3B(활성 파라미터 3b로 빠른 속도)와 27B 덴스 모델로, 코딩 정확도와 토큰 생성 속도 간 트레이드오프 존재
Pi 하니스와 llama.cpp가 가장 많이 언급되는 조합이며, 도구 호출(tool calling)이 로컬 모델에서 처음으로 일관되게 작동한 점이 사용 경험을 크게 개선
Claude Opus 대비 로컬 모델은 "가이드가 필요한 주니어 vs 함께 설계하는 시니어" 수준 차이로, 정밀한 프롬프트와 작업 분해가 필수
현재 로컬 모델은 약 8~18개월 전 프론티어 수준으로 평가되나, 무료·프라이버시·할당량 걱정 없음이라는 실질적 이점 제공

로컬 모델 전환 사례와 하드웨어 구성

Qwen3.6 35B-A3B를 Mac Studio 128GB 또는 MacBook 36GB RAM에서 Pi 하니스로 구동, Django + Wagtail 기반 웹사이트 홈페이지·블로그 전체 재설계 완료
인터넷 접근 없이 덜 알려진 Wagtail 개발 시 모델이 항상 방법을 알지는 못함
복잡한 작업에는 Qwen3.5 122b 사용하나 활성 10b 파라미터로 상당히 느림
Strix Halo 128GB 통합 메모리 환경에서 Pi를 컨테이너로 격리, 자격증명 없이 작업 디렉토리만 접근 허용
채팅·번역은 Gemma 4 31B, 오디오는 Gemma 4 12B 사용
Qwen 3.5 122B-A10B, Nemotron 3 Super 122B-A12B, Step 3.7 Flash, GPT-OSS 120B 등 다수 모델 보유하나 코딩은 35B-A3B가 최적
5년 전 제작한 듀얼 RTX3090 머신에서 Qwen·Gemma 모델을 UD-Q4_K_XL 양자화로 ~150tok/s 달성, 300k 컨텍스트 전체를 VRAM 내 처리
$100/월 Claude 구독을 대체했고 개인 용도로는 무료가 우선
안드로이드 TV 런처, k8s 관리 포털, 홈어시스턴트 통합, 식료품·식단 관리 등 다양한 프로젝트 수행
RTX 6000으로 Qwen 3.6 27b + Open Code 조합, 코딩 90% 처리하나 매우 복잡한 작업과 UI 폴리싱은 Codex로 회귀
256k 컨텍스트에서 100k 초과 시 품질·속도 저하, 150k 이후 심각해짐
RTX 5090에서 Qwen 3.6 27b(Q6 양자화) + llama.cpp, GPU를 600W→450W로 제한해 정숙성 확보
브랜치 커밋·PR 생성, Stripe CLI 인보이스 정산, Elasticsearch 부하 분석 등 일상 업무로 확장

모델 종류와 성능 특성

MoE vs 덴스 모델 구분이 코딩 품질에 직접 영향
Qwen3.5-122B는 실제로 122B-A10B로 10B만 활성화되는 MoE, Qwen3.6-27B는 27B 전체가 항상 활성화되는 덴스 모델
MoE 활성·전체 파라미터의 기하평균으로 덴스 등가 품질 근사 가능, sqrt(35×10)≈18.7
MoE는 같은 크기 대비 품질은 낮으나 속도가 빠르며, CPU RAM 오프로드로도 큰 MoE 구동 가능
양자화 수준이 루프 발생과 정확도에 영향
Q8 양자화는 느리지만 루프를 줄여 전체 시간 절약
KV 캐시의 K 부분 양자화에 매우 민감, F16 K + Q8 V로 루프 대폭 감소
듀얼 GPU 추가는 추론 속도가 아닌 VRAM 용량 확보가 목적
Gemma-4 31B 덴스와 26B MoE 모두 Q4 양자화 시 유사 품질이나 MoE가 ~3배 빠름(150tok/s vs 46tok/s)

로컬 모델의 한계와 대응 전략

정밀한 프롬프트 필요
가정을 열어두면 모델이 최단 경로(예: HTML 내 CSS)를 택해 아키텍처 측면에서 최선이 아닌 결과 산출
아키텍처를 명시하지 않으면 빠르고 지저분한 수정을 하며, 디버그 문장 제거를 지시하지 않으면 남겨둠
Claude Opus는 사용자 의도를 추론하나 작은 Qwen 모델은 지시한 것만 수행, 설계 지식을 명시적으로 "활성화"해야 함
루프 및 편집 도구 오류
편집 도구 호출을 자주 틀리고, 재시도 대신 사고 토큰을 소모하며 파일을 재독해
직접 재시도가 편집 호출을 고치는 경우가 많으나, 모델이 문제를 더 근본적이라 가정해 불필요한 토큰 소비
해시 기반 편집 접근(각 코드 라인 해시 참조)으로 편집 오류 감소 가능하나, 컨텍스트 품질 소진 후 다른 방식으로 붕괴
AGENTS.md 규칙으로 재작성 대신 편집을 제한하면 부분적 개선
컨텍스트 윈도우 관리
65,000 윈도우는 코드 파일 구조 읽기만으로도 초과, 200k 이상 필요
Qwen3.6-35b는 256k 컨텍스트를 16gb VRAM에서 128k로 정상 처리
Qwen3.6-27B는 100만 토큰 컨텍스트 지원, DGX Spark에서 f16 KV 캐시로 약 100GB 메모리 소요

프롬프트 캐싱과 추론 보존 문제

Qwen 하이브리드 모델이 프롬프트 캐싱을 처리하지 못하고 매 턴 컨텍스트 전체를 재처리하는 문제 발생
대부분의 로컬 모델은 턴 간 전체 추론 보존 학습이 안 되어, 긴 도구 호출 체인 후 추론이 제거된 채 재처리 필요
Qwen 3.6은 추론 보존을 학습해 chat-template-kwargs = {"preserve_thinking": true} 설정으로 캐시 재사용 개선
현대 LLM은 풀 어텐션만 쓰지 않고 로컬 어텐션(슬라이딩 윈도우, Mamba-2 상태공간 모델) 사용
풀 어텐션은 O(n²)로 비용이 크고 시간에 따라 값이 교체되는 추론에 약함
로컬 어텐션은 스냅샷을 저장해 캐시 재계산 시 마지막 스냅샷부터 시작, 단 스냅샷이 크면 보관 한계 존재
Qwen 3.5 이상은 어텐션과 SSM 레이어를 교차하는 Gated DeltaNet 사용
Vulkan이 ROCm보다 역설적으로 빠르며 llama.cpp 최신 버전 유지가 재처리 문제 해결에 중요
자기회귀 생성 토큰이 프리필 시 다르게 파싱되는 토크나이저 발산 문제는 해결이 어려움

비용·전력 경제성 논쟁

2x RTX3090은 약 $4400으로 $100/월 Claude 기준 3.6년치, 전력·기타 부품 미포함
3.6년 후에도 고용량 GPU 가격은 유지될 가능성 높음
손익분기점이 약 1년인 고전력 비용 지역도 존재
전력 소비는 예상보다 낮은 편
1.2kw 풀가동 시 약 $0.12/시간, 솔라 연결 시 더 저렴
추론 부하는 게임과 달라 전력 문제 미미, 시스템 유휴 200W·추론 350-450W 수준
하드웨어 구매 시점 관련
현재는 구매 적기 아니며 24-36개월 후가 다음 적기로 전망
48gb 통합 RAM M4 Pro Mac mini ~$2k가 예산형 추론 장비로 추천, ~150tok/s로 향후 10년 사용 가능
AMD R9700 32gb VRAM ~$1200-1400이 2x 9070보다 AI 용도에 유리
렌트(클라우드 구독)도 정당한 전략이며, 모두가 하드웨어에 큰돈을 투입할 수는 없음

프론티어 모델 대비 평가

로컬 모델은 "8~12개월 전 엣지 모델 품질" 수준이라는 평가가 반복
벤치마크상 Qwen 3.6 35B-A3B가 Claude 4 Opus를 능가하나, 일부 오픈소스 모델의 벤치맥싱 가능성 존재
한 YouTube 브라우저 OS 테스트에서 Qwen 3.6이 Claude 4 Opus보다 더 많은 작동 기능 생성
다만 1년 전 프론티어 모델 기준이며, 3B 활성 MoE는 최신 Opus·Sonnet과 비교 불가라는 반론도 강함
"Opus 급"의 정의 불일치가 논쟁의 핵심
2024년 Claude 3 Opus부터 명칭 사용, Opus 4.8·4.6 최신 모델과는 여전히 격차
작년 11월 Opus 4.5·GPT 5.2에서 프론티어 모델의 단계적 도약 발생, 통상 "Opus 급"은 4.5 이후를 의미
가장 큰 오픈 가중치 모델은 8x H100 서버급 하드웨어 필요, 가정용 모델은 아직 미달
일부는 로컬 모델을 Haiku 4.5~Sonnet 4.5 사이로 평가, 마이크로매니징 시 좋은 결과 산출
프론티어와 로컬 간 격차는 항상 존재할 가능성, 단 많은 사용자에게 로컬은 이미 실용적 수준

하니스와 워크플로 전략

Pi 하니스가 가장 많이 추천되며 에이전트 개발 키트 성격, "Claude의 vscode에 대한 neovim" 비유
기본 도구(파일 접근·편집·bash) 제공, MCP 어댑터·웹 검색 확장 추가 가능
/tree 명령으로 실패한 도구 호출 이전으로 컨텍스트 복귀, /new로 컨텍스트 초기화
계층적·역할 분담 워크플로로 한계 보완
프론티어 모델로 스펙·설계·실행 계획 작성, 로컬 모델로 구현하는 분업 구조
에이전트를 역할별로 연결(프로젝트 매니저·스키마 에이전트·코딩 에이전트), 오케스트레이터와 Playwright로 오류만 다음 단계 전달
작업을 원자적 TODO로 분해하고 참조 파일을 명시해 컨텍스트 절약
OpenCode는 매 턴 시스템 프롬프트를 변경해 KV 캐시와 호환 안 되는 경우 존재, 로컬 LLM 지원 설정이 수동적·복잡
Ollama는 클라우드 모델 추가와 수익화로 비판받으며 llama.cpp·llama-swap 권장, macOS는 llm-mlx가 10-15% 더 빠름

구체적 설정 공유 사례

AMD 7900xtx 24gb + 5950x + 64gb DDR4 환경에서 Qwen3.6-27B-MTP-UD-Q4_K_XL을 llama.cpp Vulkan으로 구동
주요 플래그: -ngl 99(전 레이어 GPU 오프로드), -c 80000(80K 컨텍스트), --cache-type-k q8_0 --cache-type-v q8_0(8비트 KV 캐시), -fa on(플래시 어텐션), --spec-type draft-mtp(MTP 드래프트)
샘플링: --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0(Qwen 코딩 권장값)
성능: 토큰 생성 ~65t/s, 프롬프트 처리 ~600t/s, 콜드 스타트 ~30초
Crush 하니스 + Headroom + Exa MCP 웹 검색 조합으로 개인 Claude Code 구독 해지
V100 32GB에서 Qwen3.6-27B-UD-Q4_K_XL + Pi, llama-cpp-turboquant 포크와 MTP 패치 적용
200,000 컨텍스트, --spec-type mpt --cache-type-k turbo3 --cache-type-v turbo3로 45-60 t/s
Strix Halo 128GB에서 Qwen3.6-35B-A3B, 프롬프트 처리 ~800tps·토큰 생성 50tps, 유휴 시 전력 거의 소비 안 함
122B 버전 미출시로 아쉬움, 통합 메모리 환경에서 덴스 모델은 메모리 대역폭 한계로 느림
상세 정보 부족에 대한 불만도 제기되며, 양자화·파라미터·컨텍스트·GPU·VRAM·하니스 구성의 구체적 명시 요구

Ask HN: 일상적인 코딩에서 Claude/GPT를 로컬 모델로 대체한 사람이 있나요?

로컬 모델 전환 사례와 하드웨어 구성

모델 종류와 성능 특성

로컬 모델의 한계와 대응 전략

정밀한 프롬프트 필요

루프 및 편집 도구 오류

컨텍스트 윈도우 관리

프롬프트 캐싱과 추론 보존 문제

비용·전력 경제성 논쟁

프론티어 모델 대비 평가

하니스와 워크플로 전략

구체적 설정 공유 사례