GeekNews · 2026-06-16 · 원문 보기

로컬 모델 실행이 이제 좋아졌다

로컬 모델 실행이 이제 좋아졌다 | GeekNews

2022년형 M2 Mac 환경에서도 로컬 LLM이 개발 질문, 코드 작업, 문서 확인에 실용적으로 쓰일 만큼 성능이 좋아졌음
초기 로컬 모델은 느리고 쓰기 어렵고 프로그래밍 작업 정확도도 낮았지만, GPT-OSS 이후 API 모델로 재확인하는 빈도가 줄어듦
Gemma 4 계열 최신 릴리스로 로컬 에이전트 코딩 루프가 프런티어 모델 대비 약 75% 정확도·속도로 동작함
Pi와 LM Studio 조합은 로컬 추론 엔드포인트, 모델 아티팩트, Docker 격리 구성을 통해 에이전트 워크플로를 실행함
로컬 모델은 추론 지연, 작은 컨텍스트 창, 하드웨어 제약이 남아 있지만 토큰 처리, 시스템 프롬프트, 양자화, 하네스를 직접 관찰하고 바꿀 수 있음

로컬 모델의 현재 위치

초기 로컬 모델은 대부분의 프로그래밍 작업에서 느리고 쓰기 어렵고 정확하지 않았음
로컬 모델이 크게 뒤처져 있다는 판단은 개인 사용 기준에서 GPT-OSS 출시 전까지 대체로 맞았음
“충분히 좋은 모델”의 개인 기준은 API 모델로 다시 확인해야 하는지였고, GPT-OSS는 그 확인 빈도를 크게 줄인 첫 모델이었음
로컬 모델은 최근까지 최신성이 필요 없는 개발 질문에 대한 빠르고 개인화된 Google처럼 주로 쓰였음
Gemma 4 계열 최신 릴리스 이후 로컬에서 에이전트 코딩 루프가 프런티어 모델 대비 약 75% 정확도·속도로 동작함 {p:75}

사용한 모델과 실행 환경

2022년형 M2 Mac, 64GB RAM, 1TB 저장공간 환경에서 여러 로컬 모델을 돌렸음
사용 모델은 Mistral 7B, Gemma 3, OpenAI OSS-20B, Qwen 3 MOE, Qwen 2.5 Coder 등임
실행 구성은 raw llama.cpp와 Open WebUI, llama-cpp-python, Ollama, llamafiles, LM Studio를 거쳤음
기본 로컬 모델은 LM Studio의 gemma-4-26b-a4b 구현으로 두고 사용했음

실제 로컬 에이전트 작업 사례

노트북이던 Python 스크립트를 5~6개 모듈의 저장소로 리팩터링했음
해당 모듈은 PEP 585 기준에 맞춰 제네릭 타입 힌트를 쓰도록 린트했음
블로그 글 교정, 단위 테스트 작성, 추천용 two-tower 모델 저장소 초기 구성에도 로컬 설정을 썼음
빈 상태에서 에이전트가 생성한 two-tower 모델 저장소는 기본적이었지만, 작년에는 가능하다고 생각한 범위를 넘어섰음
모든 에이전트 워크플로는 실행 접근 권한이 제한된 Docker 컨테이너 안에서 돌렸음

자원 사용과 최신 소형 모델

수행한 작업들은 획기적인 작업이라기보다 개인화된 Google 또는 문서 조회에 가까웠음
작업 중 GPU와 RAM 사용량이 커지고 K-V 캐시가 64GB RAM까지 커졌음
단순한 작업이라도 이런 종류의 로컬 모델 작업은 6개월 전만 해도 불가능했음
Gemma-4-12b-qat는 출시 직후부터 크기 대비 성능이 인상적이었음
모델 아키텍처는 성능과 가격 제약이 있을 때 어떤 아키텍처상 절충이 필요한지 질문하게 만듦

로컬 에이전트 모델 실행 구성

로컬 에이전트 플로를 실행하려면 로컬 모델 추론 엔진, 에이전트 하네스, 로컬 모델 아티팩트가 필요함
하네스는 로컬 추론 엔드포인트를 바라보도록 설정해야 하며, 다운로드한 모델 아티팩트는 추론 엔진을 통해 제공해야 함
현재 로컬 구성은 Pi를 에이전트 하네스로, LM Studio를 추론 서버로 사용함
Pi와 LM Studio로 Gemma 4 에이전트 코딩을 설정하는 글을 따라가되 몇 가지 설정을 바꿨음
모델은 글의 Gemma 26B A4B 대신 더 최신이고 작고 빠른 gemma-4-12b-qat를 사용했으며 정확도 손실은 크지 않았음
보안상 모든 Pi 세션은 Docker 컨테이너에서 실행하고 bash 권한만 부여해 Python 코드 실행과 웹 브라우징을 막았음
연구 작업용 별도 이미지에서는 curl 허용을 계획함
Docker 안에서 실행하기 때문에 Pi의 models.json을 수정해 Pi가 모델과 통신하게 했음

Docker 기반 격리 방식

Pi 설정은 baseUrl을 http://host.docker.internal:1234/v1로 두고, API는 openai-completions로 설정했음
Docker Compose 구성은 models.json, 작업 디렉터리, Pi 설정, 세션 디렉터리를 컨테이너에 마운트함
실행 스크립트는 현재 작업 디렉터리를 컨테이너의 워크스페이스로 연결하고, 필요하면 더 안전한 샌드박스 Compose 파일을 추가함
Pi는 작업 중인 저장소에서 실행되며 Docker를 띄우기 때문에 물리 디스크의 파일이나 디렉터리를 직접 지우지 못함
커스텀 모델 json 설정을 컨테이너 안으로 전달할 수 있어 실험 환경에서 비교적 잘 동작했음

남은 한계

로컬 모델은 아직 추론이 느릴 수 있고, 컨텍스트 창은 작으며, 사용 가능한 컨텍스트는 보유 하드웨어에 제한됨
생태계는 LM Studio와 Hugging Face의 Use This Model 버튼 같은 도구 덕분에 훨씬 쉬워졌음
초기 릴리스는 프롬프트 템플릿 불일치 문제를 겪지만, 이런 문제는 보통 매우 빠르게 패치됨
프로덕션 소프트웨어 개발에 바로 쓸 준비가 됐다고 확신하기는 아직 어려움

로컬 모델의 장점과 실험 가능성

로컬 모델은 거의 모든 것을 들여다볼 수 있으며, 토큰 추론 과정을 실시간으로 볼 수 있음
입력·출력 토큰 흐름을 직접 확인할 수 있음
로컬 컨텍스트 창을 바꾸며 성능이 좋아지거나 나빠지는 과정을 확인할 수 있음
토큰이 GPU에서 처리되는 방식을 파고들 수 있고, 시스템 프롬프트와 양자화 설정도 바꿀 수 있음
모델끼리 맞붙이거나 하네스 쪽 설정을 바꾸고 관찰할 수 있어 실험 가능성이 계속 넓어짐

#local-llm #performance-improvement #open-source-models #gemma #coding-assistance