• 2022년형 M2 Mac 환경에서도 로컬 LLM이 개발 질문, 코드 작업, 문서 확인에 실용적으로 쓰일 만큼 성능이 좋아졌음
  • 초기 로컬 모델은 느리고 쓰기 어렵고 프로그래밍 작업 정확도도 낮았지만, GPT-OSS 이후 API 모델로 재확인하는 빈도가 줄어듦
  • Gemma 4 계열 최신 릴리스로 로컬 에이전트 코딩 루프가 프런티어 모델 대비 약 75% 정확도·속도로 동작함
  • Pi와 LM Studio 조합은 로컬 추론 엔드포인트, 모델 아티팩트, Docker 격리 구성을 통해 에이전트 워크플로를 실행함
  • 로컬 모델은 추론 지연, 작은 컨텍스트 창, 하드웨어 제약이 남아 있지만 토큰 처리, 시스템 프롬프트, 양자화, 하네스를 직접 관찰하고 바꿀 수 있음

로컬 모델의 현재 위치

  • 초기 로컬 모델은 대부분의 프로그래밍 작업에서 느리고 쓰기 어렵고 정확하지 않았음
  • 로컬 모델이 크게 뒤처져 있다는 판단은 개인 사용 기준에서 GPT-OSS 출시 전까지 대체로 맞았음
  • “충분히 좋은 모델”의 개인 기준은 API 모델로 다시 확인해야 하는지였고, GPT-OSS는 그 확인 빈도를 크게 줄인 첫 모델이었음
  • 로컬 모델은 최근까지 최신성이 필요 없는 개발 질문에 대한 빠르고 개인화된 Google처럼 주로 쓰였음
  • Gemma 4 계열 최신 릴리스 이후 로컬에서 에이전트 코딩 루프가 프런티어 모델 대비 약 75% 정확도·속도로 동작함 {p:75}

사용한 모델과 실행 환경

실제 로컬 에이전트 작업 사례

  • 노트북이던 Python 스크립트를 5~6개 모듈의 저장소로 리팩터링했음
  • 해당 모듈은 PEP 585 기준에 맞춰 제네릭 타입 힌트를 쓰도록 린트했음
  • 블로그 글 교정, 단위 테스트 작성, 추천용 two-tower 모델 저장소 초기 구성에도 로컬 설정을 썼음
  • 빈 상태에서 에이전트가 생성한 two-tower 모델 저장소는 기본적이었지만, 작년에는 가능하다고 생각한 범위를 넘어섰음
  • 모든 에이전트 워크플로는 실행 접근 권한이 제한된 Docker 컨테이너 안에서 돌렸음

자원 사용과 최신 소형 모델

  • 수행한 작업들은 획기적인 작업이라기보다 개인화된 Google 또는 문서 조회에 가까웠음
  • 작업 중 GPU와 RAM 사용량이 커지고 K-V 캐시가 64GB RAM까지 커졌음
  • 단순한 작업이라도 이런 종류의 로컬 모델 작업은 6개월 전만 해도 불가능했음
  • Gemma-4-12b-qat는 출시 직후부터 크기 대비 성능이 인상적이었음
  • 모델 아키텍처는 성능과 가격 제약이 있을 때 어떤 아키텍처상 절충이 필요한지 질문하게 만듦

로컬 에이전트 모델 실행 구성

  • 로컬 에이전트 플로를 실행하려면 로컬 모델 추론 엔진, 에이전트 하네스, 로컬 모델 아티팩트가 필요함
  • 하네스는 로컬 추론 엔드포인트를 바라보도록 설정해야 하며, 다운로드한 모델 아티팩트는 추론 엔진을 통해 제공해야 함
  • 현재 로컬 구성은 Pi를 에이전트 하네스로, LM Studio를 추론 서버로 사용함
  • Pi와 LM Studio로 Gemma 4 에이전트 코딩을 설정하는 글을 따라가되 몇 가지 설정을 바꿨음
    • 모델은 글의 Gemma 26B A4B 대신 더 최신이고 작고 빠른 gemma-4-12b-qat를 사용했으며 정확도 손실은 크지 않았음
    • 보안상 모든 Pi 세션은 Docker 컨테이너에서 실행하고 bash 권한만 부여해 Python 코드 실행과 웹 브라우징을 막았음
    • 연구 작업용 별도 이미지에서는 curl 허용을 계획함
    • Docker 안에서 실행하기 때문에 Pi의 models.json을 수정해 Pi가 모델과 통신하게 했음

Docker 기반 격리 방식

  • Pi 설정은 baseUrlhttp://host.docker.internal:1234/v1로 두고, API는 openai-completions로 설정했음
  • Docker Compose 구성은 models.json, 작업 디렉터리, Pi 설정, 세션 디렉터리를 컨테이너에 마운트함
  • 실행 스크립트는 현재 작업 디렉터리를 컨테이너의 워크스페이스로 연결하고, 필요하면 더 안전한 샌드박스 Compose 파일을 추가함
  • Pi는 작업 중인 저장소에서 실행되며 Docker를 띄우기 때문에 물리 디스크의 파일이나 디렉터리를 직접 지우지 못함
  • 커스텀 모델 json 설정을 컨테이너 안으로 전달할 수 있어 실험 환경에서 비교적 잘 동작했음

남은 한계

  • 로컬 모델은 아직 추론이 느릴 수 있고, 컨텍스트 창은 작으며, 사용 가능한 컨텍스트는 보유 하드웨어에 제한됨
  • 생태계는 LM Studio와 Hugging Face의 Use This Model 버튼 같은 도구 덕분에 훨씬 쉬워졌음
  • 초기 릴리스는 프롬프트 템플릿 불일치 문제를 겪지만, 이런 문제는 보통 매우 빠르게 패치됨
  • 프로덕션 소프트웨어 개발에 바로 쓸 준비가 됐다고 확신하기는 아직 어려움

로컬 모델의 장점과 실험 가능성

  • 로컬 모델은 거의 모든 것을 들여다볼 수 있으며, 토큰 추론 과정을 실시간으로 볼 수 있음
  • 입력·출력 토큰 흐름을 직접 확인할 수 있음
  • 로컬 컨텍스트 창을 바꾸며 성능이 좋아지거나 나빠지는 과정을 확인할 수 있음
  • 토큰이 GPU에서 처리되는 방식을 파고들 수 있고, 시스템 프롬프트와 양자화 설정도 바꿀 수 있음
  • 모델끼리 맞붙이거나 하네스 쪽 설정을 바꾸고 관찰할 수 있어 실험 가능성이 계속 넓어짐