AI·News
뒤로

쿠버네티스 기반 자체 호스팅 LangSmith를 위한 미션 컨트롤

Mission Control for Self-Hosted LangSmith on Kubernetes

Kubernetes에서 LangSmith를 자체 호스팅하면 플랫폼 팀이 인프라, 네트워크 경계, 보안 정책 및 배포 토폴로지를 제어할 수 있습니다. 또한 운영할 것도 더 많아집니다.

LangSmith 배포가 클러스터, 환경 및 팀 전체에 걸쳐 증가함에 따라 일상적인 운영은 일반적으로 여러 도구에 분산됩니다:

  • Helm 배포 및 values.yaml
  • kubectl logs, describe 및 이벤트 검사
  • 관찰 가능성 대시보드 및 모니터링 스택
  • 진단 및 지원 작업을 위한 내부 스크립트

이 모델은 Kubernetes와 가까이 유지되기 때문에 작동하지만, 문맥 전환을 만듭니다. 운영자들은 배포 상태에 대한 기본 질문에 답하거나 문제를 해결하기 위해 Helm, kubectl, 대시보드, 로그, 스크립트 및 문서 사이를 이동합니다.

Mission Control 소개

Mission Control은 자체 호스팅 LangSmith 및 관련 LangChain 인프라를 배포, 구성, 관찰 및 문제 해결하기 위한 분리된 클러스터 내 애플리케이션입니다. Kubernetes 내부에서 실행되며 로컬로 액세스되며, ingress, 외부 제어 평면 또는 추가 데이터베이스 요구사항이 없습니다.

Mission Control은 Kubernetes 기본 요소를 직접 사용한 다음 LangSmith 배포를 이해하는 운영 계층을 추가합니다. 운영자들은 여전히 Helm, pod, 서비스, 네임스페이스, 로그 및 이벤트로 작업합니다. Mission Control은 LangSmith의 맥락에서 이러한 리소스를 검사하고 작동하기가 더 쉽게 만듭니다. 이를 통해 운영자는 가장 일반적인 LangSmith 작업을 위해 단일 인터페이스를 통해 작업할 수 있습니다:

  • 클러스터 및 워크로드 상태 검토
  • 보류 중이거나 실패한 배포 검사
  • 네임스페이스 전체의 pod 수준 CPU 및 메모리 사용량 확인
  • 승격 전 릴리스 검증

Mission Control은 클러스터의 실시간 운영 보기를 유지하므로 팀은 도구 전체에서 상태를 수동으로 상관시키는 데 소요되는 시간이 적어집니다.

핵심 운영 표면

1. 빠른 시작 및 빠른 기능

대부분의 LangSmith 배포는 ingress, Gateway API 지원, 배포, 인사이트 및 에이전트 도구를 포함한 일반적인 운영 기능 세트에 의존합니다. 이러한 기능을 구성하려면 일반적으로 설정 요구사항을 Helm 값으로 변환하고, 환경에 적용되는 옵션을 확인하고, 배포 전에 결과 YAML이 유효한지 확인해야 합니다.

Mission Control은 배포에 필요한 최소 values.yaml을 생성하는 가이드 온보딩 흐름을 제공합니다.

운영자는 모든 설정 단계에 대해 YAML을 수동으로 편집하지 않고도 검증된 구성 변경을 통해 기능을 활성화할 수 있습니다.

2. 구성 관리

Helm 값을 관리하는 것은 오류가 발생하기 쉬울 수 있습니다. 운영자는 환경별 구성을 편집하고, 비밀을 안전하게 처리하고, 업데이트를 적용하기 전에 변경 사항을 이해해야 합니다. Mission Control은 Kubernetes 운영자를 위해 구축된 양방향 Helm 값 편집기를 포함합니다.

다음과 같이 할 수 있습니다:

  • GitHub에서 직접 업스트림 values.yaml 가져오기
  • 에어 갭 환경에 대한 파일 업로드 지원
  • Simple 및 Advanced 모드 모두 지원
  • Fernet 키, 솔트 및 토큰과 같은 민감한 값 마스킹

배포 전에 Mission Control은 비밀 인식 비교를 포함하여 현재 구성과 제안된 구성 사이의 안전한 diff를 표시합니다.

3. 사전 비행 점검

배포 실패는 종종 이전에 확인할 수 있었던 클러스터 조건으로 인해 발생합니다. 변경사항을 배포하기 전에 Mission Control은 일반적인 장애 지점에 대한 클러스터 인식 검증 점검을 실행합니다:

  • 노드 용량 및 스케줄링 제약
  • Kubernetes 버전 호환성
  • DNS 해석
  • 저장소 클래스 가용성
  • 네임스페이스 할당량 및 리소스 제한

이러한 점검은 배포 전에 문제를 포착하여 롤백 및 디버깅 주기를 줄입니다.

4. 상태 및 관찰 가능성

문제가 발생하면 운영자는 문제가 워크로드, 서비스, 네임스페이스, 네트워크 경로 또는 저장소 계층과 관련이 있는지 빠르게 좁혀야 합니다. Health 보기는 운영자에게 LangSmith 워크로드의 통합 스냅샷을 제공합니다.

운영자가 검사할 수 있는 항목:

  • Pod CPU 및 메모리 사용량
  • 서비스 준비 상태 및 상태
  • 실시간 워크로드 로그
  • 서비스 전체의 네트워크 토폴로지
  • PVC 용량 및 저장소 압력

목표는 실질적인 운영 질문에 빠르게 답하는 것입니다. LangSmith가 지금 정상적으로 작동하고 있으며, 그렇지 않다면 실패는 어디에 있습니까?

5. 릴리스 관리

운영자가 현재 배포된 내용, 버전 간 변경 사항 및 이전 배포 시도 중에 발생한 사항을 볼 수 있을 때 업그레이드를 더 쉽게 관리할 수 있습니다. Mission Control은 LangSmith Helm 릴리스에 대한 버전 인식 배포 관리를 제공합니다.

운영자가 볼 수 있는 항목:

  • 변경 로그 컨텍스트를 포함한 사용 가능한 차트 버전
  • 현재 배포된 버전
  • 릴리스 이력
  • 배포 시도에 대한 다운로드 가능한 로그

이것은 팀에게 업그레이드, 드리프트, 실패한 배포 및 롤백 경로를 더 명확하게 볼 수 있게 합니다.

6. LangSmith 인식 운영자 도우미

일부 운영 질문은 Kubernetes뿐만 아니라 LangSmith에만 해당됩니다. 운영자는 설정 작동 방식, 문제 문서화 여부 또는 현재 배포에 적용되는 지침을 이해해야 할 수 있습니다. Mission Control은 LangSmith 운영자를 위한 클러스터 내 채팅 도우미를 포함합니다.

도우미는 다음과 같이 할 수 있습니다:

  • Chat LangChain을 사용하여 LangSmith 질문에 답변
  • 답변을 현재 LangSmith 문서 및 알려진 문제와 일치시켜 유지
  • 데이터가 클러스터를 떠나기 전에 아웃바운드 비밀 제거
  • 각 Mission Control 인스턴스로 대화 이력 범위 지정

이것은 운영자에게 문서, 지원 티켓 및 문제 해결 노트 사이를 뛰지 않고 클러스터 상태에서 관련 지침까지의 더 빠른 경로를 제공합니다.

7. 알림 및 운영 신호

클러스터 조건이 변경되면 운영자는 발생한 사항과 시점에 대한 명확한 기록이 필요합니다. Mission Control은 다음과 같은 운영 이벤트에 대한 규칙 기반 알림을 포함합니다:

  • 워크로드 열화
  • 노드 압력
  • HPA 스케일링 제약
  • 리소스 소진

알림은 Mission Control 내에 지속적인 감사 추적을 만들어 팀에게 운영 이력에 대한 공유 기록을 제공합니다.

8. 추가 기능

글로벌 검색

운영 문제는 종종 여러 리소스에 걸쳐 나타납니다. 실패는 로그, 이벤트, ConfigMap, 릴리스 이력, 알림 또는 지원 스크립트에 나타날 수 있습니다.

Mission Control은 다음을 통해 통합 검색을 제공합니다:

  • Pod 로그 및 설명
  • Kubernetes 이벤트
  • 릴리스
  • 알림 이력

데이터베이스 도구

LangSmith 배포는 일반적으로 Redis, PostgreSQL 및 ClickHouse에 의존합니다. Mission Control은 운영자에게 무제한 데이터베이스 액세스를 제공하지 않고도 이러한 통합을 검사하고 검증하기 위한 제어된 도구를 제공합니다.

기능에는 다음이 포함됩니다:

  • 구성된 외부 데이터베이스의 자동 검색
  • 연결 사전 점검
  • 일반적인 운영 쿼리에 대한 큐레이트된 지원 스크립트
  • 지원 워크플로우에 대한 다운로드 가능한 CSV 내보내기

이것은 팀에게 일반적인 데이터베이스 점검을 위한 감사 가능한 워크플로우를 제공하며, 직접 pod 액세스가 제한되거나 권장되지 않는 관리형 데이터베이스 환경을 포함합니다.

진단 및 사건 대응

실패가 발생하면 Mission Control은 다음과 같은 진단 번들을 생성할 수 있습니다:

  • 네임스페이스 전체의 Pod 로그
  • 클러스터 메타데이터 스냅샷
  • kubectl describe 출력
  • 배포 및 이벤트 타임라인

번들은 단일 다운로드 가능한 아티팩트로 패키징되므로 사건 및 지원 에스컬레이션 중 수동 수집 작업이 줄어듭니다.

마무리하며

Mission Control은 플랫폼 팀에게 이미 사용 중인 Kubernetes 운영 모델에 맞는 자체 호스팅 LangSmith 배포를 관리할 수 있는 방법을 제공합니다. 구성, 검증, 상태, 릴리스 이력, 진단, 데이터베이스 도구 및 지원 워크플로우는 모두 클러스터 내부에 기존 보안 경계 내에서 유지됩니다.

LangSmith를 비공개, 규제 또는 에어 갭 환경에서 실행하는 팀의 경우, 이는 더 적은 ad hoc 스크립트, 더 적은 문맥 전환 및 배포에서 일상적인 운영으로의 더 명확한 경로를 의미합니다.

피드백, 기능 요청 또는 제안이 있으신가요?

우리는 고객 피드백을 기반으로 Mission Control을 계속 개선하고 있습니다. 보고 싶은 것이 있으면 LangChain Support를 통해 알려주세요.

Self-hosting LangSmith on Kubernetes gives platform teams control over infrastructure, network boundaries, security policies, and deployment topology. It also gives them more to operate.

As LangSmith deployments grow across clusters, environments, and teams, day-to-day operations usually spread across several tools:

  • Helm deployments and values.yaml
  • kubectl logs, describe, and event inspection
  • Observability dashboards and monitoring stacks
  • Internal scripts for diagnostics and support tasks

That model works because it stays close to Kubernetes, but it also creates context switching. Operators move between Helm, kubectl, dashboards, logs, scripts, and docs to answer basic questions about deployment state or troubleshoot an issue.

Introducing Mission Control

Mission Control is a decoupled, in-cluster application for deploying, configuring, observing, and troubleshooting self-hosted LangSmith and related LangChain infrastructure. It runs inside Kubernetes and is accessed locally, with no ingress, no external control plane, and no additional database requirement.

Mission Control uses Kubernetes primitives directly, then adds an operational layer that understands LangSmith deployments. Operators still work with Helm, pods, services, namespaces, logs, and events. Mission Control makes those resources easier to inspect and act on in the context of LangSmith. This enables an operator to work through a single interface for the most common LangSmith operations:

  • Review cluster and workload health
  • Inspect pending or failed deployments
  • Check pod-level CPU and memory usage across namespaces
  • Validate releases before promotion

Mission Control maintains a live operational view of the cluster, so teams spend less time manually correlating state across tools.

Core operational surfaces

1. Quick Start and Quick Features

Most LangSmith deployments rely on a common set of operational features, including ingress, Gateway API support, deployments, insights, and agent tooling. Getting those features configured usually means translating setup requirements into Helm values, checking which options apply to the environment, and making sure the resulting YAML is valid before deployment.

Mission Control provides a guided onboarding flow that generates the minimum required values.yaml for a deployment.

Operators can enable features through validated configuration changes without hand-editing YAML for every setup step.

2. Configuration Management

Managing Helm values can be error-prone. Operators need to edit environment-specific config, handle secrets safely, and understand what will change before applying an update. Mission Control includes a bidirectional Helm values editor built for Kubernetes operators.

It can:

  • Pull upstream values.yaml directly from GitHub
  • Support file uploads for air-gapped environments
  • Support both Simple and Advanced modes
  • Mask sensitive values such as Fernet keys, salts, and tokens

Before deployment, Mission Control shows a safe diff between the current and proposed configuration, including secret-aware comparisons.

3. Preflight Checks

Deployment failures are often caused by cluster conditions that could have been checked earlier. Before deploying changes, Mission Control runs cluster-aware validation checks for common failure points:

  • Node capacity and scheduling constraints
  • Kubernetes version compatibility
  • DNS resolution
  • Storage class availability
  • Namespace quotas and resource limits

These checks catch issues before deployment, reducing rollback and debugging cycles.

4. Health and Observability

When something goes wrong, operators need to quickly narrow down whether the issue is with a workload, service, namespace, network path, or storage layer. The Health view gives operators a unified snapshot of LangSmith workloads.

Operators can inspect:

  • Pod CPU and memory usage
  • Service readiness and status
  • Live workload logs
  • Network topology across services
  • PVC capacity and storage pressure

The goal is to answer a practical operational question quickly: Is LangSmith healthy right now, and if not, where is the failure?

5. Release management

Upgrades are easier to manage when operators can see what is currently deployed, what changed between versions, and what happened during previous deployment attempts. Mission Control provides version-aware deployment management for LangSmith Helm releases.

Operators can see:

  • Available chart versions with changelog context
  • Current deployed version
  • Release history
  • Downloadable logs for deployment attempts

This gives teams a clearer view of upgrades, drift, failed deployments, and rollback paths.

6. LangSmith-aware operator assistant

Some operational questions are specific to LangSmith, not just Kubernetes. Operators may need to understand how a setting works, whether an issue is documented, or what guidance applies to their current deployment. Mission Control includes an in-cluster chat assistant for LangSmith operators.

The assistant can:

  • Use Chat LangChain to answer LangSmith questions
  • Keep answers aligned with current LangSmith documentation and known issues
  • Scrub outbound secrets before data leaves the cluster
  • Scope conversation history to each Mission Control instance

This gives operators a faster path from cluster state to relevant guidance, without jumping between docs, support tickets, and troubleshooting notes.

7. Alerts and operational signals

When cluster conditions change, operators need a clear record of what happened and when. Mission Control includes rule-based alerting for operational events such as:

  • Workload degradation
  • Node pressure
  • HPA scaling constraints
  • Resource exhaustion

Alerts create a persistent audit trail inside Mission Control, giving teams a shared record of operational history.

8. Additional features

Global search

Operational issues often show up across multiple resources. A failure might appear in logs, events, ConfigMaps, release history, alerts, or support scripts.

Mission Control provides unified search across:

  • Pod logs and descriptions
  • Kubernetes events
  • Releases
  • Alert history

Database tools

LangSmith deployments commonly depend on Redis, PostgreSQL, and ClickHouse. Mission Control provides controlled tooling for inspecting and validating those integrations without giving operators unrestricted database access.

Capabilities include:

  • Auto-discovery of configured external databases
  • Connectivity preflight checks
  • Curated support scripts for common operational queries
  • Downloadable CSV exports for support workflows

This gives teams auditable workflows for common database checks, including managed database environments where direct pod access is limited or discouraged.

Diagnostics and incident response

When a failure occurs, Mission Control can generate a diagnostic bundle with:

  • Pod logs across namespaces
  • Cluster metadata snapshots
  • kubectl describe output
  • Deployment and event timelines

The bundle is packaged into a single downloadable artifact, which reduces manual collection work during incidents and support escalations.

Closing thoughts

Mission Control gives platform teams a way to manage self-hosted LangSmith deployments that fits the Kubernetes operating model they already use. Configuration, validation, health, release history, diagnostics, database tooling, and support workflows all stay inside the cluster, within existing security boundaries.

For teams running LangSmith in private, regulated, or air-gapped environments, that means fewer ad hoc scripts, fewer context switches, and a clearer path from deployment to day-to-day operations.

Feedback, feature requests, or suggestions?

We’re continuing to improve Mission Control based on customer feedback. If there’s something you’d like to see, let us know through LangChain Support.

원문 보기 https://www.langchain.com/blog/mission-control-operating-self-hosted-langsmith-on-kubernetes