Kubernetes에서 LangSmith를 자체 호스팅하면 플랫폼 팀이 인프라, 네트워크 경계, 보안 정책 및 배포 토폴로지를 제어할 수 있습니다. 또한 운영할 것도 더 많아집니다.
LangSmith 배포가 클러스터, 환경 및 팀 전체에 걸쳐 증가함에 따라 일상적인 운영은 일반적으로 여러 도구에 분산됩니다:
- Helm 배포 및
values.yaml kubectl logs,describe및 이벤트 검사- 관찰 가능성 대시보드 및 모니터링 스택
- 진단 및 지원 작업을 위한 내부 스크립트
이 모델은 Kubernetes와 가까이 유지되기 때문에 작동하지만, 문맥 전환을 만듭니다. 운영자들은 배포 상태에 대한 기본 질문에 답하거나 문제를 해결하기 위해 Helm, kubectl, 대시보드, 로그, 스크립트 및 문서 사이를 이동합니다.
Mission Control 소개
Mission Control은 자체 호스팅 LangSmith 및 관련 LangChain 인프라를 배포, 구성, 관찰 및 문제 해결하기 위한 분리된 클러스터 내 애플리케이션입니다. Kubernetes 내부에서 실행되며 로컬로 액세스되며, ingress, 외부 제어 평면 또는 추가 데이터베이스 요구사항이 없습니다.
Mission Control은 Kubernetes 기본 요소를 직접 사용한 다음 LangSmith 배포를 이해하는 운영 계층을 추가합니다. 운영자들은 여전히 Helm, pod, 서비스, 네임스페이스, 로그 및 이벤트로 작업합니다. Mission Control은 LangSmith의 맥락에서 이러한 리소스를 검사하고 작동하기가 더 쉽게 만듭니다. 이를 통해 운영자는 가장 일반적인 LangSmith 작업을 위해 단일 인터페이스를 통해 작업할 수 있습니다:
- 클러스터 및 워크로드 상태 검토
- 보류 중이거나 실패한 배포 검사
- 네임스페이스 전체의 pod 수준 CPU 및 메모리 사용량 확인
- 승격 전 릴리스 검증
Mission Control은 클러스터의 실시간 운영 보기를 유지하므로 팀은 도구 전체에서 상태를 수동으로 상관시키는 데 소요되는 시간이 적어집니다.
핵심 운영 표면
1. 빠른 시작 및 빠른 기능
대부분의 LangSmith 배포는 ingress, Gateway API 지원, 배포, 인사이트 및 에이전트 도구를 포함한 일반적인 운영 기능 세트에 의존합니다. 이러한 기능을 구성하려면 일반적으로 설정 요구사항을 Helm 값으로 변환하고, 환경에 적용되는 옵션을 확인하고, 배포 전에 결과 YAML이 유효한지 확인해야 합니다.
Mission Control은 배포에 필요한 최소 values.yaml을 생성하는 가이드 온보딩 흐름을 제공합니다.
운영자는 모든 설정 단계에 대해 YAML을 수동으로 편집하지 않고도 검증된 구성 변경을 통해 기능을 활성화할 수 있습니다.
2. 구성 관리
Helm 값을 관리하는 것은 오류가 발생하기 쉬울 수 있습니다. 운영자는 환경별 구성을 편집하고, 비밀을 안전하게 처리하고, 업데이트를 적용하기 전에 변경 사항을 이해해야 합니다. Mission Control은 Kubernetes 운영자를 위해 구축된 양방향 Helm 값 편집기를 포함합니다.
다음과 같이 할 수 있습니다:
- GitHub에서 직접 업스트림
values.yaml가져오기 - 에어 갭 환경에 대한 파일 업로드 지원
- Simple 및 Advanced 모드 모두 지원
- Fernet 키, 솔트 및 토큰과 같은 민감한 값 마스킹
배포 전에 Mission Control은 비밀 인식 비교를 포함하여 현재 구성과 제안된 구성 사이의 안전한 diff를 표시합니다.
3. 사전 비행 점검
배포 실패는 종종 이전에 확인할 수 있었던 클러스터 조건으로 인해 발생합니다. 변경사항을 배포하기 전에 Mission Control은 일반적인 장애 지점에 대한 클러스터 인식 검증 점검을 실행합니다:
- 노드 용량 및 스케줄링 제약
- Kubernetes 버전 호환성
- DNS 해석
- 저장소 클래스 가용성
- 네임스페이스 할당량 및 리소스 제한
이러한 점검은 배포 전에 문제를 포착하여 롤백 및 디버깅 주기를 줄입니다.
4. 상태 및 관찰 가능성
문제가 발생하면 운영자는 문제가 워크로드, 서비스, 네임스페이스, 네트워크 경로 또는 저장소 계층과 관련이 있는지 빠르게 좁혀야 합니다. Health 보기는 운영자에게 LangSmith 워크로드의 통합 스냅샷을 제공합니다.
운영자가 검사할 수 있는 항목:
- Pod CPU 및 메모리 사용량
- 서비스 준비 상태 및 상태
- 실시간 워크로드 로그
- 서비스 전체의 네트워크 토폴로지
- PVC 용량 및 저장소 압력
목표는 실질적인 운영 질문에 빠르게 답하는 것입니다. LangSmith가 지금 정상적으로 작동하고 있으며, 그렇지 않다면 실패는 어디에 있습니까?
5. 릴리스 관리
운영자가 현재 배포된 내용, 버전 간 변경 사항 및 이전 배포 시도 중에 발생한 사항을 볼 수 있을 때 업그레이드를 더 쉽게 관리할 수 있습니다. Mission Control은 LangSmith Helm 릴리스에 대한 버전 인식 배포 관리를 제공합니다.
운영자가 볼 수 있는 항목:
- 변경 로그 컨텍스트를 포함한 사용 가능한 차트 버전
- 현재 배포된 버전
- 릴리스 이력
- 배포 시도에 대한 다운로드 가능한 로그
이것은 팀에게 업그레이드, 드리프트, 실패한 배포 및 롤백 경로를 더 명확하게 볼 수 있게 합니다.
6. LangSmith 인식 운영자 도우미
일부 운영 질문은 Kubernetes뿐만 아니라 LangSmith에만 해당됩니다. 운영자는 설정 작동 방식, 문제 문서화 여부 또는 현재 배포에 적용되는 지침을 이해해야 할 수 있습니다. Mission Control은 LangSmith 운영자를 위한 클러스터 내 채팅 도우미를 포함합니다.
도우미는 다음과 같이 할 수 있습니다:
- Chat LangChain을 사용하여 LangSmith 질문에 답변
- 답변을 현재 LangSmith 문서 및 알려진 문제와 일치시켜 유지
- 데이터가 클러스터를 떠나기 전에 아웃바운드 비밀 제거
- 각 Mission Control 인스턴스로 대화 이력 범위 지정
이것은 운영자에게 문서, 지원 티켓 및 문제 해결 노트 사이를 뛰지 않고 클러스터 상태에서 관련 지침까지의 더 빠른 경로를 제공합니다.
7. 알림 및 운영 신호
클러스터 조건이 변경되면 운영자는 발생한 사항과 시점에 대한 명확한 기록이 필요합니다. Mission Control은 다음과 같은 운영 이벤트에 대한 규칙 기반 알림을 포함합니다:
- 워크로드 열화
- 노드 압력
- HPA 스케일링 제약
- 리소스 소진
알림은 Mission Control 내에 지속적인 감사 추적을 만들어 팀에게 운영 이력에 대한 공유 기록을 제공합니다.
8. 추가 기능
글로벌 검색
운영 문제는 종종 여러 리소스에 걸쳐 나타납니다. 실패는 로그, 이벤트, ConfigMap, 릴리스 이력, 알림 또는 지원 스크립트에 나타날 수 있습니다.
Mission Control은 다음을 통해 통합 검색을 제공합니다:
- Pod 로그 및 설명
- Kubernetes 이벤트
- 릴리스
- 알림 이력
데이터베이스 도구
LangSmith 배포는 일반적으로 Redis, PostgreSQL 및 ClickHouse에 의존합니다. Mission Control은 운영자에게 무제한 데이터베이스 액세스를 제공하지 않고도 이러한 통합을 검사하고 검증하기 위한 제어된 도구를 제공합니다.
기능에는 다음이 포함됩니다:
- 구성된 외부 데이터베이스의 자동 검색
- 연결 사전 점검
- 일반적인 운영 쿼리에 대한 큐레이트된 지원 스크립트
- 지원 워크플로우에 대한 다운로드 가능한 CSV 내보내기
이것은 팀에게 일반적인 데이터베이스 점검을 위한 감사 가능한 워크플로우를 제공하며, 직접 pod 액세스가 제한되거나 권장되지 않는 관리형 데이터베이스 환경을 포함합니다.
진단 및 사건 대응
실패가 발생하면 Mission Control은 다음과 같은 진단 번들을 생성할 수 있습니다:
- 네임스페이스 전체의 Pod 로그
- 클러스터 메타데이터 스냅샷
kubectl describe출력- 배포 및 이벤트 타임라인
번들은 단일 다운로드 가능한 아티팩트로 패키징되므로 사건 및 지원 에스컬레이션 중 수동 수집 작업이 줄어듭니다.
마무리하며
Mission Control은 플랫폼 팀에게 이미 사용 중인 Kubernetes 운영 모델에 맞는 자체 호스팅 LangSmith 배포를 관리할 수 있는 방법을 제공합니다. 구성, 검증, 상태, 릴리스 이력, 진단, 데이터베이스 도구 및 지원 워크플로우는 모두 클러스터 내부에 기존 보안 경계 내에서 유지됩니다.
LangSmith를 비공개, 규제 또는 에어 갭 환경에서 실행하는 팀의 경우, 이는 더 적은 ad hoc 스크립트, 더 적은 문맥 전환 및 배포에서 일상적인 운영으로의 더 명확한 경로를 의미합니다.
피드백, 기능 요청 또는 제안이 있으신가요?
우리는 고객 피드백을 기반으로 Mission Control을 계속 개선하고 있습니다. 보고 싶은 것이 있으면 LangChain Support를 통해 알려주세요.