오늘 Interrupt에서 팀들이 에이전트 개발 수명주기를 가속화할 수 있도록 돕기 위해 많은 새로운 제품과 기능을 발표했습니다. 일부는 직접 구축하는 데 분기가 걸릴 인프라를 처리합니다. 다른 것들은 무엇이 깨졌는지 찾고, 이유를 이해하고, 자동으로 더 빠르게 수정을 배포하는 것을 도와줍니다. 이것이 우리가 제공한 것입니다.
LangSmith Engine
지금까지 에이전트를 개선하는 것은 트레이스를 읽고, 패턴을 찾고, 평가를 작성하고, 수정을 만드는 수동 프로세스였습니다. LangSmith Engine은 자율적 에이전트 실행으로 해당 루프를 당신을 위해 실행합니다. 프로덕션 트레이스를 모니터링하고, 실패를 명명된 이슈로 클러스터링하고, 코드에 대해 근본 원인을 진단하고, 재발을 방지하기 위해 수정 및 평가 범위를 제안합니다. 당신은 단지 개선 사항을 검토하고 병합하면 됩니다.
Engine이 노출하는 각 이슈에 대해 다음을 수행할 수 있습니다:
- 대상 코드 또는 프롬프트 수정을 포함한 PR 열기
- 정확한 문제에만 범위가 지정된 커스텀 온라인 평가자 만들기, 재발 시 자동으로 다시 노출되도록
- 실패한 트레이스를 오프라인 평가 모음에 기본 사실 예시로 추가
Engine은 LangSmith의 기존 트레이싱 및 평가 인프라 위에 구축되었으므로, 팀이 이미 실행 중인 워크플로우에 플러그인됩니다. Cogent와 Campfire는 이를 사용하여 수천 개의 트레이스에 영향을 미치는 이슈를 해결했습니다. 현재 공개 베타에서 사용 가능합니다.
SmithDB
SmithDB는 에이전트 관찰성을 위해 목적 제작된 데이터베이스로, 이제 핵심 LangSmith 워크로드를 지원합니다. 에이전트 트레이스의 볼륨과 크기가 급증했으며, 깊게 중첩된 스팬, 오래 실행되는 작업, 몇 시간에 걸쳐 부분적으로 도착하는 이벤트가 있습니다. 이를 분석하는 데 필요한 쿼리 패턴(무작위 접근, 대화형 필터링, 전문 검색, JSON 필터링, 트리 인식 쿼리, 스레드 재구성, 집계)은 근본적으로 새로운 아키텍처가 필요합니다.
SmithDB는 Rust로 Apache DataFusion 및 Vortex 위에 구축되었으며, 지속적 트레이스 데이터를 위한 객체 저장소, 작은 Postgres 메타스토어, 그리고 상태가 없는 수집, 쿼리 및 압축 서비스를 갖추고 있습니다.
이것이 제공하는 것:
- 성능: 핵심 LangSmith 경험에서 최대 15배 빠르며, P50 트레이스 트리 로드는 92ms, P50 단일 실행 로드는 71ms
- 이동성: 객체 저장소 지원 및 상태가 없으므로, 컴퓨팅을 추가하여 확장되며 전통적 데이터베이스 클러스터보다 자체 호스팅 및 멀티클라우드 환경에서 실행하기가 훨씬 쉽습니다.
- 에이전트 네이티브 쿼리 패턴: 실행당 여러 이벤트가 있는 오래 실행되는 스팬, 대용량 페이로드, 전문 검색 및 서브초 지연 시간의 JSON 필터링을 위해 설계되었습니다.
관리 Deep Agents
Managed Deep Agents는 LangSmith에서 깊은 에이전트를 만들고, 실행하고, 운영하기 위한 API 우선 호스팅 런타임을 개발자에게 제공합니다. 오픈소스 Deep Agents 하네스를 중심으로 구축되었으며, 팀이 자신의 에이전트 서버를 설정하거나 모든 에이전트 주위에 런타임 인프라를 재구축할 필요 없이 계획을 세우고, 도구를 사용하고, 서브에이전트에 위임하고, 파일을 작성하고, 더 긴 시간 범위에 걸쳐 작업할 수 있는 에이전트를 지원합니다.
이는 지속적 실행, 지속적 컨텍스트, 도구 접근, 샌드박스 코드 실행, 프로덕션 가시성이 필요한 에이전트를 위해 설계되었습니다. 개발자는 친숙한 Deep Agents 프로젝트 구조를 사용하여 에이전트를 정의하고, /v1/deepagents API를 통해 프로그래매틱하게 관리하고, LangSmith에서 모든 실행을 검사할 수 있습니다.
주요 기능:
- 관리 런타임은 API를 통해 깊은 에이전트를 만들고, 업데이트하고, 관리하고, 실행합니다.
- 지속적 스레드, 스트리밍 실행, 체크포인팅 및 휴먼-인-더-루프 워크플로우는 오래 실행되는 작업을 위한 것입니다.
- 에이전트 컨텍스트 및 파일AGENTS.md,
skills/,subagents/및tools.json지원을 포함합니다. - Context Hub 실행 전반에 걸쳐 에이전트 메모리, 운영 메모, 사용자 환경설정, 및 프로젝트 컨텍스트를 유지하고 업데이트합니다.
- 샌드박스 지원 실행 코드, 셸 명령, 파일 I/O, 데이터 분석 또는 아티팩트 생성이 필요한 에이전트를 위한 것입니다.
LangSmith 샌드박스 정식 출시
LangSmith 샌드박스는 에이전트를 위한 보안 코드 실행 환경입니다. 에이전트에 파일시스템, 셸, 패키지 관리자, 지속적 상태, 네트워크 경계가 있는 런타임을 제공하므로, 코드를 작성하고, 의존성을 설치하고, 테스트를 실행하고, 실패를 검사하고, 더 긴 세션에 걸쳐 작업을 계속할 수 있습니다.
각 샌드박스는 하드웨어 가상화된 마이크로VM에서 실행되며, 당신의 서비스와 다른 샌드박스로부터 격리됩니다. 모델 생성 코드, 외부 의존성 또는 사용자 제공 스크립트를 실행하는 에이전트에는 이러한 격리가 특히 중요합니다.
샌드박스는 팀이 이미 사용하는 동일한 LangSmith SDK 및 API 키를 통해 작동하므로, 팀은 Deep Agents, Open SWE, LangSmith Deployment, LangSmith Fleet 또는 커스텀 에이전트 워크플로우에 안전한 코드 실행을 추가할 수 있으며 런타임 계층을 자신이 구축할 필요가 없습니다.
GA 출시의 일부 하이라이트:
- 스냅샷 및 저가 포크: 샌드박스를 캡처하거나 Docker 이미지에서 하나를 구축한 다음, 복사-온-라이트를 사용하여 해당 상태에서 병렬 샌드박스를 포크합니다.
- 청사진: 새로운 샌드박스가 신선한 의존성, 리포 상태 및 워밍된 캐시로 시작되도록 새로 고칠 수 있는 기본 환경을 정의합니다.
- 비활성 시 일시 중지: 유휴 샌드박스는 자동으로 일시 중지되므로 팀은 사용하지 않는 리소스에 대해 비용을 지불하지 않습니다.
- 샌드박스 CLI: 샌드박스를 관리하고, 스냅샷을 구축하고, 콘솔을 열고, TCP를 터널링하고,
ssh,scp,rsync및sftp와 같은 도구를 사용합니다. - 커스텀 콜백이 있는 Auth Proxy: 네트워크 계층에서 자격증명을 주입하므로 비밀이 런타임에 들어가지 않으며, 커스텀 시크릿 해결, 감사 훅 및 도메인 허용 목록 또는 차단 목록을 지원합니다.
Context Hub
LangSmith Context Hub는 팀이 에이전트 동작을 형성하는 파일을 관리하기 위한 중앙 위치를 제공합니다. 여기에는 AGENTS.md 파일, 스킬, 정책, 예시 및 기타 컨텍스트 번들이 에이전트가 읽고 따르는 것을 포함합니다.
컨텍스트는 종종 하네스 코드와 다르게 관리됩니다. 팀이 지침을 세밀하게 조정하고, 예시를 업데이트하고, 정책을 추가하고, 무엇이 작동하는지 배우면서 빠르게 변합니다. 또한 디자이너, 마케터, 지원 리드, 제품 관리자, 규정 준수 팀 및 기타 주제 전문가를 포함한 조직 전체 사람들에 의해 형성됩니다. Context Hub는 해당 워크플로우를 LangSmith로 가져오므로 팀은 모든 것을 GitHub를 통해 강제하지 않고 에이전트 컨텍스트에 대해 협업할 수 있습니다.
핵심 기능은 다음과 같습니다:
- 버전 관리: 컨텍스트 파일의 변경 사항을 추적하고, 이전 버전을 검사하고, 필요할 때 롤백합니다.
- 태그:
dev,staging또는prod와 같은 라벨로 버전을 표시하여 에이전트가 올바른 환경에서 올바른 컨텍스트를 사용하도록 합니다. - 댓글: 컨텍스트 변경에 대해 팀원들과 직접 협업합니다.
Context Hub를 통해, 팀은 컨텍스트를 에이전트 시스템의 일급 부분으로 취급할 수 있으며, 에이전트의 동작을 결정하는 지침, 예시 및 정책을 관리하기 위한 공유 워크플로우를 갖춥니다.
LangSmith LLM Gateway
LangSmith LLM Gateway는 에이전트와 호출하는 LLM 제공자 사이에 있는 새로운 런타임 거버넌스 계층입니다. 지출 제한을 적용하고, 요청이 환경을 떠나기 전에 민감한 데이터를 감지하며, 모든 정책 이벤트는 그것을 트리거한 트레이스와 함께 LangSmith로 직접 흐릅니다. 별도의 대시보드나 감사 파이프라인을 설정할 필요가 없습니다.
베타는 하드 지출 상한 및 조직, 워크스페이스, 사용자 및 API 키 수준에서의 실시간 비용 롤업, 요청 및 응답에 대한 PII 및 비밀 편집, 계층화된 정책 적용, 그리고 관리 작업의 전체 감사 로그와 함께 제공됩니다. 설정은 base_url 스왑입니다. 에이전트를 게이트웨이 끝점으로 지정하고 LangSmith API 키를 사용한 다음, 제공자 키를 워크스페이스 비밀에 추가하고, UI에서 정책을 구성합니다.
오늘 비공개 베타:
- 지출 제한은 조직, 워크스페이스, 사용자 또는 API 키 수준에서의 하드 상한이며, 도달 시 402를 반환합니다.
- 실시간 지출 가시성
- PII 및 비밀 감지
- 트레이스 연속성
- LangSmith Engine 통합
- 감사 로깅
LangSmith Fleet: 새로운 기능
샌드박스
Fleet은 이제 공개 베타에서 샌드박스 접근을 포함하므로, 에이전트가 코드를 작성하고 실행할 수 있는 안전한 장소를 갖게 됩니다. 이는 도구 호출 이상으로 Fleet 에이전트가 할 수 있는 일을 확장합니다. 데이터를 분석하고, 파일을 변환하고, PDF 및 PPTX와 같은 형식을 생성하거나 편집하고, 셸 명령을 실행하고, 의존성을 설치하고, 작업이 실제 실행 환경을 필요로 할 때 코딩 에이전트처럼 작동할 수 있습니다.
각 샌드박스는 LangSmith 샌드박스로 지원되는 격리된 파일시스템과 명령 환경을 에이전트에 제공합니다. Fleet에서, 샌드박스는 채팅 스레드 또는 에이전트에 범위가 지정될 수 있으므로, 에이전트는 스레드 전체에서 동일한 환경을 재사용하거나 모든 채팅에 대해 동일한 컴퓨터를 재사용할 수 있습니다. 유휴 샌드박스는 기본 15분 소프트 TTL을 가지므로, 비활성 세션에 대한 진행 중인 비용을 피하면서 경험을 효율적으로 유지할 수 있습니다.
샌드박스를 사용하면, Fleet 에이전트는 다음을 포함한 더 복잡한 작업을 수행할 수 있습니다:
- 데이터 분석: 데이터 세트에 대해 코드를 실행하고, 입력을 변환하고, 구조화된 출력을 생성합니다.
- 파일 생성 및 변환: PDF, 스프레드시트 및 슬라이드 덱과 같은 파일을 생성, 편집, 병합, 검증 또는 변환합니다.
- 코딩 작업: 이슈를 재현하고, 파일을 편집하고, 의존성을 설치하고, 테스트를 실행합니다.
- 로컬 도구 및 CLI: 아직 일급 Fleet 통합이 없는 서비스에 대해 명령줄 도구 또는 로컬 MCP 서버를 사용합니다.
- 사전 구축된 코딩 에이전트: 스레드 전체에서 파일, 명령 및 상태를 가진 지속적 워크스페이스가 필요한 에이전트를 강화합니다(아래의 사전 구축된 에이전트 섹션을 참조하세요).
사전 구축된 에이전트
Fleet 에이전트 템플릿을 LangChain 팀이 매일 의존하는 다섯 개의 사전 구축된 에이전트로 확장하고 있습니다. 이 에이전트들은 여러 도구와 활동에 걸친 복잡하고 오래 실행되는 작업을 처리합니다. 이 중 일부는 비슷한 개념이 중심이 되어 전체 회사가 구축된 것처럼 정교합니다. 그들 모두는 Fleet에 무료로 제공됩니다.
초기 템플릿을 출시한 이후, 우리는 커스터마이제이션이 일반 에이전트와 실제 가치를 제공하는 에이전트를 구분한다는 것을 배웠습니다. 따라서 모든 사전 구축된 에이전트는 이제 컨텍스트에 맞게 필요한 세부사항을 요청하는 온보딩 흐름을 포함합니다. 예를 들어 GTM 에이전트는 당신의 업계, 제품 및 고객에 대해 물어보고 계정을 조사하고 아웃바운드를 작성하는 방법을 형성합니다. 거기에서, 당신은 그것을 사용하고 피드백을 제공하여 에이전트를 더욱 세밀하게 조정합니다.
새로운 사전 구축된 에이전트:
- 코딩 에이전트(Open SWE 기반): 리포에 연결되고 변경 초안에서 PR 열기까지 코딩 작업을 처음부터 끝까지 처리합니다.
- GTM 에이전트: 고객 상태 및 사용 현황에 대한 임시 질문에 답변하고, 이슈를 플래그하고, 아웃바운드 통신을 초안합니다. 영업 및 마케팅 팀을 위한 오른손입니다.
- X 컨텐츠 관리자: X에서 당신의 비즈니스와 관련된 주제를 모니터링하고, 검토를 위해 게시물을 초안하고, 당신의 비즈니스에 중요한 대화에 계속 참여하도록 도와줍니다.
- 임원 보좌: 받은편지함 분류, 일정 및 회의 준비를 처리하므로 당신의 판단이 필요한 작업에 집중할 수 있습니다.
- 경쟁 연구자: 경쟁사 뉴스를 모니터링하고, 살아있는 배틀카드를 유지하고, 임시 경쟁 질문에 답변합니다.
Fleet에 포함된 무료 모델 사용량
이제 Fleet을 시작하는 것이 그 어느 때보다 쉽습니다. 개발자 및 플러스 플랜은 이제 Fireworks에서 제공하는 추론을 통해 무료 모델 사용량을 포함합니다. 몇 분 내에 당신의 에이전트에게 위임을 시작합니다.
Deep Agents 0.6
Deep Agents v0.6는 에이전트 계층 및 규모의 성능을 향상시킵니다. 릴리스는 프로그래매틱 도구 호출(REPL)을 위한 경량 코드 인터프리터, 에이전트 UI를 위한 타입 스트리밍, 그리고 더 효율적인 체크포인트 저장을 위한 DeltaChannel을 추가합니다.
코드 인터프리터는 에이전트에 도구를 조합하고, 중간 상태를 관리하고, 모델 컨텍스트로 반환되는 내용을 결정할 수 있는 런타임을 제공합니다. 이는 에이전트가 피할 수 있는 모델 왕복이 더 적은 다단계 워크플로우를 실행하는 데 도움이 됩니다. 타입 스트리밍은 메시지, 추론, 도구 호출, 서브에이전트, 커스텀 채널 및 최종 출력에 대한 구조화된 이벤트를 제공하므로 에이전트 진행 상황을 렌더링하기가 더 쉽습니다. DeltaChannel은 모든 단계에서 전체 상태 스냅샷 대신 차이를 저장하여 체크포인트 저장 오버헤드를 줄입니다.
v0.6의 새로운 기능:
- 코드 인터프리터: 도구 조합, 상태 관리 및 모델 컨텍스트로 반환되는 항목을 필터링하기 위한 경량 REPL입니다.
- 프로그래매틱 도구 호출: 모델 왕복 및 토큰 사용을 줄이기 위해 인터프리터 내에서 다단계 도구 워크플로우를 실행합니다.
- 타입 스트리밍: 메시지, 추론, 도구 호출, 서브에이전트, 커스텀 채널 및 최종 출력에 대한 구조화된 이벤트입니다.
- 프론트엔드 스트리밍 지원: React, Vue, Svelte 및 Angular용 v1 통합입니다.
DeltaChannel: 오래 실행되는 에이전트를 더 효율적으로 유지하는 델타 기반 체크포인트 저장입니다.
전체 공지사항 읽기
LangChain Labs
LangChain Labs는 에이전트의 연속 학습에 중점을 두는 응용 연구 노력입니다. 우리는 에이전트 트레이스를 사용하여 평가 생성, 환경 설계, 하네스 엔지니어링, 모델 선택, 프롬프트 최적화 및 미세 조정을 포함한 스택 전체에서 성능을 향상시키는 방법을 개발하고 있습니다.
우리는 Harvey, NVIDIA, Prime Intellect, Fireworks 및 Baseten을 포함한 연구 파트너와 함께 이 작업을 시작하고 있습니다. 목표는 팀이 실제 에이전트 사용을 더 나은 에이전트로 전환하도록 돕고, 더 넓은 에이전트 빌딩 커뮤니티와 연구, 평가 및 오픈소스 통합을 공유하는 것입니다.
- 대규모 에이전트 데이터 마이닝: 트레이스를 사용하여 평가를 생성하고, 환경을 개선하고, 에이전트 하네스를 튜닝하고, 사후 훈련을 지원합니다.
- 효율적인 에이전트 구성 찾기: 비용, 지연 시간 및 작업 성능 전반에 걸친 모델, 하네스 및 피드백 루프의 최적 조합을 탐색합니다.
- 평가 및 시뮬레이션 환경 구축: 엔드-투-엔드 에이전트 평가, 시뮬레이션 및 강화 학습을 위한 현실적인 환경을 더 쉽게 만듭니다.
- 모델 간 프롬프트 최적화: 에이전트를 모델 계열 사이에서 이동하는 데 필요한 수동 작업을 줄입니다.
작업이 계속됩니다
이러한 출시들은 함께 에이전트 개발 수명주기를 더 빠르고, 더 안전하고, 더 협업적으로 만듭니다. 첫 번째 프로토타입에서 프로덕션 모니터링 및 개선까지 말입니다. 팀이 이것들로 무엇을 구축하는지 기대되며, 각 제품이 발전함에 따라 더 많은 것을 계속 공유할 것입니다.
Interrupt에 참여했거나, 피드백을 제공했거나, LangChain으로 계속 구축하고 있는 모든 사람에게 감사드립니다. 오늘 배포한 것들을 시도해 보고 싶다면, 위의 공지사항을 확인하거나 LangSmith에서 시작하세요.