New Computer 소개
New Computer는 사용자를 진정으로 이해하도록 설계된 최초의 개인 AI인 Dot을 만든 팀입니다. Dot의 장기 기억 시스템은 음성 및 행동 신호를 관찰하여 시간이 지남에 따라 사용자의 선호도를 학습합니다. Dot의 기억 시스템은 단순한 회상을 넘어 사용자가 누구인지에 대한 이해를 지속적으로 진화시켜 시기적절하고 개인화된 지원을 제공하고 진정한 이해를 만들어냅니다.
LangSmith을 통해 New Computer는 메모리 검색 시스템을 테스트하고 개선할 수 있었으며, 이전 동적 메모리 검색 기본 구현과 비교하여 회상률이 50% 높아지고 정밀도가 40% 높아졌습니다.
Dot의 에이전트 메모리 개요
New Computer 팀은 혁신적이고 최초의 에이전트 메모리 시스템을 구축했습니다. 정적 문서 집합에 의존하는 표준 RAG 방법과 달리, 에이전트 메모리는 나중에만 검색될 문서를 동적으로 생성하거나 미리 계산하는 것을 포함합니다. 이는 검색을 가능하게 하고 시간이 지남에 따라 메모리가 축적될 때 정확하고 효율적이기 위해 메모리 생성 중에 정보를 구조화해야 함을 의미합니다.
원본 콘텐츠 외에도 Dot의 메모리는 검색에 유용한 선택적 '메타필드' 집합을 가지고 있습니다. 여기에는 상태(예: COMPLETED 또는 IN PROGRESS)와 시작 또는 마감일 같은 날짜/시간 필드가 포함됩니다. 이들은 "이번 주에 완료하고 싶었던 작업이 무엇입니까?"나 "오늘 완료해야 할 작업이 무엇입니까?"와 같은 검색 중 고빈도 쿼리를 위한 추가 필터 방법으로 사용될 수 있습니다.
LangSmith으로 메모리 검색 개선
다양한 검색 방법(의미론적, 키워드, BM25, 메타필드 필터 기법 중 하나 또는 여러 개)을 사용하여 New Computer는 레이블이 지정된 예제 데이터 세트에서 빠르게 반복할 수 있는 새로운 방법이 필요했습니다. 사용자 개인정보를 보호하면서 성능을 테스트하기 위해 LLM에서 생성한 배경 스토리를 가진 합성 사용자 집단을 만들어 합성 데이터를 생성했습니다. 각 합성 사용자의 메모리 데이터베이스를 초기화하기 위한 초기 대화 후 팀은 쿼리(합성 사용자의 메시지)와 LangSmith 데이터 세트의 사용 가능한 전체 메모리 집합을 저장하기 시작했습니다.
LangSmith에 연결된 내부 도구를 사용하여 New Computer 팀은 각 쿼리에 대한 관련 메모리에 레이블을 지정하고 정밀도, 회상률 및 F1과 같은 평가 지표를 정의하여 에이전트 메모리 시스템의 검색 개선을 빠르게 반복할 수 있게 했습니다.
이 실험 세트를 위해 쿼리당 가장 관련성 높은 메모리의 고정된 수를 검색하는 의미론적 검색을 사용하는 간단한 기본 시스템으로 시작했습니다. 그런 다음 다양한 쿼리 유형에 걸쳐 성능을 평가하기 위해 다른 기법들을 테스트했습니다. 어떤 경우에는 유사성 검색이나 BM25 같은 키워드 방법이 더 잘 작동했고, 다른 경우에는 이러한 방법이 효과적으로 작동하기 위해 메타필드에 의한 일부 사전 필터링이 필요했습니다.
생각할 수 있듯이 이러한 여러 방법을 병렬로 실행하면 실험이 조합론적으로 증가할 수 있으므로, 다양한 데이터 세트에서 다양한 방법을 빠르게 검증하는 것이 진행을 위해 중요합니다. LangSmith의 사용하기 쉬운 SDK와 실험 UI를 통해 New Computer는 이러한 실험의 결과를 빠르고 효율적으로 실행, 평가 및 검사할 수 있었습니다.
이러한 실험을 통해 New Computer는 메모리 시스템을 크게 개선할 수 있었으며, 이전 동적 메모리 검색 기본 구현과 비교하여 회상률이 50% 높아지고 정밀도가 40% 높아졌습니다.
LangSmith으로 대화 프롬프트 조정
Dot의 응답은 동적 대화 프롬프트에 의해 생성됩니다. 이는 관련 메모리를 포함하는 것 외에도 시스템이 정확하고 자연스러운 방식으로 응답하기 위해 도구 사용(예: 검색 결과)과 상황에 따른 행동 지침에 의존할 수 있음을 의미합니다.
이와 같이 변동성이 높은 시스템을 개발하는 것은 어려울 수 있습니다. 한 쿼리를 개선하는 변경이 다른 쿼리에 해로운 영향을 미칠 수 있기 때문입니다.
프롬프트를 최적화하기 위해 New Computer 팀은 다시 합성 사용자 집단을 사용하여 광범위한 의도에 대한 사용자 쿼리를 생성했습니다. 그런 다음 LangSmith의 실험 비교 보기에서 프롬프트 변경의 전체적인 영향을 쉽게 검사할 수 있었습니다. 이를 통해 프롬프트 변경에서 파생된 성능 저하를 매우 시각적인 방식으로 식별할 수 있었습니다.
또한 출력이 부정확한 실패 사례에서 팀은 내장 프롬프트 놀이터를 사용하여 LangSmith UI를 떠나지 않고도 프롬프트를 직접 조정할 수 있었습니다. 이는 대화 프롬프트를 평가하고 조정하는 동안 팀의 반복 속도를 크게 개선했습니다.
New Computer의 향후 계획
New Computer가 인간-AI 관계를 심화시키기 위해 노력함에 따라 팀은 사용자가 진정으로 인식되고 이해받는다고 느끼도록 하는 방법을 지속적으로 모색하고 있습니다. 여기에는 Dot이 사용자의 대화 또는 톤 선호도에 맞춰 조정할 수 있도록 하거나, 사용자에게 맞춤형 메시지로 자발적으로 연락하여 사용자별로 완전히 맞춤화되는 것이 포함됩니다.
최근 출시로 새로운 사용자 물결이 들어왔으며, 이들 중 45% 이상이 무료 메시지 제한에 도달한 후 앱의 유료 티어로 전환했습니다. 이들은 Dot이 시간이 지남에 따라 함께 성장하고 진화하기를 기대하고 있습니다. New Computer와 LangChain 팀의 파트너십과 LangSmith의 사용은 팀이 인간 사용자와의 관계 심화의 복잡성을 시뮬레이션하기 위해 새로운 AI 자료를 어떻게 사용하는지에 있어 계속해서 중추적인 역할을 할 것입니다.