-
vLLM V0에서 V1로: 강화학습에서 수정보다 정확성을 먼저
vLLM V0 to V1: Correctness Before Corrections in RL
-
Ecom-RLVE: 전자상거래 대화형 에이전트용 적응형 검증 환경
Ecom-RLVE: Adaptive Verifiable Environments for E-Commerce Conversational Agents
-
TRL v1.0: 분야와 함께 성장하는 포스트-트레이닝 라이브러리
TRL v1.0: Post-Training Library Built to Move with the Field