#model-optimization
총 2건 · 1/1 페이지
-
허브 버킷을 이용한 1조 파라미터 배포: TRL의 델타 가중치 동기화
Shipping a Trillion Parameters With a Hub Bucket: Delta Weight Sync in TRL
-
vLLM V0에서 V1로: 강화학습에서 수정보다 정확성을 먼저
vLLM V0 to V1: Correctness Before Corrections in RL