#distributed-training
총 2건 · 1/1 페이지
-
허브 버킷을 이용한 1조 파라미터 배포: TRL의 델타 가중치 동기화
Shipping a Trillion Parameters With a Hub Bucket: Delta Weight Sync in TRL
-
ImportAI 449: LLM이 다른 LLM을 학습시킴; 72B 분산 학습 실행; 컴퓨터 비전은 생성 텍스트보다 더 어렵다
ImportAI 449: LLMs training other LLMs; 72B distributed training run; computer vision is harder than generative text
Will AI cause a political interregnum