PaddleOCR 3.5: Transformers 백엔드로 OCR 및 문서 파싱 작업 실행하기
PaddleOCR 3.5는 OCR 및 문서 파싱 작업을 Hugging Face 생태계에 더 가깝게 가져옵니다. 이번 릴리스에서는 다음과 같이 설정하여 지원되는 PaddleOCR 모델을
Hugging Face Transformers를 추론 백엔드로 실행할 수 있습니다:
engine="transformers"
PaddleOCR은 PP-OCRv5와 같은 OCR 모델 시리즈와 PaddleOCR-VL 1.5와 같은 문서 파싱 모델 시리즈를 계속 제공하며, Transformers는 이를 실행하기 위한 지원되는 백엔드 중 하나가 됩니다.
Hugging Face Spaces에서 라이브 데모를 시도해보세요: https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo
무엇이 바뀌었나요?
PaddleOCR 3.5는 더 유연한 추론 엔진 인터페이스를 도입합니다. 개발자는 engine 파라미터를 통해 백엔드를 선택하고 engine_config를 통해 백엔드별 옵션을 전달할 수 있습니다.
실제로 이는 다음을 의미합니다:
- 이러한 작업 뒤의 파이프라인은 PaddleOCR에서 관리하므로 개발자가 각 내부 구성 요소를 수동으로 호출할 필요가 없습니다.
- Transformers는 지원되는 PaddleOCR 모델을 실행하기 위한 지원되는 추론 백엔드 중 하나가 됩니다.
- 개발자는
engine_config를 통해dtype, 장치 배치, 어텐션 구현과 같은 백엔드 관련 옵션을 구성할 수 있습니다.
스택을 이해하는 간단한 방법:
| 레이어 | 의미 | 예시 |
|---|---|---|
| 애플리케이션 레이어 | OCR 및 문서 파싱 출력을 사용하는 애플리케이션 | RAG, agents, Document AI... |
| 모델 레이어 | OCR 및 문서 파싱 기능 | PP-OCRv5, PaddleOCR-VL 1.5... |
| 추론 백엔드 레이어 | 지원되는 모델을 실행하는 데 사용되는 런타임 | Paddle static graph, Paddle dynamic graph, Transformers |
이번 릴리스는 주로 추론 백엔드 레이어에 관한 것입니다: PaddleOCR은 OCR 및 문서 파싱 기능을 계속 제공하며, Transformers는 지원되는 PaddleOCR 모델에 Hugging Face 중심 환경에 자연스럽게 맞는 또 다른 백엔드 옵션을 제공합니다. 더 큰 Document AI 워크플로우는 개발자와 애플리케이션 빌더의 손에 남아 있습니다.
왜 이것이 중요한가
RAG, Document AI, 및 문서 에이전트 애플리케이션의 경우 어려운 부분은 종종 LLM 이전에 시작됩니다.
개발자는 먼저 PDF, 스캔된 문서, 스크린샷, 표, 차트, 수식 및 복잡한 페이지 레이아웃을 안정적인 구조화된 데이터로 변환해야 합니다. 이 수집 단계가 약하면 다운스트림 LLM 워크플로우가 주요 정보를 놓치거나 잘못된 컨텍스트를 검색하거나 신뢰할 수 없는 답변을 생성할 수 있습니다.
PaddleOCR은 PP-OCRv5와 같은 OCR 시리즈 모델과 PaddleOCR-VL-1.5와 같은 문서 파싱 시리즈 모델을 제공하여 이 문서 수집 문제를 해결하는 데 도움이 됩니다.
PaddleOCR 3.5로 이제 이러한 기능을 Transformers 중심 스택에 더 쉽게 연결할 수 있습니다. 지원되는 PaddleOCR 모델은 Transformers 백엔드로 실행할 수 있으며, PaddleOCR은 계속해서 백그라운드에서 OCR 또는 문서 파싱 파이프라인을 관리합니다.
개발자의 경우 이는 통합 마찰이 적고 문서에서 다운스트림 RAG, 에이전트, 검색, 분석 또는 자동화 워크플로우로의 더 자연스러운 경로를 의미합니다.
빠른 시작
PaddleOCR 3.5, PaddleX, Transformers 및 하드웨어와 호환되는 PyTorch 빌드를 설치합니다.
예를 들어 CUDA 12.6 환경에서:
python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
python -m pip install "paddleocr==3.5.0" "paddlex==3.5.2" "transformers>=5.4.0"
CPU, ROCm 또는 기타 환경의 경우 대상 하드웨어와 일치하는 PyTorch 빌드를 설치합니다.
명령줄에서 실행합니다:
paddleocr ocr \
-i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png \
--device gpu:0 \
--engine transformers
또는 Python API를 사용합니다:
from paddleocr import PaddleOCR
pipeline = PaddleOCR(
device="gpu:0",
engine="transformers",
use_doc_orientation_classify=False,
use_doc_unwarping=False,
use_textline_orientation=False,
engine_config={
"dtype": "float32",
},
)
results = pipeline.predict(
"https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png"
)
for result in results:
print(result)
Hugging Face Space는 광범위한 호환성을 위해 float32를 사용합니다. 자신의 하드웨어의 경우 engine_config를 통해 백엔드별 옵션을 조정할 수 있습니다:
engine_config = {
"dtype": "bfloat16",
"device_type": "gpu",
"device_id": 0,
"attn_implementation": "sdpa",
}
최적의 구성은 모델, 하드웨어 및 배포 환경에 따라 달라집니다.
Transformers 백엔드를 언제 사용해야 하나요?
PaddleOCR의 OCR 및 문서 파싱 기능이 Hugging Face 중심 스택에 더 자연스럽게 맞도록 하려면 Transformers 백엔드를 사용합니다.
이는 RAG, Document AI, 검색, 분석 또는 에이전트 애플리케이션을 구축하고 모델 로딩, 실험, 배포 또는 모델 아티팩트 관리를 위해 이미 PyTorch / Transformers 인프라에 의존하는 경우 특히 유용합니다.
Transformers 백엔드는 다음을 원할 때 적합합니다:
- 이미 Transformers를 사용 중인 팀을 위한 더 친숙한 개발 경험,
- 지원되는 PaddleOCR 모델에 대한 Hub 호환 모델 발견 및 배포,
- 기존 PyTorch / Transformers 서비스와의 더 쉬운 통합.
OCR 또는 문서 파싱 처리량을 최대화하는 것이 우선순위일 때 PaddleOCR의 기본 paddle_static 백엔드가 일반적으로 권장됩니다.
이번 릴리스는 한 백엔드를 다른 백엔드로 교체하는 것이 아닙니다. 개발자에게 더 많은 유연성을 제공하는 것입니다: OCR 및 문서 파싱 기능에 PaddleOCR을 사용하고 스택에 가장 잘 맞는 추론 백엔드를 선택합니다.
지금 시도해보세요
Hugging Face Spaces에서 PaddleOCR 3.5 Transformers 데모를 시도하세요:
https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo
Hub에서 PaddleOCR 모델을 탐색하세요:
https://huggingface.co/PaddlePaddle/models
PaddleOCR 3.5는 OCR 및 문서 파싱 기능을 Transformers 중심 워크플로우에 더 가깝게 가져오며, 개발자에게 이를 중심으로 더 큰 Document AI 애플리케이션을 구축할 자유를 제공합니다.
리소스
감사의 말씀
PaddleOCR 3.5 Transformers 통합을 지원해주신 Hugging Face 엔지니어들께 진심으로 감사드립니다.
관련 모든 풀 요청을 검토하고 병합하는 것을 포함하여 끝에서 끝까지 관여해주신 Anton Vlasjuk께 특별히 감사드립니다.
귀중한 PR 검토 및 피드백을 주신 Raushan Turganbay와 Yoni Gozlan에게도 감사드립니다.
그들의 지도는 Hugging Face 커뮤니티를 위한 통합 품질, 문서 및 개발자 경험을 개선하는 데 도움이 되었습니다.