文档内容提取引擎之MinerU

背景

解决文档内容提取

前期调研

整体上看,大部分都是基于PaddleOCR基础上集成,比较有特点的是 MinerU

部署

docker-compose.yml

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
version: '3.8'

services:
mineru-api:
image: mineru-api-full
container_name: mineru-api
runtime: nvidia # 需要NVIDIA Container Runtime支持
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
shm_size: 32g
ports:
- "8888:8888"
- "30000:30000"
restart: unless-stopped

相关链接

基于MinerU 2.0的PDF解析API