文档内容提取引擎之MinerU
背景
解决文档内容提取
前期调研
- Tika
https://github.com/apache/tika - docling
https://github.com/docling-project/docling-serve - mistral OCR
https://github.com/nicekate/mistral-ocr - MinerU
https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md
https://github.com/opendatalab/MinerU/tree/master/projects/web_api - PaddleOCR
https://github.com/PaddlePaddle/PaddleOCR
整体上看,大部分都是基于
PaddleOCR
基础上集成,比较有特点的是MinerU
部署
docker-compose.yml
1 | version: '3.8' |