推荐 GitHub 上一款强大的 PDF 文档分析开源工具:PDF Document Layout Analysis。
它能准确自动识别 PDF 页面中的文本、标题、图片、表格等元素,并确定它们的正确阅读顺序,大幅提升文档处理效率。
GitHub:https://github.com/huridocs/pdf-document-layout-analysis
主要功能:
使用 Docker 快速部署,支持 GPU 加速,几行命令即可启动服务并开始分析 PDF 文档。