一款新出的PDF文本提取工具:olmOCR,可以从PDF和文档图像中提取干净且结构化的纯文本 可以处理包含复杂布局、表格、方程式以及手写文档
处理100万页PDF的成本约为190美元,相当于GPT-4o 1/32的成本
以Markdown格式输出文本,可以准确处理方程、表格和手写内容,能在复杂的多栏文档布局中保持正确的阅读顺序
性能优于Marker、MinerU以及GOT-OCR 2.0等 https://github.com/allenai/olmocr