一个最近热乎的实用GitHub项目: Ollama OCR 这是一个基于 Ollama 视觉模型的图片文字识别工具,能帮你从图片中提取文字。 1. 支持两种视觉模型: LLaVA 7B:速度快,适合实时处理,就是准确度可能差点 Llama 3.2 Vision:准确度高,适合处理复杂的文档 2. 提取出来的文字格式挺灵活: 可以是 Markdown 格式,保留原文的标题、列表这些样式 可以是纯文本,干干净净的 可以是 JSON 格式,结构化的数据 还能识别表格,或者提取关键信息对 GitHub:https://github.com/imanoop7/Ollama-OCR