「LiteParse」开源本地文档解析器：用 Rust 快速提取 PDF 文本、OCR 与版面坐标

LiteParse 是 LlamaIndex 团队做的开源本地文档解析器，定位很明确：不依赖云端服务、不内置专有 LLM 能力，而是用 Rust 核心尽可能快地把 PDF 和常见文档解析成可给 Agent 或检索系统使用的文本、坐标和截图。

它适合那些想把文档处理留在本机或自有环境里的开发者。README 里强调了 spatial text parsing、bounding boxes、选择性 OCR、页面截图和 JSON/Text 输出；OCR 默认可以走内置 Tesseract，也能接 EasyOCR、PaddleOCR 或自定义 HTTP OCR 服务。对 RAG、文档问答、Agent 视觉引用这类场景来说，坐标和截图比单纯抽文本更有价值。

另一个实用点是多语言分发。LiteParse 同一套 CLI 可以通过 cargo、npm、pip 安装，项目还提供 Node.js/TypeScript、Python、Rust 和浏览器 WASM 绑定。输入格式也不只限 PDF：Office 文档可借助 LibreOffice 转换，图片可借助 ImageMagick 转成 PDF 再解析。

截至 2026 年 5 月 29 日，GitHub API 显示这个仓库约 6876 stars，主语言是 Rust，许可证为 Apache-2.0，并且当天仍有更新。需要注意的是，复杂表格、多栏排版、图表、手写文字或扫描件这类重场景，官方也建议生产级任务可以考虑云端 LlamaParse；LiteParse 更像是轻量、本地、可嵌入的解析底座。