
LiteParse 是 LlamaIndex 团队做的开源本地文档解析器,定位很明确:不依赖云端服务、不内置专有 LLM 能力,而是用 Rust 核心尽可能快地把 PDF 和常见文档解析成可给 Agent 或检索系统使用的文本、坐标和截图。
它适合那些想把文档处理留在本机或自有环境里的开发者。README 里强调了 spatial text parsing、bounding boxes、选择性 OCR、页面截图和 JSON/Text 输出;OCR 默认可以走内置 Tesseract,也能接 EasyOCR、PaddleOCR 或自定义 HTTP OCR 服务。对 RAG、文档问答、Agent 视觉引用这类场景来说,坐标和截图比单纯抽文本更有价值。
另一个实用点是多语言分发。LiteParse 同一套 CLI 可以通过 cargo、npm、pip 安装,项目还提供 Node.js/TypeScript、Python、Rust 和浏览器 WASM 绑定。输入格式也不只限 PDF:Office 文档可借助 LibreOffice 转换,图片可借助 ImageMagick 转成 PDF 再解析。
截至 2026 年 5 月 29 日,GitHub API 显示这个仓库约 6876 stars,主语言是 Rust,许可证为 Apache-2.0,并且当天仍有更新。需要注意的是,复杂表格、多栏排版、图表、手写文字或扫描件这类重场景,官方也建议生产级任务可以考虑云端 LlamaParse;LiteParse 更像是轻量、本地、可嵌入的解析底座。
项目地址
官网:https://developers.llamaindex.ai/liteparse/
项目地址:https://github.com/run-llama/liteparse
原创文章,如若转载,请注明出处:https://wefound.cc/p/4124.html