进阶教程
开源
开源本地文档
开源本地文档解析神器实测:400页PDF仅1秒
摘要
LiteParse是LlamaIndex团队推出的纯本地开源文档解析库,核心用Rust编写。实测3页PDF解析不足1
概述
LiteParse 整体架构流程图- Rust 性能底座:核心全部用 Rust 实现,解析 3 页 PDF 耗时不到 1 秒
- 多语言绑定:Node.js、Python、Rust、浏览器 WASM 四种用法任意选择,CLI 命令完全一致
- 灵活 OCR 系统:内置 Tesseract 零配置即可使用,还支持 HTTP OCR Server(可接入 EasyOCR、PaddleOCR 等)
- 多格式输入:支持 PDF、DOCX、XLSX、PPTX 以及多种图片格式,Office 文档通过 LibreOffice 自动转换
- Bounding Box:每个文本块都附带精确坐标,后续 AI 流水线可直接使用
- Agent Skill 支持:一行命令即可安装到编码 Agent 中,Claude Code、Cursor、Qoder 都能直接调用
安装
lit CLI 命令:# Node.js(推荐,实测使用此路径)
npm i -g @llamaindex/liteparse
# Python
pip install liteparse
# Rust
cargo install liteparse
$ lit --version
2.0.0
lit --version 显示 2.0.0。可能是版本号未同步到 binary 中,不过不影响正常使用。实测

$ lit parse minimax-ipo-counseling.pdf --no-ocr -o output.txt
[liteparse] extract: 949.4ms (3 pages)
[liteparse] ocr: 0.0ms
[liteparse] project: 3.6ms
[liteparse] total: 953.1ms
关于 MiniMax Group Inc.首次公开发行股票并上市辅导备案报告
成立日期 2021 年 6 月 30 日
注册资本 50,000 美元
辅导协议签署时间 2026 年 5 月 29 日
$ lit parse minimax-ipo-counseling.pdf --format json --no-ocr -o output.json
[liteparse] extract: 5.6ms (3 pages)
[liteparse] total: 6.0ms
$ lit parse minimax-ipo-counseling.pdf --target-pages "1"
[liteparse] extract: 29.9ms (1 pages)
[liteparse] ocr render: 2.3ms (0 pages)
[liteparse] ocr: 0.0ms
[liteparse] total: 37.8ms
$ lit screenshot minimax-ipo-counseling.pdf --target-pages "1-3" --dpi 150 -o ./screenshots
$ lit batch-parse ./inputs ./outputs --format text --no-ocr --extension .pdf
[liteparse] found 1 files to process
[liteparse] batch complete: 1 succeeded, 0 failed
Agent Skill
npx skills add run-llama/llamaparse-agent-skills --skill liteparse
npx skills list 能看到 liteparse 已成功注册。- 让 Agent 直接解析合同 PDF 抽取关键条款
- 批量截图文档页面供多模态 LLM 理解
- 在 Agent 工作流中直接嵌入文档解析环节
OCR 配置
# 中文
lit parse document.pdf --ocr-language chi_sim
# 法语
lit parse document.pdf --ocr-language fra
# 关闭 OCR(纯文本 PDF)
lit parse document.pdf --no-ocr
# 启动 PaddleOCR Server
cd liteparse/ocr/paddleocr && python server.py
# 指定 OCR Server 解析
lit parse document.pdf --ocr-server-url http://localhost:8828/ocr
/ocr 端点,接收图片,返回 { results: [{ text, bbox, confidence }] }。如果有需要,自己实现一个也并不复杂。优缺点
- 速度极快,得益于 Rust 底层,3 页 PDF 不到 1 秒
- 安装简便,npm/pip/cargo 三选一,开箱即用
- OCR 系统设计灵活,内置 Tesseract,可插拔外部服务
- Agent Skill 支持使其在 AI 工作流中如虎添翼
- 纯本地运行,数据不出门,合规无忧
- 表格抽取仅为空间文本重建,不做结构化表格识别(严肃表格场景需配合 LlamaParse 云端版)
- 多栏排版、复杂版式的还原能力有限
- 当前 Skill 文档与 CLI 实际参数存在不一致(例如截图命令
--pagesvs--target-pages),新项目迭代频繁可以理解
总结
来源:互联网
免责声明
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。