有没有专门智能解析 PDF 的开源模型？

191 天前

wencan

一堆 pdf 报告，文字版。
不同机构出具，因此具有不同的格式。
目前的需求是：提取其中的结论部分。这个结论区块，标题可能叫“XX 结论”或者“专家意见”或者别的，可能是文字段落或者表格，也可能中间被换页了(很可能有页眉页脚)。
之间尝试 python 提取文字，再根据规则匹配。费了不少时间，没成功，中断了。
刚刚试了 kimi ，给 kimi 点提示，kimi 居然很出色地完成了这个工作。
但 kimi 的缺点：联网有数据泄漏风险，量大了可不便宜。
所以，有没有能完成这工作的开源模型，最好是专用或者优化后能在普通低配服务器上跑起来的。

1309 次点击

所在节点

机器学习

6 条回复

TimePPT

191 天前

应该有现成框架，langchain 或者 llamaimex 好像都自带

maolon

191 天前

提取块的: qanything, ragflow 但是是把整篇文章分块，你要求的段落在里面，然后 llm 问答，可以在管理界面查看管理提取过的段落
普通低配能跑: 这两都不怎么行
最后开源模型: qwen 1.5 的 7 或者 14 应该能满足你需求

mumbler

191 天前

这是常见 NLP 场景，有个 6G 显存的 GPU ，ollama 跑 llama3 8B 就能完成得很好，CPU 长文分析太慢了

NoobNoob030

190 天前

普通低配服务器？ 2 核 4G 没显卡的吗？如果是跑不了一点

mmdsun

190 天前

大模型基本上都可以。本地电脑 WSL 2 直接跑的 qwen 14b 4090 显卡。自己部署就不会有什么数据泄露了

myhloli

131 天前

试试这个项目 https://github.com/opendatalab/MinerU

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1040757

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.