有没有专门智能解析 PDF 的开源模型？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

一堆 pdf 报告，文字版。
不同机构出具，因此具有不同的格式。
目前的需求是：提取其中的结论部分。这个结论区块，标题可能叫“XX 结论”或者“专家意见”或者别的，可能是文字段落或者表格，也可能中间被换页了(很可能有页眉页脚)。
之间尝试 python 提取文字，再根据规则匹配。费了不少时间，没成功，中断了。
刚刚试了 kimi ，给 kimi 点提示，kimi 居然很出色地完成了这个工作。
但 kimi 的缺点：联网有数据泄漏风险，量大了可不便宜。
所以，有没有能完成这工作的开源模型，最好是专用或者优化后能在普通低配服务器上跑起来的。

第 1 条附言 · 14 天前

注意：需求是提取 pdf 中的指定部分，不是提供一个以文档作为知识库的对话 AI

5 条回复 • 2024-05-15 09:48:57 +08:00