V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wencan
V2EX  ›  机器学习

有没有专门智能解析 PDF 的开源模型?

  •  
  •   wencan · 222 天前 · 1367 次点击
    这是一个创建于 222 天前的主题,其中的信息可能已经有所发展或是发生改变。
    一堆 pdf 报告,文字版。
    不同机构出具,因此具有不同的格式。
    目前的需求是:提取其中的结论部分。这个结论区块,标题可能叫“XX 结论”或者“专家意见”或者别的,可能是文字段落或者表格,也可能中间被换页了(很可能有页眉页脚)。
    之间尝试 python 提取文字,再根据规则匹配。费了不少时间,没成功,中断了。
    刚刚试了 kimi ,给 kimi 点提示,kimi 居然很出色地完成了这个工作。
    但 kimi 的缺点:联网有数据泄漏风险,量大了可不便宜。
    所以,有没有能完成这工作的开源模型,最好是专用或者优化后能在普通低配服务器上跑起来的。
    第 1 条附言  ·  222 天前
    注意:需求是提取 pdf 中的指定部分,不是提供一个以文档作为知识库的对话 AI
    6 条回复    2024-07-13 02:24:32 +08:00
    TimePPT
        1
    TimePPT  
       222 天前 via Android
    应该有现成框架,langchain 或者 llamaimex 好像都自带
    maolon
        2
    maolon  
       222 天前 via Android
    提取块的: qanything, ragflow 但是是把整篇文章分块,你要求的段落在里面,然后 llm 问答,可以在管理界面查看管理提取过的段落
    普通低配能跑: 这两都不怎么行
    最后开源模型: qwen 1.5 的 7 或者 14 应该能满足你需求
    mumbler
        3
    mumbler  
       222 天前
    这是常见 NLP 场景,有个 6G 显存的 GPU ,ollama 跑 llama3 8B 就能完成得很好,CPU 长文分析太慢了
    NoobNoob030
        4
    NoobNoob030  
       222 天前
    普通低配服务器? 2 核 4G 没显卡的吗?如果是跑不了一点
    mmdsun
        5
    mmdsun  
       222 天前
    大模型基本上都可以。本地电脑 WSL 2 直接跑的 qwen 14b 4090 显卡。自己部署就不会有什么数据泄露了
    myhloli
        6
    myhloli  
       163 天前 via iPhone
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   6110 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 02:19 · PVG 10:19 · LAX 18:19 · JFK 21:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.