一堆 pdf 报告,文字版。 不同机构出具,因此具有不同的格式。 目前的需求是:提取其中的结论部分。这个结论区块,标题可能叫“XX 结论”或者“专家意见”或者别的,可能是文字段落或者表格,也可能中间被换页了(很可能有页眉页脚)。 之间尝试 python 提取文字,再根据规则匹配。费了不少时间,没成功,中断了。 刚刚试了 kimi ,给 kimi 点提示,kimi 居然很出色地完成了这个工作。 但 kimi 的缺点:联网有数据泄漏风险,量大了可不便宜。 所以,有没有能完成这工作的开源模型,最好是专用或者优化后能在普通低配服务器上跑起来的。