微调托书文档信息提取的思路?

287 天前
 cccclk

想要提取这种托书里面的字段,应该用什么模型去微调比较好.

可以拿来训练的样本量不会太多.拿过 paddlenlp 的 UIE-X 训练过,感觉效果不是会很好,对多行文本支持不怎么样.

有没有大佬能指点一下思路

795 次点击
所在节点    程序员
4 条回复
lucifer69
286 天前
这种固定位置的印刷字体文档,不能直接 ocr (或者切割图片后各部分单独 ocr )后提取吗?
cccclk
286 天前
@lucifer69 也不是完全固定的,需要适配多种奇奇怪怪的格式
musi
286 天前
带着位置信息一起发给 gpt ,让 gpt 处理
cccclk
286 天前
@musi 打算自己训练 GPT 成本太高也不稳定

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1023527

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX