为什么网络上很少有文档结构化的资料,求文档结构化配置经验分享

2022-09-23 15:03:38 +08:00
 SteadyHua

最近在做文档结构化相关工作,各位大佬能分享下( Word/Excel/Pdf )文档结构化配置的经验或有什么类似的产品可以参考吗?

634 次点击
所在节点    问与答
4 条回复
czfy
2022-09-23 15:13:07 +08:00
不如你解释一下什么是 文档结构化
SteadyHua
2022-09-23 15:37:08 +08:00
@czfy
转自百科
结构化数据(Structured data)-可以组织成行列结构,可识别的数据。这类数据通常是一条记录,或者一个文件,或者是被正确标记过的数据中的某一个字段,并且可以被精确地定位到。

对于来源繁多的信息资料,专业人士根据信息的格式加以划分,将其分为结构化信息和非结构化信息两大类。

结构化信息,我们通常接触的数据库所管理的信息,包括生产、业务、交易、客户信息等方面的记录。

非结构化信息,专业术语为内容,所涵盖的信息更为广泛,可分为:营运内容( operationalcontent ):如合约、发票、书信与采购记录;部门内容( workgroupcontent ):如文书处理、电子表格、简报档案与电子邮件; Web 内容:如 HTML 与 XML 等格式的信息;多媒体内容( RichMediaContent ):如声音、影片、图形等。

通俗的解释就是将非结构化数据结构化后入库,例如将 Word 解析成 HTML 展示,保存其中所需要结构为后续同类型 Word 批量解析,解析成结构化数据入库。
czfy
2022-09-23 17:15:46 +08:00
如果是这样的话,excel 本来就是结构化数据居多吧
word/pdf 的场景我就不懂了,看其他人吧
LiubaiQ
2022-09-24 11:28:24 +08:00
如果是微软 office 系列,可以看下官方文档,之前我记得看到过有提供工具库,可以解析成结构化数据,貌似还有一个公司专门做文档解析为结构化数据的,提供网络 Api 和包(貌似是 java ),不过是收费的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/882422

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX