如何对大量 Excel 和 Worc 数据字段提取整理

2017-09-16 17:21:58 +08:00
 aceseo

目前我这边有个数据批量整理的的需求,接收到大量基于 Word 和 Excel 的表单字段,我需要将其整理相应的字段汇总输出成 Excel 进行分析在处理,整体数据在 50W 条左右,请问有相应的工具或者思路解决这个问题吗?

目前想到的是 Python 和 VBA 处理 Excel,对于 Word 没有太好的方法

1453 次点击
所在节点    问与答
3 条回复
qlbr
2017-09-16 17:27:59 +08:00
把后缀名 docx 改成 rar, 解压, 然后看 word\document.xml 有没有你想要的东西吧
053700
2017-09-16 17:38:27 +08:00
用 java 都可以做没理由用 python 做不出。楼主可以考虑用 java 做,有相关的轮子。
oisc
2017-09-16 17:45:32 +08:00
pandas

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/391234

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX