doc 后缀改为 zip 解压后的结果让我惊呆了

2015-02-15 14:11:16 +08:00
 em70
原来word文档就是一个压缩包,一堆XML,一堆图片,怎么我以前不知道,还费劲的去用插件提取文档里的图片。特此分享,希望大家别走弯路了。
12413 次点击
所在节点    分享发现
29 条回复
DennyDai
2015-02-15 14:14:56 +08:00
。。。早就发现了。。。
BTW:你把其中那个XML改了还能造成一些XXE漏洞
cnnblike
2015-02-15 14:16:02 +08:00
Office 2013支持这个,但是很老的版本应该不支持的。
sandtears
2015-02-15 14:16:29 +08:00
word 本来就是压缩包啊……以前还帮人恢复过出错的文件,就是写程序检测那个 xml 的问题
binux
2015-02-15 14:21:33 +08:00
不是所有的 doc
pi1ot
2015-02-15 14:25:34 +08:00
docx,pptx,xlsx才是,我倒是奇怪这是之前office更新时大力宣传的特性,居然你们的现在才知道
tabris17
2015-02-15 14:28:33 +08:00
有x后缀的才是
zts1993
2015-02-15 14:28:35 +08:00
是docx不是doc吧。。。。。。。。。。。。。
kn007
2015-02-15 14:34:22 +08:00
多久前的新闻了
xi_lin
2015-02-15 14:50:53 +08:00
07开始的事
xiaogui
2015-02-15 14:52:49 +08:00
docx 是压缩包
otakustay
2015-02-15 15:04:56 +08:00
docx就是open office xml,当年还大力宣传呢,文件本身就是ooxml打成zip
NeoAtlantis
2015-02-15 15:09:41 +08:00
之前同学费劲写的毕设论文被word搞坏了,目测是解析xmk到一半就终止,文章看上去就只剩开头了。于是python+beautifulsoup搞定,起码恢复了文本。
pheyer
2015-02-15 15:31:52 +08:00
我也是第一次才知道这个呢
scusjs
2015-02-15 15:32:17 +08:00
xls, ppt 也一样,这是一个标准
mortal
2015-02-15 16:10:33 +08:00
.pages 还是个文件夹呢=。=
cfans1993
2015-02-15 16:33:05 +08:00
我还知道,docx、pptx、xlsx的文件头编码是一样的
Semidio
2015-02-15 17:44:15 +08:00
kimmykuang
2015-02-15 17:51:59 +08:00
我还通过这个方法给word文档加过一个text的component呢,给docx加component的功能,根据我的观察下来貌似大部分PHP第三方扩展都不支持,所以最后的解决方案就是把docx加压出来然后找到位置修改,最后再打包回去。
phoeagon
2015-02-15 18:31:19 +08:00
欢迎op来到地球
yyfearth
2015-02-15 19:06:26 +08:00
@cfans1993 没啥 都是普通的zip文件 然后里面一堆xml和资源文件
手动修改优化我都做过
另外现在很多软件都这样 保存的文件实际上就是一个文件夹然后zip打包

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/171135

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX