V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
em70
V2EX  ›  分享发现

doc 后缀改为 zip 解压后的结果让我惊呆了

  •  
  •   em70 · 2015-02-15 14:11:16 +08:00 via Android · 12413 次点击
    这是一个创建于 3598 天前的主题,其中的信息可能已经有所发展或是发生改变。
    原来word文档就是一个压缩包,一堆XML,一堆图片,怎么我以前不知道,还费劲的去用插件提取文档里的图片。特此分享,希望大家别走弯路了。
    29 条回复    2015-02-25 22:20:52 +08:00
    DennyDai
        1
    DennyDai  
       2015-02-15 14:14:56 +08:00
    。。。早就发现了。。。
    BTW:你把其中那个XML改了还能造成一些XXE漏洞
    cnnblike
        2
    cnnblike  
       2015-02-15 14:16:02 +08:00
    Office 2013支持这个,但是很老的版本应该不支持的。
    sandtears
        3
    sandtears  
       2015-02-15 14:16:29 +08:00 via Android
    word 本来就是压缩包啊……以前还帮人恢复过出错的文件,就是写程序检测那个 xml 的问题
    binux
        4
    binux  
       2015-02-15 14:21:33 +08:00
    不是所有的 doc
    pi1ot
        5
    pi1ot  
       2015-02-15 14:25:34 +08:00   ❤️ 1
    docx,pptx,xlsx才是,我倒是奇怪这是之前office更新时大力宣传的特性,居然你们的现在才知道
    tabris17
        6
    tabris17  
       2015-02-15 14:28:33 +08:00
    有x后缀的才是
    zts1993
        7
    zts1993  
       2015-02-15 14:28:35 +08:00
    是docx不是doc吧。。。。。。。。。。。。。
    kn007
        8
    kn007  
       2015-02-15 14:34:22 +08:00
    多久前的新闻了
    xi_lin
        9
    xi_lin  
       2015-02-15 14:50:53 +08:00
    07开始的事
    xiaogui
        10
    xiaogui  
       2015-02-15 14:52:49 +08:00
    docx 是压缩包
    otakustay
        11
    otakustay  
       2015-02-15 15:04:56 +08:00
    docx就是open office xml,当年还大力宣传呢,文件本身就是ooxml打成zip
    NeoAtlantis
        12
    NeoAtlantis  
       2015-02-15 15:09:41 +08:00 via Android
    之前同学费劲写的毕设论文被word搞坏了,目测是解析xmk到一半就终止,文章看上去就只剩开头了。于是python+beautifulsoup搞定,起码恢复了文本。
    pheyer
        13
    pheyer  
       2015-02-15 15:31:52 +08:00
    我也是第一次才知道这个呢
    scusjs
        14
    scusjs  
       2015-02-15 15:32:17 +08:00
    xls, ppt 也一样,这是一个标准
    mortal
        15
    mortal  
       2015-02-15 16:10:33 +08:00
    .pages 还是个文件夹呢=。=
    cfans1993
        16
    cfans1993  
       2015-02-15 16:33:05 +08:00
    我还知道,docx、pptx、xlsx的文件头编码是一样的
    Semidio
        17
    Semidio  
       2015-02-15 17:44:15 +08:00
    kimmykuang
        18
    kimmykuang  
       2015-02-15 17:51:59 +08:00
    我还通过这个方法给word文档加过一个text的component呢,给docx加component的功能,根据我的观察下来貌似大部分PHP第三方扩展都不支持,所以最后的解决方案就是把docx加压出来然后找到位置修改,最后再打包回去。
    phoeagon
        19
    phoeagon  
       2015-02-15 18:31:19 +08:00 via Android
    欢迎op来到地球
    yyfearth
        20
    yyfearth  
       2015-02-15 19:06:26 +08:00
    @cfans1993 没啥 都是普通的zip文件 然后里面一堆xml和资源文件
    手动修改优化我都做过
    另外现在很多软件都这样 保存的文件实际上就是一个文件夹然后zip打包
    Quaintjade
        21
    Quaintjade  
       2015-02-15 19:10:25 +08:00 via Android
    用记事本打开docx,xlsx,pptx,apk等文件,开头都是PK
    lsylsy2
        22
    lsylsy2  
       2015-02-15 23:06:50 +08:00 via Android
    x是zip压缩
    旧的doc是一个类似fat的迷你文件系统
    clanned
        23
    clanned  
       2015-02-15 23:59:41 +08:00 via Android
    安卓apk也是zip包,这类情况很多的,如openwrt的ipk包貌似是gzip包等等
    loading
        24
    loading  
       2015-02-16 00:06:38 +08:00 via Android
    提取图片要这样?
    另存为网页格式不就都在文件夹了……
    msg7086
        25
    msg7086  
       2015-02-16 07:16:00 +08:00
    欢迎来到地球。epub也是zip。
    xiaoai
        26
    xiaoai  
       2015-02-16 08:42:48 +08:00
    →_→火星人 TC一直都是这么干的
    est
        27
    est  
       2015-02-16 09:27:52 +08:00   ❤️ 1
    LZ还是回朋友圈吧。。。。。。。。。解压apk ipa你会更加惊呆的。当你知道exe也能解压是不是整个人都要崩溃了。
    sheephe
        28
    sheephe  
       2015-02-25 18:48:53 +08:00
    @kn007 这个skill我以前就自摸过yo(=v= 好巧你怎么也在!
    kn007
        29
    kn007  
       2015-02-25 22:20:52 +08:00
    @sheephe 我一直都在,只是一直没注册,注册后也一直潜水,今年开始冒泡
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4102 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 05:20 · PVG 13:20 · LAX 21:20 · JFK 00:20
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.