V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
cz5424
V2EX  ›  问与答

有大佬研究过 office 转 pdf 吗?稳定并发的那种

  •  
  •   cz5424 · 2019-10-11 13:16:01 +08:00 · 3224 次点击
    这是一个创建于 1874 天前的主题,其中的信息可能已经有所发展或是发生改变。

    尝试过在 win 上使用 office 的 com 接口来处理文件,虽然方法可行,但是个别情况下会出现弹窗(输入密码,选择打印机之类的),excel,ppt 的文档 两个并发以上的话,会出现其中一个失败。。

    想问问各位大佬有什么好的方案来做 office 转 pdf 的 api,如果能在 linux 下更好

    17 条回复    2019-10-12 10:02:20 +08:00
    windpinw
        1
    windpinw  
       2019-10-11 13:29:51 +08:00
    Libreoffice, 可以看看
    ungrown
        2
    ungrown  
       2019-10-11 13:36:56 +08:00
    pdf 虚拟打印机啊
    jamesxu
        3
    jamesxu  
       2019-10-11 13:37:35 +08:00 via iPhone
    使用 jodconverter 配合 libreoffice
    cz5424
        4
    cz5424  
    OP
       2019-10-11 13:41:55 +08:00
    @ungrown 这种坑有点大。。操作打印机接口
    lycx5360
        5
    lycx5360  
       2019-10-11 13:45:39 +08:00
    itext+jodconverter+libreoffice
    cz5424
        6
    cz5424  
    OP
       2019-10-11 13:56:34 +08:00
    @lycx5360
    @jamesxu
    @windpinw

    与 win 的 office 转换的相比,转换出来的格式和字体会不会有问题?
    sethverlo
        7
    sethverlo  
       2019-10-11 14:02:15 +08:00
    之前做过类似的事情,但是太久远了大概说下…

    libreoffice unoconv 这类工具的问题在于出来的格式不太稳定,pdfkit 这类工具的问题在于可能没啥人维护了…

    还听说过 abiword, 我忘了为什么后来没有用了

    其实我想推荐 ms 自己的服务,好像是要自己搭个服务器什么的,那个应该是最稳定的
    mhycy
        8
    mhycy  
       2019-10-11 14:11:26 +08:00
    开一堆虚拟机生成 PDF 并返回资源信息,搞个队列排队处理
    cz5424
        9
    cz5424  
    OP
       2019-10-11 14:24:59 +08:00
    @mhycy 这个不是问题,目前也是这样处理,这个方案最烦的是,部分情况下会弹窗,比如文件带了密码。弹窗之后所有请求都处理不了,直接报错
    mhycy
        10
    mhycy  
       2019-10-11 14:28:39 +08:00
    @cz5424 密码问题前置验证搞起来,异常情况处理好,烦归烦也没太好的选择,为了兼容不是 WPS 就是 Office
    cz5424
        11
    cz5424  
    OP
       2019-10-11 15:02:23 +08:00
    @mhycy 目前不知道怎么处理密码。。有啥方式吗?
    agostop
        12
    agostop  
       2019-10-11 15:09:13 +08:00
    @sethverlo
    office online server
    目前只发现这个能转成网页方式,包括 ppt 的动画效果
    Vegetable
        13
    Vegetable  
       2019-10-11 15:10:58 +08:00
    office 自家 webapp,然后按照爬虫逻辑处理。
    cz5424
        14
    cz5424  
    OP
       2019-10-11 16:08:08 +08:00 via iPhone
    @mhycy 密码使用 zip 解压测试判断了,再观察看看有没有问题
    zzl22100048
        15
    zzl22100048  
       2019-10-11 17:04:21 +08:00
    我这边用的是 collabora code 效率还可以。https://github.com/zzl221000/Docker-CODE.
    jamesxu
        16
    jamesxu  
       2019-10-11 20:00:49 +08:00 via iPhone
    @cz5424 我这边试的是没问题的,转成的 PDF 跟 word 格式基本一样,字体也是,只要你把 Windows 下那些常见字体拷过去就行,如果要处理 word 内容就配合使用 POI
    windpinw
        17
    windpinw  
       2019-10-12 10:02:20 +08:00 via Android
    @cz5424 格式没啥问题,字体方面在 linux 下中文字体可能需要注意一下,不过也有解决办法。具体我忘了。。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3286 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 12:17 · PVG 20:17 · LAX 04:17 · JFK 07:17
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.