V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
bjzhush
V2EX  ›  程序员

100 元求一个能保存飞书页面为图文版本的方案

  •  1
     
  •   bjzhush · 2023-09-10 11:10:06 +08:00 · 2445 次点击
    这是一个创建于 442 天前的主题,其中的信息可能已经有所发展或是发生改变。

    需求:寻找一个能将飞书文章页面保存为离线的图文版 HTML 的方案

    详情:这个问题已经困扰我很久了,因为工作原因,很多资料都在飞书上,但是不是我写的,有些写的好的想备份一份放 obsidian ,但是飞书好像做了反爬或者其他的一些工作,无法保存完整页面,我不是做前端的,没有深入分析过

    已测试 SingleFile 及 savePageWe 扩展,只能保存到首屏的内容,GoFullPage 扩展可以截图全屏,但我不想要图片和 PDF 版本的,想要 HTML 版本的

    截止时间:2023 年 10 月 1 日前有效,采纳此贴中回复的第一个有效方案,需免费方案

    测试链接: https://uwdpzjnryu8.feishu.cn/docx/JGUpdkP0XoOwR0xvp9Xc2ME5ndh

    第 1 条附言  ·  2023-09-11 10:38:34 +08:00
    补充一个权限卡的比较严的飞书链接
    https://h0aadqm9fi.feishu.cn/docs/doccnfCvMuD5RbPPNXNDVNcrhKg
    codeself
        1
    codeself  
       2023-09-10 12:01:56 +08:00 via iPhone
    在浏览器里手动 ctrl+p 导出为 pdf 试试?
    zyy4548
        2
    zyy4548  
       2023-09-10 12:18:10 +08:00
    Vimal
        3
    Vimal  
       2023-09-10 12:37:57 +08:00
    测试链接可正常复制。全文粘贴到 obsidian ,图片还自带飞书图床链接,不占空间。
    若一定要 html 格式,ob 第三方插件 pandoc 可导出为 html ,或 typora 打开导出 html 格式

    若主要是解决飞书文档无法复制粘贴到 obsidian ,那还有其他方案。不确定最终需求。
    Vimal
        4
    Vimal  
       2023-09-10 12:41:50 +08:00   ❤️ 1
    解除飞书复制和右键限制。
    先安装油猴 Tampermonkey ,再安装这个脚本:
    https://greasyfork.org/zh-CN/scripts/473784-%E6%94%B9%E8%BF%9B%E9%A3%9E%E4%B9%A6%E4%BD%93%E9%AA%8C
    Myprajna
        5
    Myprajna  
       2023-09-10 13:02:20 +08:00
    设计师常用的图片采集工具,Ealge ( 128 元终生 1 人),Billfish (免费)。
    都提供了免费的整个网页的滚动截图工具。
    可以看他们的文档,装个插件试一下。
    https://eagle.cool/extensions
    https://www.billfish.cn/help/chajiancaiji
    Myprajna
        6
    Myprajna  
       2023-09-10 13:03:55 +08:00
    再用 ABBYY OCR 识别,最准确的 OCR 识别软件了。
    bjzhush
        7
    bjzhush  
    OP
       2023-09-10 14:23:08 +08:00
    @Myprajna 大哥,请审题,截图我自己就搞定了。截图比起 HTML 有几个问题,第一不方便索引搜索,第二文件过大,第三链接没法点击
    bjzhush
        8
    bjzhush  
    OP
       2023-09-10 14:30:24 +08:00
    @Vimal 我试了确实可以复制,但 HTML 的格式并不能比较兼容的转为 MD ,而且很多链接实际上有二三十页,这样复制、粘贴、再导出 HTML 、再导入笔记,效率太低了,几乎不现实
    bjzhush
        9
    bjzhush  
    OP
       2023-09-10 14:31:59 +08:00
    @zyy4548
    官方文档:因为它的下载方式是把选择的全部文档打包成压缩包后才会在浏览器返回给你,如果这个等待的过程中途断网或者电脑卡顿要重启,那你就白等那么长时间了。

    第一这个导出的应该是自己写的,第二每次都打包所有文档,也不太现实。。
    Lhcfl
        10
    Lhcfl  
       2023-09-10 14:38:31 +08:00
    试试保存为 mhtml
    ivan_wl
        11
    ivan_wl  
       2023-09-10 14:45:07 +08:00
    飞书文档不是自带导出为 word 格式么,再用 word 另存为 html 啊
    bjzhush
        12
    bjzhush  
    OP
       2023-09-10 14:52:34 +08:00
    @ivan_wl 有很多文档是设置了权限不让另存为的
    bjzhush
        13
    bjzhush  
    OP
       2023-09-10 14:54:25 +08:00
    @ivan_wl 试了,不行,只有首屏有内容
    vvhy
        14
    vvhy  
       2023-09-10 14:58:25 +08:00
    浏览器地址栏输入 javascript:innerHeight=9e9 回车,再划到最后让它加载完,然后用 SingleFile 保存
    ivan_wl
        15
    ivan_wl  
       2023-09-10 15:00:34 +08:00
    bjzhush
        16
    bjzhush  
    OP
       2023-09-10 16:37:48 +08:00
    @ivan_wl 谢谢你,这个文档我自己也可以存,但是很多文档设置了权限不让保存,所以还是需要插件之类的工具来自己离线保存
    bjzhush
        17
    bjzhush  
    OP
       2023-09-10 16:43:19 +08:00
    @vvhy 测试了下,有些文档可以保存成功,有些文档还是只有首屏或者完全空白
    Vimal
        18
    Vimal  
       2023-09-10 22:15:45 +08:00
    @bjzhush #8 用 ob 的话,油猴插件能不限篇幅复制粘贴过去,且带 md 格式+图片过去已经很优秀了。飞书团队也不是吃干饭的,防复制、右键、打印、保存各种防。找了对比多种方法,暂时没见过无权限还能直接保存的,复制已经是上优解。
    甚至其他收费下载工具也了解过,也是只支持复制文字(图片单独复制),粘贴到自己新开的飞书文档,按需导出格式。不说了
    t1cb2v754F32JdOs
        19
    t1cb2v754F32JdOs  
       2023-09-10 22:17:33 +08:00
    @bjzhush 我刚测试了我离职时候的方法,evernote web cliper ,记住不是 印象笔记 的 web cliper ,这样能够截取整个页面,也不会触发公司的安全策略。
    这个方法比截图好多了
    a90120411
        20
    a90120411  
       2023-09-10 22:41:00 +08:00
    简单看了下代码,这个页面在普通模式下是懒加载,而且有视口剔除,一般方法肯定是不好使的。有两个方法可以试一下:
    1 、HTML 页面里面有个很大的 JS 对象,里面是所有的文本和图片数据,规则很好理解,自己解析一下可以拼出文档。但我没在这个数据结构里面,看到文本样式的声明,可能拼出来会丢失样式。

    2 、(推荐)进这个文档的演示模式,然后再开幻灯片模式,可以直接拿到所有的 DOM 结构,我试了一下可以提取全文和图片。部分样式保留了,但丢失了一些特殊样式,需要从原始文档里面提取一下 css 文件挂上。
    bjzhush
        21
    bjzhush  
    OP
       2023-09-11 00:11:53 +08:00
    @a90120411 抱歉,我不是前端,虽然用了很多年 chrome debugger ,但是仅限于基本都网络和 js 片段,让我自己解析拼接文档实在是高看我了。。。


    @TheSpecialOne 我去搜了这俩 chrome 扩展,发现我一直用的是 evernote web cliper ,但是我一直是用印象笔记的,但是我试了 clip 整个页面也只捕获到了首屏,且左侧栏直接大片错乱。
    然后我试了用 evernote+Evernote web clip ,也是差不多的效果。


    @Vimal 有一些稍微负责的格式 MD 会转换错误的,比如表格,所以 HTML 还是得 HTML 来接
    a90120411
        22
    a90120411  
       2023-09-11 00:42:42 +08:00
    @bjzhush #21 试试方法 2 吧,简单点一些,但想完美输出,还是要 Coding 的。
    飞书这种页面除非是找到有针对性的工具,不然其他网友介绍的通用工具大概率都不可用。
    Maxvell
        23
    Maxvell  
       2023-09-11 02:21:19 +08:00
    可以直接用飞书文档的打印功能
    保存的 pdf 内容是可搜索的,链接可点击,文件略大(19 页图文 7mb)但可接受
    算是一个折中的方案
    Maxvell
        24
    Maxvell  
       2023-09-11 02:23:33 +08:00
    bjzhush
        25
    bjzhush  
    OP
       2023-09-11 10:36:07 +08:00
    @Maxvell 有些文档连打印权限也没有啊。。
    Maxvell
        26
    Maxvell  
       2023-09-11 14:15:59 +08:00
    @bjzhush 这种估计非常困难
    Mickeyy
        27
    Mickeyy  
       2023-09-19 21:17:04 +08:00
    同求方案,虽然我不是飞书的网页但是也是类似的需求。
    chenjunqiang
        28
    chenjunqiang  
       254 天前
    @Vimal 你好,老哥,方便问下,你这个全文复制到 obsidian 的这个方法,我上个月还可以用,但是现在也不行了,你那边也是吗?

    就是可以复制的出来,但是图片带不出来了。图片复制到 obsidian 的时候,变成链接了。不是图片。

    然后我测试复制到 evernote 也不行。
    hongyexiaoqing
        29
    hongyexiaoqing  
       64 天前
    飞书文档页面,数据都在 html 里的 JavaScript 层,只要自己手动渲染就行。
    这个扩展可以将文档转成 markdown https://github.com/lujunji4113/cloud-document-converter
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5984 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 03:14 · PVG 11:14 · LAX 19:14 · JFK 22:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.