朋友们,把网页转为 word 的技术一般是什么流程? 如果能有开源项目地址,就更加感谢了.

2023-06-30 09:39:44 +08:00
 HUZHUANGZHUANG

我说的技术流程例如:先把 html 弄下来---转为---->A 格式---转为---->word

1389 次点击
所在节点    问与答
12 条回复
hahahahaha234
2023-06-30 09:56:20 +08:00
1. html 里面如果有 iframe 什么的,用 singFile 搞一下做成单文件 html
2. html 里面的图片什么的处理一下,换成 svg 的
3. new blob mss/word 形式的
4. 转换出来效果可能不是太好,需要对某些不好的地方单独处理样式
zhanggg
2023-06-30 10:05:59 +08:00
http://www.rfc.ac.cn/html/rfc2246.html 这个叫网页
https://js1k.com/2012-love/demo/1100 这个也叫网页
这两个网页转 word 的难度可不是一般大
c2const
2023-06-30 10:18:05 +08:00
https://qu.ai/ 如果是这种炫酷网页, 阁下又将如何应对? :)
coolair
2023-06-30 10:19:59 +08:00
最快、最简单、效果最好的办法就是,网页截个图,然后插到 word 里,边距设置为 0 ,搞定。
opengps
2023-06-30 10:20:05 +08:00
打开网页,Ctrl+A ,Ctrl+C
打开 word ,Ctrl+V
Ashore
2023-06-30 10:26:49 +08:00
截图后在 word 里插入图片
rming
2023-06-30 10:29:29 +08:00
https://pandoc.org/
https://superuser.com/questions/818127/how-to-convert-html-to-doc-docx-with-openoffice-or-libreoffice
之前搞过,效果不是很好
有个比较好的思路,就是先截图,然后用 OCR 还原排版,技术基本上是公开的
ccraohng
2023-06-30 10:29:31 +08:00
无头浏览器 pdf -> word
zackzergzeng
2023-06-30 10:39:13 +08:00
我是手动写的,我写的业务是将富文本编辑器中的 dom 结构转为 word 文档,富文本编辑器中的 dom 结构相对固定,使用的 tag 标签种类比较少,可以有穷举例解析,在用生成 word 的工具(我是用的是 js 的 docx 库)根据解析的结果生成 word
不知道对你有没有帮助
HUZHUANGZHUANG
2023-06-30 10:43:58 +08:00
@zackzergzeng

首先,非常感谢大家热心的回复,有些回复有用,有些没用,不过没关系,是我的问题,第一次提问问题没有描述清楚.

1 我针对的网页主要是内容网页,比如知乎,新闻网站这类型的.炫酷帅极能炸天的网页不是我的目标

2 大家说用 OCR 无头浏览器这类技术,我试过,但是和我想要的实现方案有一定的差距,我想通过操作网页 DOM 元素来获取网页内容.这样大部分网页我们都可以获取内容

3 我主要是看到 CKEditor5 富文本编辑器有插件可以直接把内容导出为 word,主要是导出后格式还不会变形,所以我想知道这类技术大概是怎么实现的?

4 感谢热心人们的回复,感谢
HUZHUANGZHUANG
2023-06-30 10:45:17 +08:00
@zackzergzeng 感谢回复,您的答案让我有启发,谢谢
villivateur
2023-06-30 14:44:43 +08:00
网页保存为 PDF ,然后再用 word 打开。
虽然只能应付简单的网页罢了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/952894

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX