好像发现 没有 文件转换 这类的库啊?

2024-01-11 13:50:01 +08:00
jamel  jamel
几乎市面上的 html 互转 pdf ,html 互转 word 的工具都要收费,都想打算自己做一个了。
python 好像有一个,java 有一个 转 pdf 的,但是没有转 word 的。
估计只能做一个了。。。难搞
2377 次点击
所在节点   程序员  程序员
18 条回复
murmur
murmur
2024-01-11 13:52:48 +08:00
html 转 pdf 用无头浏览器打印就行了

html 转 word 效果会很差 不建议使用 还是直接转 pdf 吧

word 转 html 也是 得用在线 office 预览

pdf 转 html 这个得 ocr 识别 收费没毛病

基于你的需求除了 html 转 pdf 估计都做不出来
xtreme1
xtreme1
2024-01-11 13:55:25 +08:00
你比 knuth 还牛逼
wWjd5V5L0636B5YV
wWjd5V5L0636B5YV
2024-01-11 13:57:32 +08:00
之前做过 docx 转 html 的需求 恶心死了 关键字替换组件更恶心
wWjd5V5L0636B5YV
wWjd5V5L0636B5YV
2024-01-11 13:58:30 +08:00
@xiaogang530 用 Java 在后台硬拼接的 然后上传到 fastdfs
kilasuelika
kilasuelika
2024-01-11 14:09:50 +08:00
pandoc 不能满足要求吗
zydxn
zydxn
2024-01-11 14:14:42 +08:00
你自己做一个试试呗,别说转换了,导出 word 做的就很恶心,大多都是基于 FTL ( xml 格式)去做占位符和替换。
cnoder
cnoder
2024-01-11 14:15:55 +08:00
coyove
coyove
2024-01-11 14:16:46 +08:00
html 转 pdf 还好,html 转 word 的需求点在哪,我们学校 60 岁的老教授都知道装个万能复制的插件了
siweipancc
siweipancc
2024-01-11 14:37:38 +08:00
直接调 C 库啊,你还在折腾什么?一大堆开源的工具,非得自己实现个四不像?
charlestang
charlestang
2024-01-11 15:07:54 +08:00
不是有什么 pandoc 么?支持狂多格式互转。另外以前我做过 html 转 pdf ,有一个叫 wkhtmltopdf 的库,挺好用,转得效果不错的。还能转图片。
Mithril
Mithril
2024-01-11 15:14:56 +08:00
唯一能正常支持几乎所有源文件效果的转换格式的,就是 HTML 转 PDF 。
严格来说这都不能叫格式转换,而是“渲染”和“打印”。把 HTML 加 CSS 通过渲染得出结果,然后按照打印的方式将渲染结果输出到 PDF 里。
你可以用 puppeteer 等工具做到这一点,比如前面说的 wkhtmltopdf ,实际原理都是一样的,要么套了 Chrome 或者 CEF ,要么直接 WebKit 。都是用浏览器来做的,这样才能做到完美转换和渲染样式。

其他方法和格式转换都属于“勉强能用”。只有 PDF 这种可以通过虚拟打印机来做最终输出的格式,才能作为能适配大多数格式的转换目标。

所以你看大多格式都能转成 PDF ,但 PDF 再转回去就有各种问题了。
Aixtuz
Aixtuz
2024-01-11 15:16:55 +08:00
之前用过 Pandoc ,对格式要求不苛刻的话,感觉还行。
weijancc
weijancc
2024-01-11 15:17:52 +08:00
node 有一个 html 转 word 的, 效果还可以, https://github.com/privateOmega/html-to-docx
Skifary
Skifary
2024-01-11 15:24:06 +08:00
因为文件转换特别是 pdf 几乎是没有通用转换方法的,只能根据特定的格式做解析去解决特定的需求
abersheeran
abersheeran
2024-01-11 20:45:47 +08:00
因为别人不想免费开发这种对于很多人都是刚需的东西。
duzhuo
duzhuo
2024-01-12 08:57:12 +08:00
pandoc 咯
jamel
jamel
2024-01-12 10:34:24 +08:00
@duzhuo pandoc 是不是收费的?
dode
dode
2024-01-12 10:46:42 +08:00
今年搞了 html 转 word 的功能,可以实现文字、图片、表格的全部转换

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1007787

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX