用 Python 把 pdf 文件转到 markdown,有什么好的库或者方案吗?

2021-03-06 09:55:25 +08:00
 lixuda

pdf 文件是文本可编辑类型。网上搜索了下,没有找到很好的解决办法,问问大佬,有办法吗?或者转 html,谢谢了。

3059 次点击
所在节点    Python
10 条回复
MicroBotter
2021-03-06 10:28:41 +08:00
pdf 的文本只有 pdf/a 才是可以编辑的。你是不可能对任意 pdf 转化成合理的文本。
MicroBotter
2021-03-06 10:29:34 +08:00
转换任意 pdf 成文本的难度和写一个识别物体的人工智能难度差不多。
Latin
2021-03-06 10:32:05 +08:00
可以转换,但是样式基本就是纯文本
Latin
2021-03-06 10:32:27 +08:00
PDF to docx ==> html
Merlini
2021-03-06 11:56:49 +08:00
pdf 转文本的话,推荐 PyMuPdf 。
改成 markdown 的话可能你得自己识别里面的字体大小了。
jdhao
2021-03-06 12:05:36 +08:00
看看 pandoc 行不行
SenLief
2021-03-06 12:14:54 +08:00
如果是纯文本有可能转换,要不然效率太低。
encro
2021-03-06 13:58:51 +08:00
可以的。
首先转 html,
然后语义化,
转换为 h1,h2,...p 这样的,
然后换 markdown,很多格式肯定丢掉。

另外:markdown 一些解释器支持 html 好像。
inframe
2021-03-06 16:17:17 +08:00
那不如先用 office 转换到 word,然后再转换
omph
2021-03-06 16:35:58 +08:00
linux 倒是有 Poppler-utils,可以用其中的命令 pdftohtml,转成 html,字体大小倒是可以保留

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/758980

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX