如何提取 pdf 中的图片(svg\eps 矢量图以及 pdf 格式这种非常规图片格式)

2023-10-09 11:38:46 +08:00
 summerzhen
在论坛和社区种寻找过一些方法,但这些使用 PyPDF 和 PyMuPDF 库的方法基本只能提取 pdf 的 png ,jpg 格式的图形。
https://www.geeksforgeeks.org/how-to-extract-images-from-pdf-in-python/
https://stackoverflow.com/questions/2693820/extract-images-from-pdf-without-resampling-in-python

但 pdf 以下两种图片会提取不到:
1.以 svg 、eps 嵌入的矢量图(如曲线图)
2.以 pdf 格式嵌入的图(几张图组合在一起并有箭头等标记最终以 pdf 保存)

有什么办法可以解决以上问题吗
647 次点击
所在节点    问与答
2 条回复
passive
2023-10-09 14:05:48 +08:00
手动:adobe reader 里 zoom+resize 窗口只显示表格,然后打印当前 view 成 pdf

机动:改变 margin box ,嫌大就用工具把 box 外面的优化了
summerzhen
2023-10-10 20:58:49 +08:00
手动可以先 pass 了,想要批量的方式。
机动:未曾想到的道路,但随手打开了一个 pdf ,图片没有作为元素节点存在啊,一页就是一个最末级的 div

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/980176

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX