如何批量处理并替换掉 PDF 中的图片?

2015-07-25 22:49:37 +08:00
 pc10201
楼主有许多PDF,几千个吧,要批量去掉PDF中的一些图片的水印
然后要将去掉水印的图片把PDF中原来的图片替换掉

想到的一个思路:
将PDF批量转换成docx,然后将docx重命名zip,再解压,图片都在里面了,处理并替换掉,然后再打包成zip,再变为docx格式,然后再转换为PDF
理论上可行,缺点就是速度很慢

另外分享我去水印的方法:
用python的pillow库,由于水印是打在图片上的纯文字水印,把水印的RGB值(其实是一个范围)提出来,批量替换掉就行了.
4686 次点击
所在节点    程序员
3 条回复
lilydjwg
2015-07-26 00:01:19 +08:00
找一个 PDF 解析库。找不到就自己写一个吧=w=
ppdg
2015-07-26 05:44:59 +08:00
这方法应该会误伤不少吧,你想要的应该是这个效果吧,中间那个去字的http://www.cvchina.info/2010/06/01/sparse-representation-vector-matrix-tensor-1/
zjqzxc
2015-07-26 09:41:57 +08:00
“用python的pillow库,由于水印是打在图片上的纯文字水印,把水印的RGB值(其实是一个范围)提出来,批量替换掉就行了.”
曾经用MATLAB做过这个操作,效果不算太好,有一定量误伤。主要是它还是扫描书,有些页有点儿斜,没有写梯形校正。其实,acrobat可以把pdf的每一页都以图片形式输出,页面顺序就是文件名顺序。批量处理后再用acrobat组装起来(还是全选,然后确定)。原文有目录的话,可以把目录导出再附加到新的文件里面。(acrobat貌似不行,网上可以找到执行这个功能的软件)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/208342

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX