如何批量处理并替换掉 PDF 中的图片?

楼主有许多PDF,几千个吧,要批量去掉PDF中的一些图片的水印
然后要将去掉水印的图片把PDF中原来的图片替换掉

想到的一个思路:
将PDF批量转换成docx,然后将docx重命名zip,再解压,图片都在里面了,处理并替换掉,然后再打包成zip,再变为docx格式,然后再转换为PDF
理论上可行,缺点就是速度很慢

另外分享我去水印的方法:
用python的pillow库,由于水印是打在图片上的纯文字水印,把水印的RGB值(其实是一个范围)提出来,批量替换掉就行了.

lilydjwg

2015-07-26 00:01:19 +08:00

找一个 PDF 解析库。找不到就自己写一个吧=w=

ppdg

2015-07-26 05:44:59 +08:00

这方法应该会误伤不少吧，你想要的应该是这个效果吧，中间那个去字的http://www.cvchina.info/2010/06/01/sparse-representation-vector-matrix-tensor-1/

zjqzxc

2015-07-26 09:41:57 +08:00

“用python的pillow库,由于水印是打在图片上的纯文字水印,把水印的RGB值(其实是一个范围)提出来,批量替换掉就行了.”
曾经用MATLAB做过这个操作，效果不算太好，有一定量误伤。主要是它还是扫描书，有些页有点儿斜，没有写梯形校正。其实，acrobat可以把pdf的每一页都以图片形式输出，页面顺序就是文件名顺序。批量处理后再用acrobat组装起来（还是全选，然后确定）。原文有目录的话，可以把目录导出再附加到新的文件里面。（acrobat貌似不行，网上可以找到执行这个功能的软件）

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/208342

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.