求助, C# pdf 转 jpg 图片

2021-02-05 17:13:39 +08:00
 cyersvet

最近需要把 pdf 经过添加背景,提取相关内容作为文件名后把每页转为 jpg 图片,找来找去,C#语言只有 itext7 这一开源库比较好用些,不过缺乏转图片的功能,github 上有人在 itext7 基础上添加了这一功能: https://github.com/thombrink/itext7.pdfimage,可是在转换近程中发现几个 bug 导致无法成功转换,比如超过 300 页报错,无法识别字体名称以及转换成的图片缺少内容等。前 2 个 bug 试着改作者的源代码可以暂时解决,唯缺失内容这个,我不知道怎么改。当时提交了 issue 并联系了作者(详见 https://github.com/thombrink/itext7.pdfimage/issues ),可是一直未见解决办法的答复。不知道这里是否有人感兴趣能解决一下?

2317 次点击
所在节点    C#
7 条回复
forgottencoast
2021-02-08 00:06:04 +08:00
一般缺失是因为没有识别出来,你可以去看看为什么没有识别出来内容,有可能是你的内容在 pdf 中的是以一种特别的组件存在的,所以没识别出来。如果是这种情况,你可以自己加。
cyersvet
2021-02-08 08:07:00 +08:00
@forgottencoast 有个不识别的内容是边框,不知怎么加
forgottencoast
2021-02-08 13:28:25 +08:00
@cyersvet 你尝试把 pdf 做成只剩下那个边框,然后把代码下载到本地进行调试,然后在大概可能的位置断点,看看是什么原因无法识别。
VictorJing94
2021-02-20 15:53:58 +08:00
好像 Adobe 还是其他一个什么阅读器的 api 提供转换功能的....具体记不清了
MaiKuraki
2021-03-01 22:02:09 +08:00
nuget 上不是有很多吗,去搜搜
https://www.nuget.org/packages?q=pdf+to+jpg
tangmanger
2021-04-09 11:44:07 +08:00
pdfium 你值得拥有,或者有一个 pdfviewer 二次封装的,但是有一个 bug,他在绘制图片用了 bitmap x86 有时候会抛出内存溢出,你可以试试
cyersvet
2021-04-09 12:35:50 +08:00
@tangmanger 我最后就是用 pdfmium 解决的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/751619

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX