找高人帮忙写一个 iOS 平台上的 PDF 解析器，有酬！

2018-01-30 12:03:01 +08:00

forkon

想将 PDF 页面上的文本和图片提取出来，并按它们出现的先后顺序进行排序。

在网上找了很多方案都达不到理想的效果：

苹果官方的 PDFKit 可“准确”（不含不必要的换行符）地提出页面上的文本，但是无法提取图片, 提取出的文字也不含其在页面上的位置信息。
PSPDFKit 可提出含位置信息的文本，但它是按行而不是按段落提取，此外它还可以提取页面上的图片，不过不完美，时有提取不到的情况发生。

还试了其它的一些 PDF 资源提取工具，发现取出来的文本都含有不必要的按行符，页面上的图片也不是所有的都能取到。

现在想找人写一个可以用在我的 iOS 项目里的 PDF 解析器，开源闭源都可以，有报酬，可开价。

关于这个解析器，我希望给它一个 PDF 文档和指定的页码就能返回一个包含排好序的文本和图片信息（如果有的话）的数组。

3895 次点击

所在节点

iOS

15 条回复

laobaozi

2018-01-30 14:27:16 +08:00

如果没找到合适的 iOS 提取,是不是可以考虑服务器提取之后返回

forkon

2018-01-30 14:28:34 +08:00

@laobaozi 这也是一个思路，不过我想让我的 App 离线也能用。

laobaozi

2018-01-30 15:24:46 +08:00

https://developer.apple.com/library/content/documentation/GraphicsImaging/Conceptual/drawingwithquartz2d/dq_pdf_scan/dq_pdf_scan.html 看看这个有没有帮助

forkon

2018-01-30 16:00:21 +08:00

@laobaozi 谢谢啦不过这个我已经看过了讲得不够深入

发现 pdf 的解析真的很复杂……

shuson

2018-01-30 16:36:34 +08:00

https://github.com/garnele007/SwiftOCR
注意 license

forkon

2018-01-30 17:03:05 +08:00

@shuson 我要处理的是非扫描生成的 pdf 所以用不上 ocr

3a3Mp112

2018-01-30 17:05:02 +08:00

你这个活，放在 V2EX 要 5W，猪八戒都要 1W

forkon

2018-01-30 17:44:49 +08:00

@3a3Mp112 你能写吗

znood

2018-01-30 18:07:43 +08:00

转 word ？

3a3Mp112

2018-01-30 19:45:35 +08:00

@forkon 重新想了一下，没什么好思路，写不出。猪八戒 2 万可以试试。

forkon

2018-01-30 21:40:19 +08:00

@znood 每打开一个都转一遍？ iOS 平台上有好用的 pdf 转 word 的 lib ？ word 的解析很容易？

yyrj

2018-01-30 22:04:03 +08:00

5 万可以试试

hackpro

2018-01-30 22:11:17 +08:00

有无 PDF 样张提供是否需要处理页眉页脚脚注页码信息，可以尝试下

forkon

2018-01-31 00:07:30 +08:00

@hackpro 只要不是扫描类的 pdf 都可以只好是能把页眉页脚脚注页码信息去掉只保留正文

forkon

2018-01-31 00:11:37 +08:00

@yyrj 你要是能做得比 PSPDFKit 好，然后像他们那内闭源卖 license，何止赚 5 万？

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/427056

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.