找高人帮忙写一个 iOS 平台上的 PDF 解析器,有酬!

2018-01-30 12:03:01 +08:00
 forkon

想将 PDF 页面上的文本和图片提取出来,并按它们出现的先后顺序进行排序。

在网上找了很多方案都达不到理想的效果:

  1. 苹果官方的 PDFKit 可“准确”(不含不必要的换行符)地提出页面上的文本,但是无法提取图片, 提取出的文字也不含其在页面上的位置信息。
  2. PSPDFKit 可提出含位置信息的文本,但它是按行而不是按段落提取,此外它还可以提取页面上的图片,不过不完美,时有提取不到的情况发生。

还试了其它的一些 PDF 资源提取工具,发现取出来的文本都含有不必要的按行符,页面上的图片也不是所有的都能取到。

现在想找人写一个可以用在我的 iOS 项目里的 PDF 解析器,开源闭源都可以,有报酬,可开价。

关于这个解析器,我希望给它一个 PDF 文档和指定的页码就能返回一个包含排好序的文本和图片信息(如果有的话)的数组。

3852 次点击
所在节点    iOS
15 条回复
laobaozi
2018-01-30 14:27:16 +08:00
如果没找到合适的 iOS 提取,是不是可以考虑服务器提取之后返回
forkon
2018-01-30 14:28:34 +08:00
@laobaozi 这也是一个思路,不过我想让我的 App 离线也能用。
laobaozi
2018-01-30 15:24:46 +08:00
forkon
2018-01-30 16:00:21 +08:00
@laobaozi 谢谢啦 不过这个我已经看过了 讲得不够深入

发现 pdf 的解析真的很复杂……
shuson
2018-01-30 16:36:34 +08:00
forkon
2018-01-30 17:03:05 +08:00
@shuson 我要处理的是非扫描生成的 pdf 所以用不上 ocr
3a3Mp112
2018-01-30 17:05:02 +08:00
你这个活,放在 V2EX 要 5W, 猪八戒都要 1W
forkon
2018-01-30 17:44:49 +08:00
@3a3Mp112 你能写吗
znood
2018-01-30 18:07:43 +08:00
转 word ?
3a3Mp112
2018-01-30 19:45:35 +08:00
@forkon 重新想了一下 ,没什么好思路,写不出。 猪八戒 2 万可以试试。
forkon
2018-01-30 21:40:19 +08:00
@znood 每打开一个都转一遍? iOS 平台上有好用的 pdf 转 word 的 lib ? word 的解析很容易?
yyrj
2018-01-30 22:04:03 +08:00
5 万可以试试
hackpro
2018-01-30 22:11:17 +08:00
有无 PDF 样张提供 是否需要处理页眉页脚脚注页码信息,可以尝试下
forkon
2018-01-31 00:07:30 +08:00
@hackpro 只要不是扫描类的 pdf 都可以 只好是能把页眉页脚脚注页码信息去掉只保留正文
forkon
2018-01-31 00:11:37 +08:00
@yyrj 你要是能做得比 PSPDFKit 好,然后像他们那内闭源卖 license,何止赚 5 万?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/427056

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX