论文里面的 introduction 和 conclusion 抽取

2019-12-20 16:43:20 +08:00
 okface
pdf 转 txt 之后,需要抽取简介和结论两部分内容。
除了正则,有什么好的办法吗?
2609 次点击
所在节点    Python
1 条回复
xupefei
2019-12-20 17:32:07 +08:00
如果论文是双栏的,那准确度做不到 100%吧。
有时候 pdf 看起来是双栏,其实文本区域是在一起的。

如果有 latex 源码的话,可以用正则抽,准确度 100%。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/630896

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX