我想从论文中提取 ABSTRACT,因为论文的格式一般为 PDF,因此我先用了 pdfminer 包来对 pdf 进行 parser (这里先假设 parser 的结果是对的)。
之后我想从论文中提取 ABSTRACT 的内容,ABSTRACT 的一般格式为ABSTRACT\ncontent\n
,也就是说我想提取 content 的内容(可以认为 content 内容由文本内容和换行符\n 组成)。于是我用了
ABSTRACT\n([^\n]+\n)+\n'
对内容进行提取,但这种方法不 work。
之后我注意到在 re 中需要对\
转义,因此我把正则表达式修改为:
ABSTRACT\\n([^\\n]+\\n)+\\n'
修改之后,虽然可以在这里测试成功,但在代码里还是不 work。
PS:由于论文的结构性比较好,因此在抽取时完全可以不用 re 来完成任务,但由于我正则表达式知识不太够,因此想借着这个机会学习以下。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.