如何提取文章或者字符串中指定的字符串

2020-07-28 10:18:17 +08:00
 xueyoucai

‘’‘ 山东省烟台市蓬莱市蓬莱市教育和体育局电器设备采购项目成交公告 一、采购人:蓬莱市教育和体育局 地址:蓬莱市海市路 177 号(蓬莱市教育和体育局) 联系方式:0535-5647984(蓬莱市教育和体育局) 采购代理机构:山东金诺建设项目管理有限公司烟台分公司 地址:山东省烟台市莱山县(区)迎春大街 177 号润华大厦 1 号楼 1703a 联系方式:0535-6905395 二、采购项目名称:山东省烟台市蓬莱市蓬莱市教育和体育局电器设备采购项目 采购项目编号(采购计划编号):SDGP370684202002000108 三、公告发布日期:2020 年 7 月 21 日四、成交日期:2020 年 7 月 27 日五、采购方式:竞争性谈判六、成交情况: 标包 货物服务名称 供应商名称 地址 成交结果 A 山东省烟台市蓬莱市蓬莱市教育和体育局电器设备采购项目 山东新华书店集团有限公司 山东省济南市市中区英雄山路 189 号 15.28 万元 七、采购小组成员名单:标包 A:谭莉、刘青志、景仕壮八、公告期限:2020 年 7 月 29 日 至 2020 年 7 月 29 日九、采购项目联系方式: 联系人:张婷婷 联系方式:0535-6905395 十一、未中标(成交)供应商的未中标(成交)原因:1 、蓬莱渤海电子科技有限公司:评审得分较低(其他情形本项目采用最低评标价法,报价高导致未中标) 2 、蓬莱市远望电脑网络工程有限公司:评审得分较低(其他情形本项目采用最低评标价法,报价高导致未中标) 3 、烟台雅瑞商贸有限公司:评审得分较低(其他情形本项目采用最低评标价法,报价高导致未中标) 4 、烟台钟金商贸有限公司:评审得分较低(其他情形本项目采用最低评标价法,报价高导致未中标) 5 、龙口军浩办公设备有限公司:评审得分较低(其他情形本项目采用最低评标价法,报价高导致未中标) ’‘’

文章如上所示 我想提取文章中的代理机构,中标机构 ,项目名称等信息 有没有好用的分析方法或者好用的库

2247 次点击
所在节点    Python
8 条回复
iv8d
2020-07-28 10:29:40 +08:00
个人觉得 zz 可能简单些
mumbler
2020-07-28 10:30:08 +08:00
以未中标企业为分界线先将文本区域划出来两个区域,中标企业会出现在未中标企业之前的文本里,剩下文本出现公司就是未中标企业,在这两个文本区域再搜索公司名

公司名称可以提取“:”或者“、”与“公司”之间的字符,就是公司名称,出现在中标文本区就是中标企业,出现在未中标文本区就未中标企业
araraloren
2020-07-28 10:35:34 +08:00
这种文章只能分析所有的可能性来提取,人写的东西很容易有多种不同的表达或者格式。。
xueyoucai
2020-07-28 10:40:39 +08:00
@araraloren 所以就是 很复杂的 对吗
wagjia
2020-07-28 11:38:40 +08:00
用正则表达式可以试试 可以按照关键字来取 比如代理机构:到地址: 可以取中间的内容,前提是这些都是固定的文书
SakuraSa
2020-07-28 11:39:44 +08:00
感觉是要做 NLP 领域的 实体识别 /实体抽取
腾讯、阿里、百度之类大厂应该都有付费的 api
Merlini
2020-07-28 11:42:01 +08:00
正则加上 named entity recognition 是一种思路。
mfanming
2020-08-19 14:47:55 +08:00
@mumbler 这种中标信息,每个省都有不同的标书模板,即使是省内也会不同(有些省不要求,那就看代理公司用什么模板了)。
感觉是不复杂,但会非常麻烦。我想楼哦著没有自己搞是因为这个

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/693658

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX