如何提取文章中指定的信息或者字段

2020-07-28 10:30:03 +08:00
 xueyoucai

文章如下所示 我想提取文章中的代理机构,中标机构 ,项目名称等信息 有没有好用的分析方法或者好用的库

‘’‘ 山东省烟台市蓬莱市蓬莱市教育和体育局电器设备采购项目成交公告 一、采购人:蓬莱市教育和体育局 地址:蓬莱市海市路 177 号(蓬莱市教育和体育局) 联系方式:0535-5647984(蓬莱市教育和体育局) 采购代理机构:山东金诺建设项目管理有限公司烟台分公司 地址:山东省烟台市莱山县(区)迎春大街 177 号润华大厦 1 号楼 1703a 联系方式:0535-6905395 二、采购项目名称:山东省烟台市蓬莱市蓬莱市教育和体育局电器设备采购项目 采购项目编号(采购计划编号):SDGP370684202002000108 三、公告发布日期:2020 年 7 月 21 日四、成交日期:2020 年 7 月 27 日五、采购方式:竞争性谈判六、成交情况: 标包 货物服务名称 供应商名称 地址 成交结果 A 山东省烟台市蓬莱市蓬莱市教育和体育局电器设备采购项目 山东新华书店集团有限公司 山东省济南市市中区英雄山路 189 号 15.28 万元 七、采购小组成员名单:标包 A:谭莉、刘青志、景仕壮八、公告期限:2020 年 7 月 29 日 至 2020 年 7 月 29 日九、采购项目联系方式: 联系人:张婷婷 联系方式:0535-6905395 十一、未中标(成交)供应商的未中标(成交)原因:1 、蓬莱渤海电子科技有限公司:评审得分较低(其他情形本项目采用最低评标价法,报价高导致未中标) 2 、蓬莱市远望电脑网络工程有限公司:评审得分较低(其他情形本项目采用最低评标价法,报价高导致未中标) 3 、烟台雅瑞商贸有限公司:评审得分较低(其他情形本项目采用最低评标价法,报价高导致未中标) 4 、烟台钟金商贸有限公司:评审得分较低(其他情形本项目采用最低评标价法,报价高导致未中标) 5 、龙口军浩办公设备有限公司:评审得分较低(其他情形本项目采用最低评标价法,报价高导致未中标) ’‘’

1895 次点击
所在节点    Python
4 条回复
TimePPT
2020-07-28 11:20:37 +08:00
格式规整用正则,不规整得上 NLP
这个叫做非结构化文档数据的结构化抽取
Mutoo
2020-07-28 11:23:33 +08:00
OpenAI 最近新出的 GPT-3 可以完成这种自然语言信息提取,非常牛逼。不过不知道啥时候支持中文。
TimePPT
2020-07-28 11:43:00 +08:00
@Mutoo 这种程度的非结构化数据根本不需要用 GPT……
luolitao
2020-07-28 16:38:30 +08:00
原始网页上有分段信息,再加点关键字搜索基本上就可以匹配了,关键字和正则可以满足 99%左右的需求。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/693663

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX