让人崩溃的需求!从网页中爬取地址信息, Java

2018-09-29 15:49:51 +08:00
 Yohann97

我现在的做法,用 jsoup 去标签,然后在得到的字符串里面找地址

可是!!! 地址没什么规律啊

有的在一个标签里,有的在多个标签里,还有的中间有逗号

无语。。。。。

所以大佬们有什么建议能帮帮我这只小菜鸡么

示例: 湖北省武汉市武昌区东湖西路特 2 号平安财富中心(东湖大厦正对面) B 座 7 楼 桂林市公共资源交易中心 4 号 柳州市柳江新城区,北接柳江大道(原堡隆路),南至南一路(原广场北路) 江苏省淮安市高教园区科技路 山东省淄博市张店区北西五路 68

3197 次点击
所在节点    问与答
26 条回复
Aoang
2018-09-29 16:07:16 +08:00
xx 省 xx 市
Yohann97
2018-09-29 16:20:44 +08:00
@Aoang 明显不行呦
lhx2008
2018-09-29 16:24:43 +08:00
找地址提取的轮子
lithium4010
2018-09-29 16:28:01 +08:00
具体什么网页?
mhycy
2018-09-29 16:46:34 +08:00
关键字分割后重组
lyusantu
2018-09-29 16:56:17 +08:00
人为开发的都是有一定的规则的
Yohann97
2018-09-29 17:17:26 +08:00
@lhx2008 地址是给定的,不用爬
Yohann97
2018-09-29 17:19:22 +08:00
Yohann97
2018-09-29 17:22:53 +08:00
@mhycy 嗯嗯,想过,但是关键字不好确定,可以看下我放的那两个网址。而且比如“地址”的话是很常见的关键字,后面跟的不一定是地址,比如“单位地址:_____________________________”,这样的
Yohann97
2018-09-29 17:23:56 +08:00
@lyusantu 说实话,我感觉要么是好几个人开发的,要么是机器生成的
xycool
2018-09-29 17:44:20 +08:00
@Yohann97 这难道是不是 cms 发布出来的吗。。。
zhuangjia
2018-09-29 17:56:04 +08:00
没有头绪。。。
EvilCult
2018-09-29 18:04:34 +08:00
我觉得这事儿需要 py 大佬的人工智能.........
cccssss
2018-09-29 18:06:01 +08:00
你找找发快递时候,app 里粘贴一段文本就能识别地址的轮子
kokutou
2018-09-29 18:07:37 +08:00
看看顺丰和圆通的微信小程序?
地址自动识别,但是提供对话框让用户查错修改。
ClutchBear
2018-09-29 18:17:18 +08:00
![]( https://ww1.sinaimg.cn/large/005YhI8igy1fvqkuamd34j313k0fggp5)
用 foolnltk 大该能处理成这样的.
ClutchBear
2018-09-29 18:20:37 +08:00
ClutchBear
2018-09-29 18:21:39 +08:00
foolnltk 基本上能满足,
不满足就需要手动调整了.
ClutchBear
2018-09-29 18:24:18 +08:00
代码
```
import fool
text = """七、采购人联系方式

采购单位:湖北省梁子湖管理局

地 址:鄂州市梁子湖区梁子镇广场大道 1 号

联 系 人:袁主任

电 话:0711-2473006

八、代理机构联系方式

单 位:武汉渤正项目管理有限公司

地 址:武汉市中北路楚河汉街同成富苑 A 座 2706

邮 编:430077

联 系 人:刘工

电 话:027-86615324"""
words, ners = fool.analysis(text)
print(ners)
```
<script src="https://gist.github.com/playbear/c89115a6905d9f346ffeb70c5543fc62.js"></script>
ClutchBear
2018-09-29 18:24:37 +08:00
结果
[[(16, 34, 'location', '湖北省梁子湖管理局\n\n 地 址'), (34, 55, 'location', '鄂州市梁子湖区梁子镇广场大道 1 号\n\n'), (60, 64, 'person', '袁主任'), (63, 67, 'person', '\n\n 电'), (66, 70, 'person', ' '), (105, 118, 'company', '武汉渤正项目管理有限公司'), (126, 147, 'location', '武汉市中北路楚河汉街同成富苑 A 座 2706'), (169, 173, 'person', '刘工\n')]]

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/493876

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX