[中文地址提取关键词,匹配标准库的关键词更换] 有什么好的实现思路吗?

2022-10-10 14:39:17 +08:00
 respect11

实例数据:

1.柒松江区上海市松江区岳阳街道木鱼弄 5-16 号木鱼弄小区木鱼弄 16 号 301 室 

#.提取为 [木鱼弄 16 号 301 室]

#.提取为标准库中的[西林塔居委]

2.九亭镇涞亭北路 99 弄 203 号 502 室 

#.提取为 [九亭镇涞亭北路 99 弄 203 号 502 室]

#.提取为标准库中的[奥园居委]

类似这样的数据,标准库中具体是什么关键词这个也不太清楚。有什么推荐算法或者实现思路吗?
1515 次点击
所在节点    程序员
13 条回复
blankmiss
2022-10-10 14:50:20 +08:00
怎么看起来像是 es 的分词?
respect11
2022-10-10 14:54:06 +08:00
@blankmiss #1 差不多,大佬可以推荐个分词后进行匹配算法吗?
joApioVVx4M4X6Rf
2022-10-10 15:00:35 +08:00
ner?
buyan3303
2022-10-10 15:01:09 +08:00
总感觉和顺丰自动提取地址类似,这个是不是可以在 GITHUB 上搜索一下 [顺丰 地址] 之类的关键词
respect11
2022-10-10 15:04:07 +08:00
@buyan3303 #4 对,第一步拆分提取差不多。核心主要是和标准库数据进行匹配,相当于路名或者小区提取出来某个居委会或者街道
respect11
2022-10-10 15:04:26 +08:00
@v2exblog #3 谢谢大佬,我去研究下
Troevil
2022-10-10 15:17:37 +08:00
nlp? 类似 paddlenlp 应该可以实现,不过对于你这个需求可能有点重
Vegetable
2022-10-10 15:18:50 +08:00
你这路子感觉不对劲,交给地图不好吗,使用高德之类的 API ,可以轻松的将不规则的地址标准化,再拿到自己的库里比对居委会,这玩意确实没见过开放 API
respect11
2022-10-10 15:20:45 +08:00
@Vegetable #8 环境特殊..这个必须内网😂
Vegetable
2022-10-10 15:30:36 +08:00
@respect11 你这么一说,大家估计都猜出来你在做什么了...你这个挺麻烦,但愿有现成的轮子吧
respect11
2022-10-10 15:32:30 +08:00
@Vegetable #10 😂
QuinceyWu
2022-10-10 15:33:14 +08:00
TimePPT
2022-10-10 17:15:21 +08:00
标准库中具体是什么关键词这个也不太清楚
================
这个提取好说,就是地点 NER 。但和标准库没法直接 NLP 替换啊,文本层面一点相似性都没有。你这匹配规则是啥都不清楚。明显是需要地点和区域映射。
如果外网的话,有些地图服务商提供 API 的,内网的话,只能自己维护。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/885791

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX