@
SZhan 这个思路没问题,但是在调用此接口之前,你需要用 NER (命名实体识别)的技术,讲文本中的地址、街道分离,然后通过不同层级的地址(城市、道路名称、小区名称等等)来做一个概率匹配,最后得到 1-3 条候选方案(可以打分)。
最后用这几条结果去尝试高德/百度地图的地址接口来获得反馈,能帮你再处理一次。 (但如果是大规模应用的话,接口可能是要收费的)。
当然,命名实体识别,需要你首选有一套国内的地址库(省份、城市、区(县)、街道(乡/村)、社区、小区)这样的一个层级的地址,然后在此基础上做一个别名的语料库(比如黔、京、沪)。
之前做这个行业的时候,也一直没有找到特别官方的数据库,是自己捞了一份数据再请外包清洗的。这个数据还要更新,也是有点点维护成本。比较麻烦的是两个字的重复。(比如杭州有湖州街、上海有河南街),所以在你请求的时候,一定是要有预警( context )限制的。(我们当时是用的图谱,每个实体都是有类型限制的)
------
再补充一下,百度搜索、夸克搜索 这两个平台,内部都做过我上面整个过程的业务的(地址栏搜地址,给出地图卡片),但不清楚是否对外开放商用接口,理论上是有的。
你可以模拟下用户访问 query 查询这两个网站的 web 端测试一下。