keepRun 最近的时间轴更新
keepRun

keepRun

V2EX 第 296525 号会员,加入于 2018-03-04 23:00:26 +08:00
51 S 19 B
2023 年,你们读了哪些技术书籍,推荐下
程序员  •  keepRun  •  18 天前  •  最后回复来自 GavinXSF
80
教大家一个快速 OCR 复制电脑上任何文字的办法
  •  1   
    程序员  •  keepRun  •  46 天前  •  最后回复来自 lycorischeung
    12
    严肃探讨下程序员如何具备跨行业视角
    程序员  •  keepRun  •  83 天前  •  最后回复来自 KongR
    51
    教你们如何在 chrome 里面使用 new bing
  •  1   
    问与答  •  keepRun  •  119 天前  •  最后回复来自 miaosl
    33
    keepRun 最近回复了
    7 小时 42 分钟前
    回复了 Braisdom 创建的主题 程序员 Agile Query 网站上线了
    为你的技术精神点赞
    17 小时 12 分钟前
    回复了 weiwenhao 创建的主题 程序员 国产系统级编程语言与编译器,轻松与 C 语言进行交互
    我提个建议:即使是编程语言也要考虑市场需求,比如 java web 端强势,python 语法简洁易用,人工智能是强项,每个语言都有自己的强项,你也得考虑自己的语言应该偏重哪些方向,解决当前技术中哪些痛点
    20 小时 0 分钟前
    回复了 SZhan 创建的主题 Java 如何从一段自然语言中识别地址信息?
    @SZhan 你要是想了解我的那种算法,可以加我微信

    不过我感觉你这个是业务问题,不管算法怎么提高,总会有错误情况发生,这个问题应该在业务层面能够容忍并有改进措施,比如:信息错误了,有人看到了可以纠错,然后人工审核或者啥其它方式
    20 小时 8 分钟前
    回复了 SZhan 创建的主题 Java 如何从一段自然语言中识别地址信息?
    @SZhan 我以前做快递地址识别处理方式是按我那种算法,省识别完了就把对应字符串删除,以此类推,最终剩下来的就是客户最终留下的可能某某超市附近这样的详细地址
    1 天前
    回复了 fxxcsc 创建的主题 浏览器 Chrome 怎么更便捷的打开书签?
    快捷键:ctrl shift o
    1 天前
    回复了 vulgur 创建的主题 程序员 独立开发周记 #32:沮丧的一周
    赞美 op
    1 天前
    回复了 SZhan 创建的主题 Java 如何从一段自然语言中识别地址信息?
    @iOCZ 可以解决,我说的省市县你不会以为就不包括街道吧,省市县代指三级地址结构,要想四、五级都可以,而且地址可以缺失。
    我指出问题有啥不对?你这说话态度能不能好点
    1 天前
    回复了 SZhan 创建的主题 Java 如何从一段自然语言中识别地址信息?
    @Andrue 单个正则无法处理复杂的地址情况,而且即使写出来也会太复杂;写个匹配算法会更清晰易懂,性能也好
    1 天前
    回复了 SZhan 创建的主题 Java 如何从一段自然语言中识别地址信息?
    @Archeb 没必要用到人工智能,而且人工智能太耗算力了
    1 天前
    回复了 SZhan 创建的主题 Java 如何从一段自然语言中识别地址信息?
    模仿这个代码来写,我以前是把这个代码改成 java 版,然后加入很多我们的业务逻辑,这个代码并不是最完美的: https://github.com/wzc570738205/smartParsePro

    我以前做过地址识别这块,当年给拼多多的几十万商家提供了地址解析接口用于快递地址识别(同时识别出姓名、手机号、地址的省市县),以前做过这个接口每天都有上百万调用。
    首先,这个功能很坑爹,属于是难以做到完美,只能相对完美,识别也有准确率问题,可能识别错误,因为以下原因:1. 一年内总会有一些地方地名会改变 2. 有些地名有别称 3. 用户填写地址可能会少写省市区中任意几项 4. 用户输入的地址可能有缺漏,比如上海市漏写了市。

    我自己做这块是自己模仿上面的 github 代码自己写了一版新的算法,可以实现地址缺漏、地名少字的情况下依然识别。
    我给你解释下我的算法原理:
    首先一定要建立数据库存储全国所有省市县的名称,以及上级单位,杭州市有个 parent_id 指向浙江省,浙江省的 parent 是全国,必须有个字段记录别名,例如:杭州、杭州市都是同一条记录。
    然后针对地址从左到右先匹配省再匹配市再匹配县,匹配过程是从字符串去头 1 个字符、头两个字符,以此类推,在里面 contains 省,然后针对所有匹配出来的省做筛选( github 仓库中的筛选算法), 筛选出匹配的省后要把匹配出省的那个字符串删除,防止极端情况下省名影响到市名的匹配,以此类推继续匹配下级地址。

    如果你需要缺省或者缺市的情况下匹配,其实就建立一个 set 作为候选待匹配地址,例如缺省时,匹配市就相当于把全国所有省下面的市都加入这个候选名单。

    地址解析是个麻烦活,地址数据必然要不断更新的,如果只是演示或者流量比较小也许可以糊弄下,必然存在地址解析错误的情况,因此一定要针对地址解析错误有相应的处理方式。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5724 人在线   最高记录 6067   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 02:21 · PVG 10:21 · LAX 19:21 · JFK 22:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.