最近遇到一个需求,需要进行大量的手机号数据比对工作。大致要求是这样的: 1、每个人大致有 100-500 个联系人号码不等,个别肯能有超过 10000 个联系人。这些联系人都按号码和名称存入一个表里。总数大概有 500-600w 条的样子。 2、我现在需要比对用户通讯录的重复数据。比方说一个新用户注册后,app 会自动把通讯录存到服务器中。这时我就要比对这个用户的通讯录和以前所有用户的通讯录号码重复率,如果重复率超过一定比例,比如说超过 50%,就把该用户单独筛选出来。
我现在的处理方式是先在 Python 中把用户的号码生成一个列表,然后不断的循环进行列表的比对。但这个速度实在是不可接受。在此请教下 v2 上的各位高人同学看看有没有什么更好的办法。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.